AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
大模型在装傻!谷歌苹果最新发现:LLM知道但不告诉你,掌握知识比表现出来的多

大模型在装傻!谷歌苹果最新发现:LLM知道但不告诉你,掌握知识比表现出来的多

大模型在装傻!谷歌苹果最新发现:LLM知道但不告诉你,掌握知识比表现出来的多

近日,来自谷歌和苹果的研究表明:AI模型掌握的知识比表现出来的要多得多!这些真实性信息集中在特定的token中,利用这一属性可以显著提高检测LLM错误输出的能力。

来自主题: AI技术研报
4417 点击    2024-10-20 17:16
英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快

英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快

英伟达nGPT重塑Transformer,AI训练速度暴增20倍!文本越长,加速越快

LLM训练速度还可以再飙升20倍!英伟达团队祭出全新架构归一化Transformer(nGPT),上下文越长,训练速度越快,还能维持原有精度。

来自主题: AI技术研报
5570 点击    2024-10-20 17:11
NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构的高效性能

NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构的高效性能

NeurIPS 2024 Oral | 小参数,大作为!揭秘非对称 LoRA 架构的高效性能

大型语言模型(LLMs)虽然在适应新任务方面取得了长足进步,但它们仍面临着巨大的计算资源消耗,尤其在复杂领域的表现往往不尽如人意。

来自主题: AI技术研报
5791 点击    2024-10-20 16:58
132年未解开的李雅普诺夫函数谜题,被Symbolic Transformer攻克了

132年未解开的李雅普诺夫函数谜题,被Symbolic Transformer攻克了

132年未解开的李雅普诺夫函数谜题,被Symbolic Transformer攻克了

牛顿没解决的问题,AI给你解决了? AI的推理能力一直是研究的焦点。作为最纯粹、要求最高的推理形式之一,能否解决高级的数学问题,无疑是衡量语言模型推理水平的一把尺。

来自主题: AI技术研报
4829 点击    2024-10-20 16:41
OCR-Omni来了,字节&华师统一多模态文字理解与生成 | NeurIPS2024

OCR-Omni来了,字节&华师统一多模态文字理解与生成 | NeurIPS2024

OCR-Omni来了,字节&华师统一多模态文字理解与生成 | NeurIPS2024

多模态生成新突破,字节&华师团队打造TextHarmony,在单一模型架构中实现模态生成的统一,并入选NeurIPS 2024。

来自主题: AI技术研报
4998 点击    2024-10-20 11:48
率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024

率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024

率先突破大规模多类数据损坏问题!中科大离线强化学习新方式入选NeurIPS 2024

机器人控制和自动驾驶的离线数据损坏问题有解了! 中科大王杰教授团队 (MIRA Lab) 提出了一种变分贝叶斯推断方法,有效地提升了智能决策模型的鲁棒性。

来自主题: AI技术研报
4992 点击    2024-10-20 11:43
苹果一篇论文得罪大模型圈?Transformer不会推理,只是高级模式匹配器!所有LLM都判死刑

苹果一篇论文得罪大模型圈?Transformer不会推理,只是高级模式匹配器!所有LLM都判死刑

苹果一篇论文得罪大模型圈?Transformer不会推理,只是高级模式匹配器!所有LLM都判死刑

苹果研究者发现:无论是OpenAI GPT-4o和o1,还是Llama、Phi、Gemma和Mistral等开源模型,都未被发现任何形式推理的证据,而更像是复杂的模式匹配器。无独有偶,一项多位数乘法的研究也被抛出来,越来越多的证据证实:LLM不会推理!

来自主题: AI技术研报
5444 点击    2024-10-19 16:32
大模型训练遭投毒损失千万美元?Anthropic惊人发现:LLM植入炸弹,代码库暗藏bug!

大模型训练遭投毒损失千万美元?Anthropic惊人发现:LLM植入炸弹,代码库暗藏bug!

大模型训练遭投毒损失千万美元?Anthropic惊人发现:LLM植入炸弹,代码库暗藏bug!

最近,大模型训练遭恶意攻击事件已经刷屏了。就在刚刚,Anthropic也发布了一篇论文,探讨了前沿模型的巨大破坏力,他们发现:模型遇到危险任务时会隐藏真实能力,还会在代码库中巧妙地插入bug,躲过LLM和人类「检查官」的追踪!

来自主题: AI技术研报
4908 点击    2024-10-19 16:24