AI资讯新闻榜单内容搜索-模型训练

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

自从 OpenAI 发布展现出前所未有复杂推理能力的 o1 系列模型以来，全球掀起了一场 AI 能力 “复现” 竞赛。近日，上海交通大学 GAIR 研究团队在 o1 模型复现过程中取得新的突破，通过简单的知识蒸馏方法，团队成功使基础模型在数学推理能力上超越 o1-preview。

来自主题: AI技术研报

7707 点击 2024-11-22 16:46

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

Scaling Law撞墙，扩展语言智能体的推理时计算实在太难了！破局之道，竟是使用LLM作为世界模型？OSU华人团队发现，使用GPT-4o作为世界模型来支持复杂环境中的规划，潜力巨大。

来自主题: AI技术研报

7029 点击 2024-11-22 13:38

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

今年 4 月，AI 领域大牛 Karpathy 一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」曾经引发机器学习社区的热烈讨论。

来自主题: AI资讯

7671 点击 2024-11-22 10:18

Dario Amodei：Scaling Law 还没遇到上限

Powerful AI 预计会在 2026 年实现，足够强大的 AI 也能够将把一个世纪的科研进展压缩到 5-10 年实现（“Compressed 21st Century”），在他和 Lex Fridman 的最新对谈中，Dario 具体解释了自己对于 Powerful AI 可能带来的机会的理解，以及 scaling law、RL、Compute Use 等模型训练和产品的细节进行了分享

来自主题: AI资讯

10100 点击 2024-11-22 10:06

手把手教你预训练一个小型 LLM｜Steel-LLM 的实战经验

随着开源数据的日益丰富以及算力价格的持续下降，对于个人或小型机构而言，预训练一个小型的 LLM 已逐渐成为可能。开源中文预训练语言模型 Steel - LLM 就是一个典型案例，其模型参数量与数据量并非十分庞大，基本处于参数量为 B 级别、数据量为 T 级别的规模。

来自主题: AI技术研报

9167 点击 2024-11-22 09:44

让模型预见数据分布变化，东京大学等提出时态域泛化全新框架

在数据分布持续变化的动态环境中，如何进行连续模型泛化？

来自主题: AI技术研报

10823 点击 2024-11-21 14:02

405B大模型也能线性化！斯坦福MIT最新研究，0.2%训练量让线性注意力提分20+

近日，来自斯坦福、MIT等机构的研究人员推出了低秩线性转换方法，让传统注意力无缝转移到线性注意力，仅需0.2%的参数更新即可恢复精度，405B大模型两天搞定！

来自主题: AI技术研报

7054 点击 2024-11-21 13:47

RAG没有银弹！四级难度，最新综述覆盖数据集、解决方案，教你「LLM+外部数据」的正确使用姿势

论文提出了一种RAG任务分类法，将用户查询分为四个级别，并讨论了将外部数据集成到LLMs中的三种主要方式。从简单的事实检索到复杂的推理任务，每个级别都有其独特的难点和解决方案，需要不同的技术和方法来优化性能。

来自主题: AI技术研报

9484 点击 2024-11-21 13:39

多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

谁是在线购物领域最强大模型？也有评测基准了。

来自主题: AI技术研报

5085 点击 2024-11-20 15:09

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

如何解决模型生成幻觉一直是人工智能（AI）领域的一个悬而未解的问题。为了测量语言模型的事实正确性，近期 OpenAI 发布并开源了一个名为 SimpleQA 的评测集。而我们也同样一直在关注模型事实正确性这一领域，目前该领域存在数据过时、评测不准和覆盖不全等问题。例如现在大家广泛使用的知识评测集还是 CommonSenseQA、CMMLU 和 C-Eval 等选择题形式的评测集。

来自主题: AI技术研报

10571 点击 2024-11-20 15:02