震撼实锤!清华姚班校友揭「1.4×加速」陷阱:AI优化器为何名不符实?
震撼实锤!清华姚班校友揭「1.4×加速」陷阱:AI优化器为何名不符实?为了降低大模型预训练成本,最近两年,出现了很多新的优化器,声称能相比较AdamW,将预训练加速1.4×到2×。但斯坦福的一项研究,指出不仅新优化器的加速低于宣称值,而且会随模型规模的增大而减弱,该研究证实了严格基准评测的必要性。
搜索
为了降低大模型预训练成本,最近两年,出现了很多新的优化器,声称能相比较AdamW,将预训练加速1.4×到2×。但斯坦福的一项研究,指出不仅新优化器的加速低于宣称值,而且会随模型规模的增大而减弱,该研究证实了严格基准评测的必要性。
机器人终于不用散装大脑了! 字节Seed一个模型就能搞定机器人推理、任务规划和自然语言交互。
清华大学最新提出的建筑专业知识驱动的平面图自动生成方案FloorPlan-LLaMa,解决传统模型「指标优秀但实际不可用」 痛点,让AI生成贴合建筑师设计偏好的可行方案。
AI 最臭名昭著的 Bug 是什么?不是代码崩溃,而是「幻觉」—— 模型自信地编造事实,让你真假难辨。这个根本性挑战,是阻碍我们完全信任 AI 的关键障碍。
北京时间9月5日晚,美国AI独角兽Anthropic在其官网发布了一则公告。内容简洁而强硬:其旗下的Claude系列模型,将立即停止向多数股权由中国资本持有的公司提供服务。在熟悉华盛顿政治生态的人看来,这一决绝姿态的背后,与Anthropic创始人达里奥·阿莫迪(Dario Amodei)的个人经历不无关系。
以前,每当上线一个新模型,大家总要绞尽脑汁想个响亮又不撞车的名字。 不得不说,有时候名字起得太出彩,甚至能把模型本身给卷下去。别人还没搞懂它能干嘛,名字已经在朋友圈刷屏了。
《金融时报》最新消息,OpenAI 正在和博通合作,自研一颗代号 “XPU” 的 AI 推理芯片,预计会在 2026 年量产,由台积电代工。不同于英伟达 的 GPU,这款芯片不会对外销售,而是专门满足 OpenAI 内部的训练与推理需求,用来支撑即将上线的 GPT-5 等更庞大的模型。
想象一个虚拟人,他不仅能精准地对上你的口型,还能在你讲到关键点时做出恍然大悟的表情,在你讲述悲伤故事时流露出同情的神态,甚至能根据你的话语逻辑做出有意义的手势。
近年来,生成式 AI 和多模态大模型在各领域取得了令人瞩目的进展。然而,在现实世界应用中,动态环境下的数据分布和任务需求不断变化,大模型如何在此背景下实现持续学习成为了重要挑战
Dify 又偷偷更新了!本次更新不仅支持了期待已久的“图文混答”,几乎是 重构了“知识库”,可以用工作流的方式创建“知识库”,并且支持调试,具备“工作流”的完整功能,是一个正经的”工作流“。提升了知识库开发的灵活性,与智能体的交互体验。