AI资讯新闻榜单内容搜索-模型

ICLR 2026 | 7B小模型干翻GPT-5？AdaResoner实现Agentic Vision的主动「视觉工具思考」

你见过 7B 模型在拼图推理上干翻 GPT-5 吗？

来自主题: AI技术研报

6751 点击 2026-03-04 11:18

字节清华智能体自动写CUDA内核，比torch.compile加速2.11倍

让AI自己写高性能GPU代码，字节Seed与清华AIR团队做到了。

来自主题: AI技术研报

7647 点击 2026-03-04 10:39

阿里千问大模型掌舵人林俊旸卸任

me stepping down. bye my beloved qwen.（我将卸任。再见了，我深爱的 qwen。） 3 月 4 日凌晨，阿里通义千问（Qwen）技术负责人林俊旸在 X 突然发文，向自己一手带大的开源模型项目告别。

来自主题: AI资讯

9419 点击 2026-03-04 09:56

编程进入「对讲机」时代！Claude抢发语音写代码，转录Token全免费

Claude Code 正式上线语音模式：输入 /voice，长按空格说话，松开即完成输入。语音转录实时流入光标位置，和键盘无缝切换，转录Token完全免费。编程的下一个战场不是模型智商，而是交互方式。

来自主题: AI资讯

9517 点击 2026-03-03 14:36

马斯克大赞阿里 AI，9B 参数硬刚 120B，海外网友：这叫小模型？

昨天深夜，阿里通义千问团队在 X 平台正式发布了 Qwen3.5 小模型系列，覆盖 0.8B、2B、4B 和 9B 四个参数规格。甫一发布，便在海外科技圈引发强烈反响。马斯克也在该推文下评论称：「Impressive intelligence density」（令人印象深刻的智能密度）。这股热度的背后，APPSO 也好奇，为什么这几款小模型能够激起如此大的波澜？

来自主题: AI资讯

9515 点击 2026-03-03 14:35

数据邪修大法好：仅用文本数据就能预训练多模态大模型

没有图片，也能预训练多模态大模型?在多模态大模型（MLLM）的研发中，行业内长期遵循着一个昂贵的共识：没有图文对（Image-Text Pairs），就没有多模态能力。

来自主题: AI技术研报

8400 点击 2026-03-03 14:25

ICLR 2026｜人大&通义：别再只会堆上下文了！IterResearch用40K上下文轻松实现2048轮交互不退化

来自中国人民大学与阿里巴巴通义实验室的研究团队提出了 IterResearch，一种全新的迭代式深度研究范式。通过马尔可夫式的工作空间重构，IterResearch 让 Agent 在仅 40K 上下文长度下完成了 2048 次工具交互且性能不衰减，在 BrowseComp 上从 3.5% 一路攀升至 42.5%。

来自主题: AI技术研报

7880 点击 2026-03-03 14:20

告别纯奖励试错！二次尝试+反思蒸馏，复杂任务提升81%

强化学习已经成为大模型后训练阶段的核心方法之一，但一个长期存在的难题始终没有真正解决：现实环境中的反馈往往稀疏且延迟，模型很难从简单的奖励信号中推断出应该如何调整行为。

来自主题: AI技术研报

8696 点击 2026-03-03 14:17

Dense、MoE之外第三条Scaling路径：交大提出JTok模块，省1/3算力

为了松绑参数与计算量，MoE 曾被寄予厚望。它靠着稀疏激活的专家子网络，在一定程度上实现了模型容量与计算量的解耦。然而，近期的研究表明，这并非没有代价的免费午餐：稀疏模型通常具有更低的样本效率；随着稀疏度增大，路由负载均衡变得更加困难，且巨大的显存开销和通信压力导致其推理吞吐量往往远低于同等激活参数量的 dense 模型。

来自主题: AI技术研报

8460 点击 2026-03-03 14:15

AI资讯新闻榜单内容搜索-模型

推荐系统进入「双动力」时代！首篇LLM-RL协同推荐综述深度解析

ICLR 2026 | 7B小模型干翻GPT-5？AdaResoner实现Agentic Vision的主动「视觉工具思考」

字节清华智能体自动写CUDA内核，比torch.compile加速2.11倍

阿里千问大模型掌舵人林俊旸卸任

编程进入「对讲机」时代！Claude抢发语音写代码，转录Token全免费

马斯克大赞阿里 AI，9B 参数硬刚 120B，海外网友：这叫小模型？

数据邪修大法好：仅用文本数据就能预训练多模态大模型

ICLR 2026｜人大&通义：别再只会堆上下文了！IterResearch用40K上下文轻松实现2048轮交互不退化

告别纯奖励试错！二次尝试+反思蒸馏，复杂任务提升81%

Dense、MoE之外第三条Scaling路径：交大提出JTok模块，省1/3算力