VLM解几何题总翻车?GEODPO从「看」入手:用结构化表示+DPO优化,让模型先看懂再推理丨ICLR'26
VLM解几何题总翻车?GEODPO从「看」入手:用结构化表示+DPO优化,让模型先看懂再推理丨ICLR'26几何问题,真的只是“推理难”吗?
几何问题,真的只是“推理难”吗?
3月30日,界面新闻记者从知情人士处独家获悉,3月初,在Kimi K2.5模型发布一个月之后,月之暗面ARR(年度经常性收入)突破1亿美金。知情人士还表示,K2.5模型上线后,API供应的TPM(Tokens Per Minute,每分钟令牌数)配额迅速趋紧,有客户开出千万美元级别的消费承诺及预付担保,以期获得优先供应。
大模型的狂热已然退潮。当我们将目光从参数榜单转向真实的活跃数据,四家头部大厂的底层商业图谱已极度收敛。AI的竞争,早已变成一场基于算力成本与高频场景的残酷算账。
三周前那个疯狂传言,如今被Mythos彻底印证?Anthropic或已完成史上最大规模训练,新模型性能或将达到预期的2倍,翻倍碾压Scaling Law!一场颠覆性变革正在降临,算力、能源成为终极筹码,创业公司恐遭毁灭性降维打击!
UniPat AI 做了一件事:让 AI 去预测还没发生的事,比如下个月哪家公司市值最高、某国会不会对另一个国家加关税、某个政客会不会在社交媒体上发超过 100 条帖子
还得是咱国产世界模型牛!
自从大语言模型诞生起至今,AI 已经润物无声地融入了我们的工作生活,也成为了现代社会的重要组成部分。
机器人能认出杯子,却看不懂杯口朝哪、离自己多远、该抓哪里。
本文综合北京大学王选计算机研究所发布的 ProactiveVideoQA 和 MMDuet2 两篇论文,介绍视频多模态大模型如何实现 “主动交互”—— 在视频播放过程中自主决定何时发起回复,而非等待用户提问。ProactiveVideoQA 提出评估指标和 benchmark,MMDuet2 则通过强化学习训练方法实现了 SOTA 性能,无需精确的回复时间标注即可训练出及时、准确的主动交互模型。
统计时间内,可追踪到的 OpenClaw 生态玩家已超过 50 个,覆盖AI云、大模型、智能终端与边缘智能、MI(移动互联网)、Fintech、教育科技、AI 医疗、网络安全、通信运营等十余个行业,形成了一张日趋完整的生态版图。