3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产
3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产最近几天,一个 3B 的小模型在 X 上火了,因为在一些难度可验证的推理任务上(比如编程),它进入了 Gemini 3 Pro、GPT-5 high、Claude Opus 4.5、GLM-5、Kimi K2.5 等前沿模型的性能区间,而它的体积远小于这些模型。
搜索
最近几天,一个 3B 的小模型在 X 上火了,因为在一些难度可验证的推理任务上(比如编程),它进入了 Gemini 3 Pro、GPT-5 high、Claude Opus 4.5、GLM-5、Kimi K2.5 等前沿模型的性能区间,而它的体积远小于这些模型。
周四晚上,我在床上举着 iPhone Air,在 Siri 对话框里打下了一个从来没问过的问题: Siri, what do you think of me?(Siri,你觉得我怎么样?)
最近,北京一套27平米的胡同老房子靠AI成功翻了盘。
最新测试显示,模型抱团后实力明显升级:Opus 4.8+GPT-5.5>Fable 5;Kimi K2.6+ DeepSeek V4 Pro+Gemini 3 Flash=Fable 5。能力追上了,开销还减半。根据官方定价,相比Fable 5,Kimi K2.6+ DeepSeek V4 Pro+Gemini 3 Flash这套平价阵容,成本降幅接近80%。
刚刚,Google 甩出了 Gemini 3.5 Live Translate。这是它最新的语音对语音翻译模型,一句话概括:把「等你说完再翻」的老规矩,直接掀了。Google DeepMind 首席科学家 Jeff Dean 亲自发帖官宣,字里行间透着一股「二十年磨一剑」的底气:
就在刚刚,Siri借谷歌的1.2万亿参数Gemini「重生」了!在今夜的苹果WWDC 2026上,Siri彻底迎来新生。结合设备端小模型,苹果打造了混合智能架构,让Siri在各个APP之间无缝穿梭。
2026 年初,各大 AI 厂商在上下文窗口长度上展开激烈角逐。Google 的 Gemini 3 Pro 已支持 100 万级 token 上下文,Meta 的 Llama 4 Scout 更宣称可处理 1000 万 token。GPT-5 系列也在快速推进长上下文能力。
“我们有点处在自己的科技泡沫里。”
他叫Yi Tay,是Google DeepMind的研究科学家。去年带着Gemini Deep Think,拿下了IMO国际数学奥林匹克金牌,今年2月Gemini 3 Deep Think的发布,他也是核心贡献者。
普通人看排行榜估计越看越疑惑,写文章该用哪个?数据分析该用哪个?写代码、审 PR、拆任务又该用哪个?我挑了四款最近讨论度很高的模型:Claude Opus 4.8、Gemini 3.5 Flash、GPT-5.5、Qwen3.7-Max,做一次横评,看看它们在真实任务里的交付表现。