AI资讯新闻榜单内容搜索-大模型

好你个智谱，模型价格搞双标：中国一套外国一套

现在，轮到国产模型开始收割老外了。有网友发现，智谱的Max计划在中国只要469元人民币，折合差不多68美元；可到了西方用户手里，直接飙到160美元，足足贵了一倍多。

来自主题: AI资讯

8044 点击 2026-04-14 17:38

在一台1970年代的PDP-11上训练Transformer需要多久？答案是5.5分钟

试想一下，如果把当下大火的大模型技术带回 1970 年，会发生什么？

来自主题: AI技术研报

8980 点击 2026-04-14 15:45

Z Tech｜我们与开源顶流实验室一起聊了聊 Harness Design

过去一年，大模型的能力曲线几乎是指数上升的——推理更强、工具调用更稳、上下文窗口越撑越大。但一个越来越尖锐的问题也随之浮出水面：模型变强了，可承接它的那层东西在哪？

来自主题: AI资讯

9331 点击 2026-04-13 15:03

挤干大模型高分「水分」！最强模型仅49分，南大傅朝友发布Video-MME-v2

现有大模型评测分数日趋饱和，但与真实体验差距显著。南京大学傅朝友团队牵头，在 Google Gemini 评测团队邀约下推出视频理解新基准 Video-MME-v2。凭借创新的分层能力体系与组级非线性评分，以及 3300 + 人工时高质量标注，揭示模型与人类的巨大鸿沟（49 vs 90）、传统 Acc 指标虚高、以及 “Thinking” 并非总是增益等现象。

来自主题: AI技术研报

10700 点击 2026-04-13 15:01

迎接范式革命：最新、最全的大模型Latent Space综述，NUS、复旦、清华等联合出品

从 2024 年底的关于潜在空间的早期探索，再到 2025 年底和 2026 年初的相关研究爆发，潜空间范式正在彻底重塑大模型 (LLMs, VLMs, VLAs 等延伸模型) 的底层设计逻辑。

来自主题: AI技术研报

7803 点击 2026-04-13 14:31

南大团队直击大模型高分神话：人类90分，最强模型仅49分

现有大模型评测分数日趋饱和，但与真实体验差距显著。南京大学傅朝友团队牵头，在Google Gemini评测团队邀约下推出视频理解新基准Video-MME-v2。凭借创新的分层能力体系与组级非线性评分，以及3300+人工时高质量标注，揭示模型与人类的巨大鸿沟（49vs90）、传统Acc指标虚高、以及「Thinking」并非总是增益等现象。

来自主题: AI技术研报

8132 点击 2026-04-13 13:48

同一个模型，换个Harness排名跳了25位：智能体基础设施完全解剖

LangChain 只换了模型外面的基础设施——同一个模型、同一套权重——就从 TerminalBench 2.0 排行榜 30 名开外直接跳到了第 5 名。另一个独立研究项目让大模型自己优化这层基础设施，达到了 76.4% 的通过率，超过了所有人工设计的方案。

来自主题: AI技术研报

7367 点击 2026-04-13 10:13

36.4万超声图文对！中国团队构建首个大规模超声专属数据集，让AI真正读懂临床诊断语义丨CVPR'26

超声领域也有大模型了！

来自主题: AI技术研报

9259 点击 2026-04-13 09:38

ICLR 2026｜隐式思考模型LRT：「隐式思维链」推理，更快更强！

近日，哈尔滨工业大学（深圳）联合深圳河套学院、Independent Researcher提出了隐式思考模型 LRT（Latent Reasoning Tuning），通过一个轻量级的推理网络，将大模型冗长的「思维链」压缩为紧凑的隐式向量表征，一次前向计算即可完成推理，无需逐 token 生成数千字的中间推理过程。

来自主题: AI技术研报

10133 点击 2026-04-13 09:35

让全网 AI 翻车的「洗车难题」，终于有人破案了

今年 2 月，一位 Mastodon 用户随手敲了一句话丢给四个主流大模型：「我想洗车，我家距离洗车店只有 50 米，请问你推荐我走路去还是开车去呢？」

来自主题: AI资讯

9604 点击 2026-04-12 11:08