AI资讯新闻榜单内容搜索-3

GPT-5.5彻底击穿300个黑客评测任务，仅需5000万Token！

GPT-5.5 把进攻性网络安全最难的 7 个基准全部打穿，92.4% 正确率，评估体系直接失灵。AI 黑客能力每 6 个月翻一倍，而衡量它有多危险的尺子，已经先被干碎了。

来自主题: AI资讯

9455 点击 2026-05-29 10:11

刚刚，Claude Opus 4.8来了！两个史上首次改写历史

Opus 4.7发布刚43天，Opus 4.8就来了！编程实力暴增，全面霸榜。Claude Code一口气放出上百个agent并行干活，一个人11天就能重写75万行代码、99.8%测试通过。更狠的Claude Mythos，几周后就来。

来自主题: AI资讯

9257 点击 2026-05-29 09:00

GPT-5.5翻倍，Gemini涨3倍：这波涨价游戏还能玩多久？

Epoch AI刚刚发布的《梯度更新》报告，做了一件简单粗暴的事：把全球所有Blackwell芯片能处理的Token数量算出来，再和实际需求一比。结论只有一个字——不够。

来自主题: AI技术研报

8663 点击 2026-05-28 20:59

国漫粉丝成了抵抗 AI 的最后桥头堡｜「一人之下」事件解读

5 月 22 日，《一人之下》第 763 话更新，国漫圈这回吵得有点凶。

来自主题: AI资讯

8169 点击 2026-05-28 15:13

首次！DeepSeek-V4-Pro全参数后训练，被第三方在国产卡上跑通

近期，深圳河套学院（SLAI）AI训练平台项目团队，联合哈尔滨工业大学（深圳）、深圳大数据研究院、华为GTS（全球技术服务）团队与深智城AI算力平台，仅用1个月，共同基于昇腾910C国产算力集群实现DeepSeek-V4-Pro全参数续训练/SFT稳定运行，完成长稳训练1500+步，训练MFU超30%，关键训练算子效率提升14%。

来自主题: AI技术研报

9567 点击 2026-05-28 14:56

7B打败o3、GPT-5！医学AI智能体让模型学会“看哪里、怎么看”

医学AI会写解释，但不代表它真的“看到”了关键证据。

来自主题: AI技术研报

10379 点击 2026-05-28 14:51

DeepSeek、Claude、GPT、Gemini、Qwen实测五大旗舰模型AI编程能力，看Qwen3.7 Max 是否实至名归？！

超越 GPT-5.5、Gemini 3.5 Flash、DeepSeek V4 Pro，阿里的最新旗舰模型 Qwen3.7 Max 在编程竞技榜拿下第二名，仅次于 Claude Opus 4.7。除了真实场景的用户选择，在传统的大模型固定评测榜单上，像是终端能力 Terminal Bench、编程能力 SWE Bench 等，Qwen3.7 Max 的表现也是拿下了国产模型的冠军。

来自主题: AI产品测评

9899 点击 2026-05-28 12:06