AI资讯新闻榜单内容搜索-Dynamo

Claude Code 每条请求暗藏一行「有毒」header，52K 上下文推理被拖慢 5 倍！NVIDIA 一个 flag 修好了

NVIDIA Dynamo 团队发现，Claude Code 向自定义端点发送请求时，prompt 最前面会带一行 session-specific billing header。这行 header 每个 session 都变，导致 52K token 的稳定前缀在 KV cache 中无法复用——TTFT 从 168ms 飙到 912ms。Dynamo 加了一个 `

来自主题: AI资讯

10709 点击 2026-05-11 11:01

榨干GPU性能，中兴Mariana（马里亚纳）突破显存壁垒

当大语言模型（LLM）走向千行百业，推理效率与显存成本的矛盾日益尖锐。

来自主题: AI资讯

8553 点击 2025-08-26 19:21

LLaMA 2端到端推理打通！来自中国团队

Buddy Compiler 端到端 LLaMA2-7B 推理示例已经合并到 buddy-mlir仓库[1]主线。我们在 Buddy Compiler 的前端部分实现了面向 TorchDynamo 的第三方编译器，从而结合了 MLIR 和 PyTorch 的编译生态。

来自主题: AI技术研报

7292 点击 2023-11-23 20:33