AI资讯新闻榜单内容搜索-Dynamo

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Dynamo
Claude Code 每条请求暗藏一行「有毒」header,52K 上下文推理被拖慢 5 倍!NVIDIA 一个 flag 修好了

Claude Code 每条请求暗藏一行「有毒」header,52K 上下文推理被拖慢 5 倍!NVIDIA 一个 flag 修好了

Claude Code 每条请求暗藏一行「有毒」header,52K 上下文推理被拖慢 5 倍!NVIDIA 一个 flag 修好了

NVIDIA Dynamo 团队发现,Claude Code 向自定义端点发送请求时,prompt 最前面会带一行 session-specific billing header。这行 header 每个 session 都变,导致 52K token 的稳定前缀在 KV cache 中无法复用——TTFT 从 168ms 飙到 912ms。Dynamo 加了一个 `

来自主题: AI资讯
9947 点击    2026-05-11 11:01
榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒

榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒

榨干GPU性能,中兴Mariana(马里亚纳)突破显存壁垒

当大语言模型(LLM)走向千行百业,推理效率与显存成本的矛盾日益尖锐。

来自主题: AI资讯
8418 点击    2025-08-26 19:21
LLaMA 2端到端推理打通!来自中国团队

LLaMA 2端到端推理打通!来自中国团队

LLaMA 2端到端推理打通!来自中国团队

Buddy Compiler 端到端 LLaMA2-7B 推理示例已经合并到 buddy-mlir仓库[1]主线。我们在 Buddy Compiler 的前端部分实现了面向 TorchDynamo 的第三方编译器,从而结合了 MLIR 和 PyTorch 的编译生态。

来自主题: AI技术研报
7118 点击    2023-11-23 20:33