AI资讯新闻榜单内容搜索-大模

GPU 维修那些事： H100 哪里容易坏？以 Llama3 训练大模型为例

根据去年2024年7月28日Meta公司在训练大模型（Llama 3）时使用“16384 个英伟达H100 GPU 集群”的经验，该显卡在高负载、大规模集群运行环境下容易出现以下故障点：

来自主题: AI技术研报

11994 点击 2025-04-07 09:17

近年来，大语言模型（LLM）的性能提升逐渐从训练时规模扩展转向推理阶段的优化，这一趋势催生了「测试时扩展（test-time scaling）」的研究热潮。

来自主题: AI技术研报

10034 点击 2025-04-06 16:55

本文介绍了 FoundationStereo，一种用于立体深度估计的基础模型，旨在实现强大的零样本泛化能力。

来自主题: AI技术研报

8730 点击 2025-04-06 16:13

推荐大模型也可生成式，并且首次在国产昇腾NPU上成功部署！

来自主题: AI技术研报

9919 点击 2025-04-06 15:46

最新研究发现，LLM在面对人格测试时，会像人一样「塑造形象」，提升外向性和宜人性得分。AI的讨好倾向，可能导致错误的回复，需要引起警惕。

来自主题: AI技术研报

6462 点击 2025-04-06 15:11

大模型虽然推理能力增强，却常常「想太多」，回答简单问题也冗长复杂。Rice大学的华人研究者提出高效推理概念，探究了如何帮助LLM告别「过度思考」，提升推理效率。

来自主题: AI技术研报

7024 点击 2025-04-06 14:59

最近，像 OpenAI o1/o3、DeepSeek-R1 这样的大型推理模型（Large Reasoning Models，LRMs）通过加长「思考链」（Chain-of-Thought，CoT）在推理任务上表现惊艳。

来自主题: AI技术研报

9299 点击 2025-04-05 14:45

AI 可能「借鉴」了什么参考内容，但压根不提。

来自主题: AI技术研报

7285 点击 2025-04-05 14:33

随着视频内容的重要性日益提升，如何处理理解长视频成为多模态大模型面临的关键挑战。长视频理解能力，对于智慧安防、智能体的长期记忆以及多模态深度思考能力有着重要价值。

来自主题: AI技术研报

7696 点击 2025-04-05 14:07

「下一代默认 AI 大模型工具」的竞争开始了。

来自主题: AI资讯

7378 点击 2025-04-04 17:46