AI资讯新闻榜单内容搜索-模型训练

豆包大模型团队发布全新Detail Image Caption评估基准，提升VLM Caption评测可靠性

当前的视觉语言模型（VLM）主要通过 QA 问答形式进行性能评测，而缺乏对模型基础理解能力的评测，例如 detail image caption 性能的可靠评测手段。

来自主题: AI技术研报

11846 点击 2024-07-13 20:01

Mamba模型由于匹敌Transformer的巨大潜力，在推出半年多的时间内引起了巨大关注。但在大规模预训练的场景下，这两个架构还未有「一较高低」的机会。最近，英伟达、CMU、普林斯顿等机构联合发表的实证研究论文填补了这个空白。

来自主题: AI技术研报

5675 点击 2024-07-13 19:32

文生图、文生视频，视觉生成赛道火热，但仍存在亟需解决的问题。

来自主题: AI技术研报

11506 点击 2024-07-13 18:39

自从大型 Transformer 模型逐渐成为各个领域的统一架构，微调就成为了将预训练大模型应用到下游任务的重要手段

来自主题: AI技术研报

11669 点击 2024-07-12 17:47

论老黄卖铲子的技术含量。

来自主题: AI资讯

10570 点击 2024-07-12 17:42

生成式模型原本被设计来模仿人类的各种复杂行为，但人们普遍认为它们最多只能达到与其训练数据中的专家相当的水平。不过，最新的研究突破了这一限制，表明在特定领域，如国际象棋，通过采用低温采样技术，这些模型能够超越它们所学习的那些专家，展现出更高的能力。

来自主题: AI技术研报

10849 点击 2024-07-12 17:18

时隔一年，FlashAttention又推出了第三代更新，专门针对H100 GPU的新特性进行优化，在之前的基础上又实现了1.5～2倍的速度提升。

来自主题: AI技术研报

11121 点击 2024-07-12 16:57

大模型训练推理神作，又更新了！

来自主题: AI资讯

11027 点击 2024-07-12 15:39

近年来，人物动作生成的研究取得了显著的进展，在众多领域，如计算机视觉、计算机图形学、机器人技术以及人机交互等方面获得广泛的关注。然而，现有工作大多只关注动作本身，以场景和动作类别同时作为约束条件的研究依然处于起步阶段。

来自主题: AI技术研报

10560 点击 2024-07-11 20:31

大幅节省算力资源，又又又有新解了！！

来自主题: AI技术研报

6412 点击 2024-07-10 18:55