AI资讯新闻榜单内容搜索-模型

超过o1-mini、逼近o3-mini，DeepSeek-R1在新的贪吃蛇基准上拿下1801分

那么，DeepSeek-R1 的 ARC-AGI 成绩如何呢？根据 ARC Prize 发布的报告，R1 在 ARC-AGI-1 上的表现还赶不上 OpenAI 的 o1 系列模型，更别说 o3 系列了。但 DeepSeek-R1 也有自己的特有优势：成本低。

来自主题: AI技术研报

8518 点击 2025-02-17 17:47

北大彭宇新教授团队开源细粒度多模态大模型Finedefics

尽管多模态大模型在通用视觉理解任务中表现出色，但不具备细粒度视觉识别能力，这极大制约了多模态大模型的应用与发展。针对这一问题，北京大学彭宇新教授团队系统地分析了多模态大模型在细粒度视觉识别上所需的 3 项能力：对象信息提取能力、类别知识储备能力、对象 - 类别对齐能力，发现了「视觉对象与细粒度子类别未对齐」

来自主题: AI资讯

10510 点击 2025-02-17 17:37

攻破AI最强守卫，赏金2万刀！Anthropic新方法可阻止95% Claude「越狱」行为

Anthropic，公布了新的AI模型防护方法，在之后约48小时内，无人完全攻破新系统，将赏金提高到了最高2万美元。新方法真这么强？

来自主题: AI技术研报

7869 点击 2025-02-17 16:20

反超DeepSeek！新版GPT-4o登顶竞技场，奥特曼：还会更好

GPT-4o悄悄更新版本，在大模型竞技场超越DeepSeek-R1登上并列第一。

来自主题: AI资讯

9156 点击 2025-02-17 15:26

DeepSeek掀低成本革命，中科院系黑马闯入全球TOP 10！破解高精度-低能耗困局

2025年，中国大模型迎来最高光时刻。DeepSeek凭借深度推理、低成本强势崛起，中科院系AI企业祭出的YAYI-Ultra大模型在代码能力上超越GPT-4o，成功跻身OpenCompas榜单全球前十，高精度和低能耗兼而有之。

来自主题: AI资讯

8244 点击 2025-02-17 15:07

AI无法攻克的235道谜题！让o1、Gemini 2.0 Flash Thinking集体挂零

Scale AI 等提出的新基准再次暴露了大语言模型的弱点。

来自主题: AI技术研报

10542 点击 2025-02-17 14:49

Llama模仿Diffusion多模态涨分30%！不卷数据不烧卡，只需共享注意力分布

这次不是卷参数、卷算力，而是卷“跨界学习”——

来自主题: AI技术研报

8802 点击 2025-02-17 14:43

语言模型新范式：首个8B扩散大语言模型LLaDA发布，性能比肩LLaMA 3

近年来，大语言模型（LLMs）取得了突破性进展，展现了诸如上下文学习、指令遵循、推理和多轮对话等能力。目前，普遍的观点认为其成功依赖于自回归模型的「next token prediction」范式。

来自主题: AI技术研报

9261 点击 2025-02-17 14:37

AI时代如何避免被淘汰？吴恩达：成为职场「10倍专业人士」

人工智能科学家吴恩达指出，AI的浪潮将席卷各行各业，催生「10倍专业人士」！这不仅仅是效率的提升，更是工作方式的变革。本文将深入解读AI如何赋能职场，揭示成为「10倍人才」的秘诀！

来自主题: AI资讯

5926 点击 2025-02-17 14:14

不接入DeepSeek的App不是好的智能体

广东打响了第一枪。深圳龙岗区的政务系统悄悄上线了DeepSeek-R1全尺寸模型，群众办事时面对的不再是机械的问答机器人，而是一个能理解“我想办落户，但社保断了3个月怎么办”这类复杂问题的AI公务员。东莞紧随其后，把DeepSeek塞进了人工智能大模型中心，号称要让“企业办证速度跑赢奶茶外卖”。更狠的是广州，直接祭出DeepSeek-R1和V3 671B双模型组合

来自主题: AI资讯

8548 点击 2025-02-17 13:45