AI资讯新闻榜单内容搜索-Arena

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: Arena
速递|AI排行榜独角兽诞生:LM Arena获1亿美元融资,估值6亿美元能否洗刷"刷分"指控?

速递|AI排行榜独角兽诞生:LM Arena获1亿美元融资,估值6亿美元能否洗刷"刷分"指控?

速递|AI排行榜独角兽诞生:LM Arena获1亿美元融资,估值6亿美元能否洗刷"刷分"指控?

LM Arena 是一个众包基准测试项目,各大 AI 实验室依赖其测试和推广自家 AI 模型。据彭博社报道,该项目已在种子轮融资中筹集 1 亿美元 ,估值达 6 亿美元。

来自主题: AI资讯
9383 点击    2025-05-22 16:00
刚刚,Gemini 2.5 Pro升级,成编程模型新王

刚刚,Gemini 2.5 Pro升级,成编程模型新王

刚刚,Gemini 2.5 Pro升级,成编程模型新王

你的默认编程模型是什么?或许可以换一换了。刚刚,Google DeepMind 发布了 Gemini 2.5 Pro 的最新更新版本:Gemini 2.5 Pro (I/O edition)。其最大的进步是编程能力大幅提升,不仅在 LMArena 编程排行榜上名列第一,同时也在 WebDev Arena 排行榜上更是以显著优势超过了昔日霸

来自主题: AI资讯
10941 点击    2025-05-07 09:22
如何在LLM「排行榜幻象」中导航?2025AI界震撼大瓜,披露学术造假

如何在LLM「排行榜幻象」中导航?2025AI界震撼大瓜,披露学术造假

如何在LLM「排行榜幻象」中导航?2025AI界震撼大瓜,披露学术造假

你信任的AI排行榜,可能只是一场精心策划的骗局!震惊业界的Cohere Labs最新研究彻底撕破了Chatbot Arena这一所谓"黄金标准"的华丽面纱,揭露了科技巨头们如何肆无忌惮地操控评估系统、掠夺社区资源、扼杀开源创新。

来自主题: AI技术研报
9103 点击    2025-05-06 15:00
AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛斥

AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛斥

AI圈惊天丑闻,Meta作弊刷分实锤?顶级榜单曝黑幕,斯坦福MIT痛斥

刚刚,LMArena陷入了巨大争议,斯坦福MIT和Ai2等的研究者联手发论文痛斥,这个排行榜已经被Meta等公司利用暗中操作排名!Karpathy也下场帮忙锤了一把。而LMArena官方立马回应:论文存在多处错误,指控不实。

来自主题: AI资讯
10206 点击    2025-05-01 14:07
速递|不站队的AI裁判要赚钱了?Chatbot Arena转型公司化运营且计划融资

速递|不站队的AI裁判要赚钱了?Chatbot Arena转型公司化运营且计划融资

速递|不站队的AI裁判要赚钱了?Chatbot Arena转型公司化运营且计划融资

作为学术研究项目,原加州大学伯克利分校的Chatbot Arena,其网站已成为访客试用新人工智能模型的热门平台,现正转型为独立公司。

来自主题: AI资讯
7962 点击    2025-04-21 16:37
美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭

美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭

美国奥数题撕碎AI数学神话,顶级模型现场翻车!最高得分5%,DeepSeek唯一逆袭

在数学推理中,大语言模型存在根本性局限:在美国数学奥赛,顶级AI模型得分不足5%!来自ETH Zurich等机构的MathArena团队,一下子推翻了AI会做数学题这个神话。

来自主题: AI技术研报
9802 点击    2025-04-02 14:58
奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品

奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品

奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品

为了进一步挑战AI系统,大家已经开始研究一些最困难的竞赛中的问题,特别是国际奥林匹克竞赛和算法挑战。

来自主题: AI技术研报
5630 点击    2025-04-01 09:49
谷歌大型推理模型曝光!击败Claude-3.7-Thinking

谷歌大型推理模型曝光!击败Claude-3.7-Thinking

谷歌大型推理模型曝光!击败Claude-3.7-Thinking

哎!最近推特上的网友在LMSYS Arena 发现了个泄漏的大模型 Nebula,效果据说特别好,打败了o1、o3mini、Claude3.7 Thinking等等模型:网友们通过询问和分析 API,发现这似乎是谷歌正在秘密演练的新推理模型!推测可能是 Google Gemini 2.0 Pro Thinking:

来自主题: AI资讯
8981 点击    2025-03-24 14:41