大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷
大模型给自己当裁判并不靠谱!上海交通大学新研究揭示LLM-as-a-judge机制缺陷大语言模型(LLM)正从工具进化为“裁判”(LLM-as-a-judge),开始大规模地评判由AI自己生成的内容。这种高效的评估范式,其可靠性与人类判断的一致性,却很少被深入验证。
搜索
大语言模型(LLM)正从工具进化为“裁判”(LLM-as-a-judge),开始大规模地评判由AI自己生成的内容。这种高效的评估范式,其可靠性与人类判断的一致性,却很少被深入验证。
在 AI 工具风靡开发圈之前,一批经验丰富的资深程序员,对它们始终保持警惕。这些人,包括 Flask 作者 Armin Ronacher(17 年开发经验)、PSPDFKit 创始人 Peter Steinberger(17 年 iOS 和 macOS 开发经验),以及 Django 联合作者 Simon Willison(25 年编程经验)。然而,就在今年,他们的看法都发生了根本转变。
在企业系统和科学研究中普遍存在、结构复杂的关系型数据库(Relational DataBase, RDB)场景中,基础模型的探索仍处于早期阶段。
测试时扩展(Test-Time Scaling)极大提升了大语言模型的性能,涌现出了如 OpenAI o 系列模型和 DeepSeek R1 等众多爆款。那么,什么是视觉领域的 test-time scaling?又该如何定义?
最近,Yoodli宣布完成了1370万美元的A轮融资,由Neotribe Ventures领投,Madrona和Cercano等现有投资者跟投。这使得他们的累计融资超过2000万美元。但让我感兴趣的不仅仅是融资数字,而是这家公司正在创建的全新品类:AI角色扮演。
Recraft,利用AI生成和编辑高质量矢量插图和图标,服务于设计和市场团队。完成3000万美元B轮融资,投资方为Accel、Khosla Ventures、Madrona。本轮估值未知,累计融资4200万美元。
北京时间5月21日凌晨,谷歌在每年一度的I/O大会上再度炸场——谷歌搜索的AI模式正式上线。其中,最受瞩目的一个功能是Personal Context(个人上下文)。北京时间5月21日凌晨,谷歌在每年一度的I/O大会上再度炸场——谷歌搜索的AI模式正式上线。其中,最受瞩目的一个功能是Personal Context(个人上下文)。
Mona(Multi-cognitive Visual Adapter)是一种新型视觉适配器微调方法,旨在打破传统全参数微调(full fine-tuning)在视觉识别任务中的性能瓶颈。
近日,以色列宣布与以色列AI“数字化身”制作平台eSelf、以色列最大的K12教科书出版商CET(Center for Educational Technology)合作,在全国范围内铺开AI辅导。
由好莱坞高管和技术专家联合创立的初创公司Cheehoo,旨在开发一款 AI 驱动工具,帮助创意人员更轻松地制作动画内容。这家初创公司脱胎于制作了《乐高大电影》系列的制片公司Rideback。Rideback 的联席 CEO Michael LoFaso 和 Jonathan Eirich,与公司联合创始人 Dan Lin 共同组建了 Cheehoo 创始团队。