红杉 xbench:AI 去药企做实习,遥遥领先了人类

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
红杉 xbench:AI 去药企做实习,遥遥领先了人类
5902点击    2026-05-19 10:30

RESEARCH


xbench,就是红杉自己弄的那个中立评测lab,刚刚又整了个新活:让 AI 做药企的数据分析,跟人类实习生比个高低,然后遥遥领先的赢了


前两天,红杉的朋友跟我说了这事儿,今天一早详细信息也放了出来:Auto Research时代,AI Scientist的第一场药企实习考验


故事大概是这样:


红杉的 AI 评测平台 xbench,联合 Phylo 和 Humanlaya Data Lab,找来斯坦福、哈佛、北大和头部药企的 100 位资深专家,花了 1000 多个小时,搭了 全球首个面向真实生物医药研究场景的过程级评估框架:BiomniBench,让 AI 从头到尾做一遍药企的真实数据分析,结果是:


最强 AI 组合拿到 73.34 分(满分 100),超过了人类实习生 40-50 分的平均线


诶...这里的「最强 AI 组合」是什么?让我卖个关子,稍后揭晓


真实世界没有选择题


这里补充一个背景:在药企,科学家的日常工作是啥?


答:对着脏的一塌糊涂数据一通分析,然后得到一个满意的结果


比如:给你一组免疫治疗患者的单细胞测序数据和临床信息,你要判断某个 biomarker(生物标志物)是否值得进入下一轮实验验证。数据清洗、样本筛选、统计方法、多重检验校正、生物学解释...每一步都可能出错


虽然可能出错,但出错了也不一定会报错


比如,如果把外周血细胞也算进了肿瘤组织的分析,代码能跑通,图也画得漂亮,但结论...大概率就错了


一位药企一线科学家说过:「在生物学里,一个看似正确的结论可能建立在完全错误的分析过程之上,而等你发现的时候,药已经做失败了」


在过去的 AI 评测中,很多的东西是测结果的,这样的 bench 也好搭建,但这次 xbench 这次做的 BiomniBench,测的是「模型会不会真的做研究」,从数据清洗、到方法选择、到统计检验、到生物学解释,每一步都测


或者说,这个叫:process-level evaluation,过程级评测


红杉 xbench:AI 去药企做实习,遥遥领先了人类

做药的都懂:跑通了不等于对了


红杉 xbench:AI 去药企做实习,遥遥领先了人类

左边只看答案,右边看全过程


100 道真题怎么来的


BiomniBench 第一个落地的模块叫 BiomniBench-DA,聚焦数据分析


这一模块包括 100 道题,都来自 Nature、Cell、Science 的公开数据,由原论文作者或 5 年以上经验的专家重新设计,覆盖肿瘤、代谢与内分泌、免疫、神经、心血管 5 大疾病领域,17 类分析任务


在测试的过程中,要求 AI 答题时给出完整分析轨迹,包括:读了什么数据,做了哪些清洗,为什么选某个方法,统计结果怎么样,怎么解释。然后 LLM 裁判按专家写好的评分标准,从六个维度打分:数据处理、方法选择、统计严谨性、生物学解释、科学推理、来源可靠性


当然,评分标准允许多条合理路径的。在很多生物学问题,t 检验和 Wilcoxon 都行,关键是你得说清楚为什么选这条,就是...「言之有理即可


红杉 xbench:AI 去药企做实习,遥遥领先了人类

5 大疾病领域 × 17 类任务


谁是最强 AI 实习生


好,回到刚才卖的那个关子


最强配置是 Claude Code + Opus 4.7,73.34 分。排在后面的是 Claude Code + Opus 4.6,69.83 分。第三名 Codex CLI + GPT-5.4,68.69 分。前三名里两个是 Claude Code 的配置


红杉 xbench:AI 去药企做实习,遥遥领先了人类


人类呢?人类实习生 平均 40-50 分,比 AI 低到不知道哪里去了


速度和成本...应该就不用说了吧:


AI 完成一个任务平均 4.9 到 25 分钟,花 0.92 到 4.58 美元;


人类做同样的事通常要数小时到数十小时,耗费 3 个馒头


红杉 xbench:AI 去药企做实习,遥遥领先了人类

贵的不一定好,但好的确实贵


药企来说,这个进步还是很有价值的:大量探索性分析可以前置、并行化,然后丢给 AI,早期试错成本大幅降低


对了,这次的研究还带来个小收获,Agent 框架,对结果的影响极大:同一个 GPT-5.4,放在 Codex CLI 里 68.69 分,放在 Terminus-2 里只有 55.19 分


在药企数据分析这个场景下,Agent 框架的影响,跟模型本身差不多


红杉 xbench:AI 去药企做实习,遥遥领先了人类

同一个脑子,换组工具


另外一个有趣的是:AI 也偏科


细胞组成分析拿到 91 分,突变分析 88 分,边界清晰的任务是 AI 的专长。GWAS-eQTL 分析只有 45 分,通路富集 64 分,需要判断统计方法和理解生物学上下文的任务,AI 就稍显乏力了


然后,从评估维度看,所有模型在「生物学解释」上都有明显凹陷。AI 能算,但不太能解释。短期内「AI 算 + 人类解释」可能是最安全的协作模式


红杉 xbench:AI 去药企做实习,遥遥领先了人类

偏科这事,人和 AI 都一样


这实习生,能转正吗?


先说结论:对于数据的初步分析,可以用了


但如果分析错了需要进去,那还不行


以及,xbench 后续会开源部分题目供内部测试使用,也会继续推出覆盖更多行业场景的 benchmark


相关资料


Paper(bioRxiv)

https://www.biorxiv.org/content/10.64898/2026.05.12.724604v1


HuggingFace Dataset

https://huggingface.co/datasets/phylobio/BiomniBench-DA


xbench 是红杉中国推出的 AI 基准测试工具,采用双轨评估体系,同时追踪模型的理论能力上限与 Agent 的实际落地价值,并通过持续维护和动态更新测试内容确保时效性

网址:xbench.org

联系:team@xbench.org


Phylo 源自开源项目 Biomni,由斯坦福科学家团队于 2025 年创立,专注于生物医学智能体的应用研究。2026 年 2 月推出 Biomni Lab,致力于让每一位生物医学科学家都能借助 AI Agent 加速科学发现

网址:biomni.phylo.bio

联系:contact@phylo.bio


Humanlaya AI 成立于 2025 年,通过定义真实、高经济价值的可验证任务,推动大模型能力边界的拓展与经济价值的落地

网址:humanlaya.com

联系:inquiries@humanlaya.com


文章来自于"赛博禅心",作者 "金色传说大聪明"。

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI数据分析

【开源免费】DeepBI是一款AI原生的数据分析平台。DeepBI充分利用大语言模型的能力来探索、查询、可视化和共享来自任何数据源的数据。用户可以使用DeepBI洞察数据并做出数据驱动的决策。

项目地址:https://github.com/DeepInsight-AI/DeepBI?tab=readme-ov-file

本地安装:https://www.deepbi.com/

【开源免费airda(Air Data Agent)是面向数据分析的AI智能体,能够理解数据开发和数据分析需求、根据用户需要让数据可视化。

项目地址:https://github.com/hitsz-ids/airda

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md