520,遇见国产「新模王」Qwen3.7-Max!

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
520,遇见国产「新模王」Qwen3.7-Max!
9071点击    2026-05-20 16:26

仅仅一个月后,阿里又带着最强旗舰模型杀回来了!


昨天一早,阿里给了全球开发者一个大大的惊喜,悄悄上线了 Qwen3.7 Preview,包括 Qwen3.7 Max Preview 与 Qwen3.7 Plus Preview 两个版本。


520,遇见国产「新模王」Qwen3.7-Max!


第三方权威评测机构 Arena 放出了这两个模型的榜单成绩,其中 Qwen3.7 Max Preview 与 Qwen3.7 Plus Preview 分别拿下了文本领域、视觉领域的国产模型第一。


520,遇见国产「新模王」Qwen3.7-Max!


左为 Qwen3.7 Max Preview,右为 Qwen3.7 Plus Preview


Qwen3.7 预览版的性能已经如此不俗,让大家对正式版的表现充满了期待。


今天上午,在 2026 阿里云峰会上,阿里全新一代千问旗舰模型 Qwen3.7-Max 登场了!


520,遇见国产「新模王」Qwen3.7-Max!


阿里巴巴集团通义大模型事业部负责人「周靖人」


果然没有令人失望,Qwen3.7-Max 一出手就是王炸。


在 Arena 公布的最新一期全球大模型盲测总榜中,Qwen3.7-Max 总成绩位列国产模型第一:傲视一众国产大模型,包括 Kimi-K2.6、DeepSeek-v4 Pro、GLM-5.1,性能直逼 GPT、Claude、Gemini 等全球最强模型


520,遇见国产「新模王」Qwen3.7-Max!


除了亮眼的总榜成绩,Qwen3.7-Max 特别针对当下被众多厂商押注并布局的 Agent 进行了系统性优化,凭借 Agentic、推理、通用等能力的持续突破,进一步拉高了其作为下一代通用智能体底座的性能上限。


520,遇见国产「新模王」Qwen3.7-Max!


编程智能体方面,Qwen3.7-Max 在 SWE-Pro、SWE-Multilingual 等多个权威测评中均取得 SOTA 表现,其中在 Terminal Bench 2.0-Terminus 上取得最高 69.7 分,超过了 DeepSeek-v4-pro-Max、Claude-Opus 4.6 等一众模型。


通用智能体方面,Qwen3.7-Max 提升明显,在 MCP-Atlas、MCP-Mark、Skillbench 等现实能力评测中表现优异,超越了 GLM-5.1、Kimi-K2.6 等,创下国产新高,并在 Kernel Bench L3 上展示了强大的 GPU 内核优化能力。


而在推理方面, Qwen3.7-Max 表现同样出色,在 GPQA Diamond、HLE、HMMT 2026 Feb、IMOAnswerBench 等核心推理测评中均超越了 Claude-Opus 4.6 及所有国产模型。


通用能力与多语言方面,Qwen3.7-Max 在指令遵循评测 IFBench 中得分突破新高达到 79.1 分,在多语言理解和翻译的 WMT24++、MAXIFE 评测中保持领先。


智能体基座能力的全方位跃升,让 Qwen3.7-Max 有了挑战真实运行环境中超长程编程任务的底气。在发布会上,阿里展示了一个 AI 自主迭代的工程创举:


Qwen3.7-Max 被放在了一个全新硬件平台(平头哥训推一体 AI 芯片真武 M890)上,工作空间里只有任务描述、SGLang Triton 参考实现和评测脚本,没有任何其他提示或干预。结果,模型连续编程 35 个小时,自主完成了一个生产级注意力内核算子的优化。并且,经过模型优化的推理内核比 SGLang Triton 官方参考实现取得了 10 倍的加速。效率如此之高的 AI 平替谁不喜欢呢。


模型「化身」一位资深工程师,进行了 432 次内核评估、1158 次工具调用,从编写、编译、性能分析到迭代改进,全程都由自己完成。


520,遇见国产「新模王」Qwen3.7-Max!


在接下来的实测环节,Qwen3.7-Max 在处理复杂智能体任务中的速度和准确度都让人眼前一亮。


一手实测


从零代码开发到复杂工具调度


如果你没有任何编程基础,想要自己做一个电脑上的小工具(比如一个极简的桌面番茄钟),在以前,你需要从零开始学写代码、学配环境、学怎么修 Bug,最后还要学怎么把代码打包成双击就能运行的 .exe 软件。


但现在,在 Qwen3.7-Max 模型强大的原生 Agent 推理能力驱动下,搭配上 Claude Code 这样的执行工具,你只需要下达简短指令「帮我做一个桌面番茄钟应用」,它就能在背后为你摆平一切。


面对模糊的需求,Qwen3.7-Max 展现了极强的产品架构能力。它没有直接开始堆砌代码,而是谋定而后动。在确认了技术栈(Python + PyQt)和功能范围后,模型迅速输出了一份结构化的 Markdown 架构计划,并指挥工具开始执行。


520,遇见国产「新模王」Qwen3.7-Max!


缺少工具?没关系,大模型会调度系统自动安装,全程不需要你操心。在运行中,由于电脑路径不匹配引发了连续的红字报错,当 Claude Code 将报错信息抓取回来后,Qwen3.7-Max 瞬间锁定了错误根源,并展现出惊艳的自我纠错能力。它迅速推理出了好几种替代命令方案进行动态试错。短短几秒内,它就排除了系统环境的干扰,把精美的番茄钟稳稳地弹到了你的桌面上。


520,遇见国产「新模王」Qwen3.7-Max!


有不满意的地方,比如想换个莫兰迪色系,只要一句话,模型就能精准理解审美需求并修改代码,分分钟解决。


520,遇见国产「新模王」Qwen3.7-Max!

如果你想把这个好用的番茄钟发给朋友,只需要下达终极交付指令:「帮我打包成 exe」。Qwen3.7-Max 再次发挥 Agent 本能,识别出环境缺失后,生成对应指令让工具自动安装了打包依赖。经过它在后台的一顿丝滑调度,原本复杂晦涩的代码,变成了一个干干净净的 .exe 文件,安静地躺在你的文件夹里,双击就能用。


520,遇见国产「新模王」Qwen3.7-Max!


如果你觉得让 AI 写个桌面软件只是大模型在代码「舒适区」里的基操,那不妨看看它在真实的互联网环境、CLI 以及 Skill 调用中,是如何展现真正的 Agent 实力的。


我们先调用近期很火的 CLI 工具,首先让 Agent 帮我下载了 opencli,让它具备了直接触达并检索全网信息的能力。


520,遇见国产「新模王」Qwen3.7-Max!


下达指令「使用 opencli 工具,帮我查查小红书上北京必吃的粤菜,附图片」后,Qwen3.7-Max 迅速从零开始「阅读」工具文档,自主摸索出了正确的调用语法。在抓取过程中,程序遭遇了网络超时崩溃,它也自主推理出了修改底层配置的绕路方案来延长等待时间。


520,遇见国产「新模王」Qwen3.7-Max!


520,遇见国产「新模王」Qwen3.7-Max!


你不需要看懂它在后台排除了多少次 Bug,只需几分钟,它就已经把满屏的美食图片稳稳地下载到了你的本地文件夹里。收集完素材后,当然还可以让 Agent 顺手把调研结果快速转为 PPT 和在线文档,完成工作流闭环。


520,遇见国产「新模王」Qwen3.7-Max!


520,遇见国产「新模王」Qwen3.7-Max!


520,遇见国产「新模王」Qwen3.7-Max!


Agent 的另一项核心能力,在于能针对特定场景灵活调用 Skill。


面对一段充满「首先其次最后」、「跨越时空的赞歌」等套路化词汇的游记,只需简短地输入「去 AI 味」,Qwen3.7-Max 准确识别了文字修改的核心诉求,并主动调度了系统内的 Skill。


520,遇见国产「新模王」Qwen3.7-Max!


在完成重写后,模型输出了一份结构化的 Markdown 复盘表格。它条理清晰地列出了自己去除了哪些「填充短语」和「宣传性语言」,并从「直接性」、「真实性」等维度对修改结果进行了量化打分。


520,遇见国产「新模王」Qwen3.7-Max!


从零基础的桌面软件开发,到陌生终端工具的自主摸索,再到高阶文本的技能调度与反思,Qwen3.7-Max 在这三个场景中,展现的不只是单纯的文本生成能力,还有高度成熟的 Agent 独立执行力。


三个月三连更


阿里按下 AI「加速度」


这一连串令人瞩目的榜单成绩与实战效果,是千问大模型近期狂飙的一个缩影。


千问旗舰模型的迭代周期已经卷到「月更」:3 月 20 日,Qwen3.5-Max-Preview 发布;4 月 20 日, Qwen3.6-Max-Preview 发布。到今天,Qwen3.7-Max 又来了。对于用户来说,正在经历「幸福的烦恼」。


520,遇见国产「新模王」Qwen3.7-Max!


图源:@LotusDecoder


能保证一个月推出一代旗舰模型,靠的绝非只是模型团队的「肝」。阿里自今年 3 月成立 ATH(Alibaba Token Hub)组织以来,逐渐形成的芯片、云、模型、应用全栈能力,才最大程度上促成了如今的局面。


其中,平头哥的定制芯片提供了极致的训练与推理效率,阿里云的弹性算力让大规模预训练和部署无缝衔接,模型层的快速迭代又能直接反哺上层应用。这样的垂直整合压缩了沟通成本和工程损耗,让千问的研发节奏可以像互联网产品一样快速滚动。


可以说,千问旗舰模型的加速度,源自阿里全栈 AI 体系的爆发。这种体系化的壁垒优势,要比单个模型的一次刷榜高分更难复制。


千问在走高频迭代路线的同时,也没有放弃对开源社区的深耕。不夸张地说,千问已经成为国产乃至全球开源模型的标杆,几乎每次新发布都会引起极大的关注。


上个月开源的 Qwen3.6-27B 和 Qwen3.6-35B-A3B 更是成为「以小胜大」的代表作,登顶了 HuggingFace 全球开源榜单,在主要编程基准上全面超越了上代更大体量的 Qwen3.5-397B-A17B,也大幅领先同等规模的稠密模型。


520,遇见国产「新模王」Qwen3.7-Max!


这些中小规模的千问模型,凭借极低的部署成本,提供了超越同尺寸甚至跨级挑战的性能,更好地满足了本地部署和定制化的刚需,让全球开发者不自觉地将它们作为默认底座。正如一位用户所说,「阿里正带着千问飞速前进。开源这条赛道卷疯了,但最终是所有人的胜利。」


520,遇见国产「新模王」Qwen3.7-Max!


开源社区的口碑形成了强大的引力场,让开发者「用脚投票」,在 API 调用上愿意为千问模型付费。


上个月,Qwen3.6-Plus 夺得了全球知名大模型 API 调用平台 OpenRouter 日榜和周榜的双料冠军,并首创了单日单模型调用量突破 1.4 万亿 Token 的全球纪录。千问模型在全球开发者心目中的地位可见一斑。


520,遇见国产「新模王」Qwen3.7-Max!


在收获全球开发者心智的同时,千问也悄悄占据了全球 Token 经济的流量入口。如今,Token 正在迅速成为了解决问题的通用输入,而阿里通过千问牢牢抓住了这个发展节点。


智能体软件的地基


正在被铺设


月更旗舰,看似「秀肌肉」,实际上是在为 Agent 时代抢占先机。


不难发现,千问近半年来的模型均指向了同一个主题 —— Agent,其中 Qwen3.5 打造原生多模态智能体,Qwen3.6-Plus 走向现实世界智能体,Qwen3.7-Max 开辟智能体新前沿。每一次新发布都伴随着模型自主规划、工具调用与长程任务执行能力的提升。


此次 Qwen3.7-Max 被寄予厚望。阿里想将它打造成为下一代全能智能体底座,因而不满于其仅仅充当被调用的大脑,也希望通过下沉到硬件层,进行系统级编程与优化。Qwen3.7-Max 在平头哥新 AI 芯片上成功运行 35 个小时超长程智能体任务,是这一转变的有力例证。


不仅如此,Qwen3.7-Max 还涌现出了跨智能体框架的泛化能力。无需专门训练,就能丝滑支持 Claude Code、OpenClaw、Hermes Agent 等框架。这像极了当年操作系统的崛起逻辑,包括 PC 时代的 Windows、移动时代的 Android,通过统一的标准与接口,让开发者在其上繁衍丰富的生态。


千问正在努力搭建 Agent 时代的「标准接口」,让自身成为不同智能体框架的首选底座。这种面向未来的布局,更具有战略眼光。


520,遇见国产「新模王」Qwen3.7-Max!


另外,Agent 时代拼的终归还是模型能力能否站得住脚。阿里深知并一直践行着这一点,并通过开源提升在全球开发者社区中的影响力。当越来越多开发者习惯于使用千问搭建智能体并运行任务时,阿里在下一代 Agentic 软件生态的建设中就能掌握更多话语权。


当下,Anthropic 与 OpenAI 通过「产品驱动」(Claude Code、Codex)路线赢得用户和企业,并在商业市场谋求万亿美元上市。而作为国产大模型代表大厂之一的阿里,选择了一条更难、更宏大的路径,从技术到生态再到话语权,「全都要」。


在这场关键的卡位战中,阿里千问的野心远比我们想象中的更大,它志在成为开发者构建智能体系统时最不可或缺的底层基础设施。


文章来自于微信公众号 “机器之心”,作者 “机器之心”

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
AI代理

【开源免费】Browser-use 是一个用户AI代理直接可以控制浏览器的工具。它能够让AI 自动执行浏览器中的各种任务,如比较价格、添加购物车、回复各种社交媒体等。

项目地址:https://github.com/browser-use/browser-use


2
AI工作流

【开源免费】字节工作流产品扣子两大核心业务:Coze Studio(扣子开发平台)和 Coze Loop(扣子罗盘)全面开源,而且采用的是 Apache 2.0 许可证,支持商用!

项目地址:https://github.com/coze-dev/coze-studio


【开源免费】n8n是一个可以自定义工作流的AI项目,它提供了200个工作节点来帮助用户实现工作流的编排。

项目地址:https://github.com/n8n-io/n8n

在线使用:https://n8n.io/(付费


【开源免费】DB-GPT是一个AI原生数据应用开发框架,它提供开发多模型管理(SMMF)、Text2SQL效果优化、RAG框架以及优化、Multi-Agents框架协作、AWEL(智能体工作流编排)等多种技术能力,让围绕数据库构建大模型应用更简单、更方便。

项目地址:https://github.com/eosphoros-ai/DB-GPT?tab=readme-ov-file



【开源免费】VectorVein是一个不需要任何编程基础,任何人都能用的AI工作流编辑工具。你可以将复杂的工作分解成多个步骤,并通过VectorVein固定并让AI依次完成。VectorVein是字节coze的平替产品。

项目地址:https://github.com/AndersonBY/vector-vein?tab=readme-ov-file

在线使用:https://vectorvein.ai/付费

3
智能体

【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。

项目地址:https://github.com/Significant-Gravitas/AutoGPT


【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。

项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md