AI资讯新闻榜单内容搜索-智能体

大模型「行口」不一？首个专测执行幻觉基准，覆盖真实行为越狱

随着大模型智能体深入渗透真实操作系统，一种全新的安全威胁悄然成型：行为越狱（Behavior Jailbreak）。现有安全基准只盯着模型「说了什么」，却对「做了什么」视而不见。新基准LITMUS是首个同时覆盖真实OS环境行为越狱、语义-物理双层验证与多攻击范式的完整评测体系，并首次系统量化了「执行幻觉」这一被整个评测社区忽视的致命盲区。

来自主题: AI技术研报

9907 点击 2026-06-03 14:33

全球顶尖法律AI每月处理12万亿token，为什么不用OpenAI的云？

Harvey 是全球最大的法律 AI 公司，客户是世界顶尖律所和企业法务团队。你可能没怎么听说过它，但在法律行业，它基本上是那个大家已经在用、不需要再讨论的选择——就像律师界的 Salesforce，你不会问"要不要用"，只问"怎么接进来"。

来自主题: AI资讯

6703 点击 2026-06-03 14:31

Windows 完成 AI 底层重构：MXC 沙盒 + 自研七大AI模型 + 长效自主 Agent 齐登场

Windows 从传统 PC 操作系统转型为原生 Agent 智能体运行系统，围绕系统安全底座、Copilot 一体化超级 AI、7 款自研全栈大模型、本地端侧 AI 硬件、新型智能硬件五大板块落地 AI 新功能

来自主题: AI资讯

10449 点击 2026-06-03 10:33

OpenAI爆更Codex！非码农也能用，9亿人喜提“AI员工”

昨夜，OpenAI直播发布AI编程智能体Codex三项更新，分别是智能体插件、定点修改以及文档一键生成交互式站点。OpenAI还透露Codex的每周活跃用户已经达到500万，较今年年初增长8倍。

来自主题: AI资讯

9603 点击 2026-06-03 07:49

阿里通义千问发布多模态智能体模型Qwen3.7-Plus，让AI从“读懂世界”，走向“动手完成任务”。

今天，阿里通义千问发布多模态智能体模型Qwen3.7-Plus。相比传统“看图说话”式多模态模型，Qwen3.7-Plus在识别图像的基础上，进一步打通界面感知、工具调用、代码生成和任务交付，让AI从“读懂世界”，走向“动手完成任务”。

来自主题: AI资讯

9762 点击 2026-06-02 21:40

AGI将至！40项实验全面SOTA，超级递归智能体自主打造最强材料基座模型

今年，我们正在打开 AI 自我进化的大门，按下了通往 AGI 的加速键。

来自主题: AI技术研报

5744 点击 2026-06-02 15:23

Mind Lab连续发布LoRA最新进展，大模型「持续学习」新范式浮现

最近，前沿实验室 Mind Lab 密集发布了一系列关于 LoRA 与 PEFT（高效微调）的研究结果，似乎描绘出了另一条大模型「持续学习」的路径。在 Mind Lab 的视角中，PEFT 不再是对大模型全参数后训练的一种廉价平替，更是实现从 “基础模型” 向 “可持续学习智能体” 过渡的核心架构机制。

来自主题: AI技术研报

8870 点击 2026-06-02 12:25

GUI Agent「记与学」双修，长程任务有了专属记忆增强型自进化框架

本文团队长期从事负责任的人工智能与人工智能赋能社会科学相关研究，围绕视觉生成大模型安全治理、智能体安全等方向开展系统性工作，相关成果发表于AAAI、ICML、TMM 等国际期刊与会议。

来自主题: AI技术研报

7719 点击 2026-06-02 11:23

一周3.3k star，微软开启Skills自我进化！像训练神经网络一样训练技能

从大模型的提示词到智能体的 Skills，看着进化了，但又没有完全进化。

来自主题: AI技术研报

5678 点击 2026-06-01 09:57

MiniMax M3：前沿 Coding 能力、1M 上下文、原生多模态，一个模型全给你

MiniMax M3 今日正式发布。MiniMax M3 在编程和智能体等专业任务上达到了前沿的能力。它使用了我们提出的全新注意力架构 MSA （MiniMax Sparse Attention），最高支持 1M 超长上下文。如外界所期待的那样，它也是一个原生多模态模型，支持图片和视频的输入，并能操作电脑桌面。

来自主题: AI资讯

9948 点击 2026-06-01 09:49