葬AI基准测试发布:GLM 5.2第一,超越Opus 4.8
葬AI基准测试发布:GLM 5.2第一,超越Opus 4.8这是葬AI起号以来工作量最大的一篇文章。为了严肃评测国产模型的能力,我自研了一个Benchmark,完整测试了智谱、Qwen、Kimi、Minimax、Deepseek这些最新国产模型,还引入了境外势力Claude作对照组。
搜索
这是葬AI起号以来工作量最大的一篇文章。为了严肃评测国产模型的能力,我自研了一个Benchmark,完整测试了智谱、Qwen、Kimi、Minimax、Deepseek这些最新国产模型,还引入了境外势力Claude作对照组。
机器学习已经习惯了处理序列:一句话中的词、视频中的帧、推荐系统中的点击、金融市场中的订单。但在很多真实场景里,数据并不是按固定步长排好队出现的。
从「十几个后台」到「一个大脑」,电商 AI 迎来「All in One」时刻。
AlphaGo是最早的AI agent例子之一。我们需要把这种AlphaGo技术更广泛地用于行政工作、头脑风暴和日常事务,帮助人们处理那些不想花时间完成的任务,从而释放出更多时间,投入更具创造性的工作。
导读:视觉 latent reasoning 希望让多模态模型在内部生成连续 latent token,用这些中间表示补充多模态理解和推理任务中缺失的视觉证据。但问题在于,模型生成出来的 latent token 可能并不落在它原本熟悉的视觉输入空间里;如果模型无法稳定读取这些 token,它们就很难成为有效的中间视觉证据。
在印度,消费者每天会接到大量电话,从骚扰电话、诈骗电话,到送货员和金融服务公司的联系,种类繁多。虽然有 Truecaller 等应用以及政府的来电姓名显示(CNAP)系统可以识别来电者身份,但仅知道对方姓名往往不够。因此,Equal AI 正在开发一款助手,能够代你接听电话、收集信息,并告知你对方来电的原因。
离谱了。 这两天,AI 圈都在疯传一个叫 Le Chaton Fat 的新模型。 30T MoE、256 个专家、100 万上下文窗口、多模态多语言,跑分全面碾压 Claude Fable 5、Claude Opus 4.8 和 GPT-5.5。
AI写代码的风险隐藏在看似正确的代码中,可能引发数据泄露或资产损失。Narwhal AI Code Risks开源项目整理了真实案例、早期信号和典型风险路径,帮助开发者提前识别隐患,避免重蹈覆辙。
法国初创公司 Mistral AI 正洽谈融资约 30 亿欧元(合 35 亿美元),估值约 200 亿欧元,据知情人士透露,这为欧洲人工智能领军企业提供了资金注入,使其在与美国和中国竞争对手的昂贵计算竞赛中保持竞争力。
具身智能领域新星OriginFlow(渊澈太初)宣布接连完成天使轮、战略轮、Pre-A1轮多轮融资,累计融资总额超5亿元人民币。创始人秦深涛,25岁。本科毕业于哈尔滨工业大学,目前是清华大学博士生。2025年创业,他率先提出并落地NeuroScale数据采集范式,以非侵入式运动神经接口为核心入口,为机器人采集长期缺失的物理交互数据。