AI资讯新闻榜单内容搜索-模型

腾讯发布超低成本AI训练法！120元效果秒杀70000元微调方案

只花120元，效果吊打70000元微调！腾讯提出一种升级大模型智能体的新方法——无训练组相对策略优化Training-Free GRPO。无需调整任何参数，只要在提示词中学习简短经验，即可实现高性价比提升模型性能。

来自主题: AI技术研报

10999 点击 2025-10-15 17:06

仅4B！阿里千问最强视觉模型新开源，网友：我的16GB Mac有救了

智东西10月15日报道，今日，阿里通义千问团队推出其最强视觉语言模型系列Qwen3-VL的4B与8B版本，两个尺寸均提供Instruct与Thinking版本，在几十项权威基准测评中超越Gemini 2.5 Flash Lite、GPT-5 Nano等同级别顶尖模型。

来自主题: AI资讯

11731 点击 2025-10-15 17:05

不用跟AI客气了！新研究：语气越粗鲁回答正确率越高

找AI帮忙不要再客气了，效果根本适得其反。宾夕法尼亚州立大学的一项研究《Mind Your Tone》显示，你说话越粗鲁，LLM回答越准。

来自主题: AI技术研报

7607 点击 2025-10-15 14:52

万亿级思考模型，蚂蚁首次开源！20万亿token搅局开源AI

在AI浪潮中，蚂蚁集团重磅推出万亿参数思考模型Ring-1T，不仅在数学竞赛上刷新开源SOTA，还在逻辑推理和医疗问答中脱颖而出。实测显示，其推理能力直逼闭源巨头，开源AI迈入万亿参数时代。

来自主题: AI资讯

8238 点击 2025-10-15 14:48

实测“清华特奖版Sora”：一图一prompt直接生成视频，堪称嘴强王者

那边OpenAI的Sora2还没全面开放，这边国内团队已经上线了自己的“特色打法”。清华特奖选手创办的Sand.ai，上线了音画同步视频模型GAGA-1。

来自主题: AI资讯

8367 点击 2025-10-15 14:38

北大彭一杰教授课题组提出RiskPO，用风险度量优化重塑大模型后训练

当强化学习（RL）成为大模型后训练的核心工具，「带可验证奖励的强化学习（RLVR）」凭借客观的二元反馈（如解题对错），迅速成为提升推理能力的主流范式。从数学解题到代码生成，RLVR 本应推动模型突破「已知答案采样」的局限，真正掌握深度推理逻辑 —— 但现实是，以 GRPO 为代表的主流方法正陷入「均值优化陷阱」。

来自主题: AI技术研报

7602 点击 2025-10-15 14:19