AI资讯新闻榜单内容搜索-翁家翌

不更新参数就能强化学习！OpenAI翁家翌提出新范式：决策只需AI手搓一个.py 文件

没有训练梯度的AI，打破了Atari游戏满分纪录。OpenAI核心研究员翁家翌提出了一个强化学习新范式——启发式学习（Heuristic Learning, HL）。

来自主题: AI技术研报

8762 点击 2026-05-09 16:19

近日，OpenAI一位华人研发工程师，翁家翌在一期播客采访中曝出了不少猛料。可以说是把如今的顶流OpenAI过去三年的重大转折、技术取舍、Infra、甚至包括那次各个谣传版本的“宫斗风波”。

来自主题: AI资讯

8744 点击 2026-01-24 11:10