真机强化学习如何保证安全性?清华团队提出安全探索均衡机制
真机强化学习如何保证安全性?清华团队提出安全探索均衡机制近日清华大学于IEEE TPAMI发表论文,探讨了真机强化学习的安全性保障问题,提出了一套「安全探索均衡」新型机制,揭示了安全探索的理论最大边界,并攻克了其收敛性证明难题。
搜索
近日清华大学于IEEE TPAMI发表论文,探讨了真机强化学习的安全性保障问题,提出了一套「安全探索均衡」新型机制,揭示了安全探索的理论最大边界,并攻克了其收敛性证明难题。
近日,AI-Native科技潮玩品牌ZuzuZoos查无此园宣布完成数千万元Pre-A轮融资,由锦秋基金领投、上海复容投资跟投。这家成立于2025年的初创公司,定位于"AI陪伴机器人+AI潮玩"方向,试图将情感陪伴、AI交互与潮玩IP结合,打造一款会拥抱人的便携式AI伙伴。
如果要评选这轮 AI 狂潮里最魔幻的受益者,TOTO 大概率能拿到一个提名。
在机器人、自动驾驶、AR等真实场景中,空间理解从来都不是“看一眼图像”就能解决的问题。
2026年的AI视频生成赛道,已经拥挤到连空气都变得稀薄。
来自西湖大学和香港中文大学(深圳)的团队沿着这一思路提出 Drifting Preference Optimization(DrPO),把漂移场用于单步文生图模型的偏好后训练。在 DrPO 中,奖励只负责对候选图像排序,不参与反向传播。具体而言,针对同一个文本提示词,当前模型生成一组候选图像。高分样本在特征空间中产生吸引,低分样本产生排斥,并结合参考模型约束给出模型的更新方向。
从原始视频出发,无需人工介入,自动生成 3D 重建、深度、2D mask、3D 框、实例描述、3D grounding 和空间问答。Holi-Spatial 试图把「空间智能」的数据生产,推进到自动化、可扩展的新阶段。
刚刚,外媒The Information援引两位知情人士报道,爆款通用Agent产品Manus的早期中国支持者,计划掏出20亿美元(约合人民币135亿元),向Meta回购该公司。
广州智跃深空人工智能科技有限公司 Zleap AI 提出的 SAG(SQL-Retrieval Augmented Generation) 出场了。其实,名字已经点题了——不是 Graph、Hippo,而是 SQL-Retrieval。它的核心想法是在离线阶段,SAG 先把原始文本先整理成「事项 + 实体」的数据库结构。等查询来了,再围绕当前问题,用 SQL 动态串出一张局部线索网。
随着大语言模型逐步从「单轮问答」走向「真实环境中的持续交互」,LLM agents 正在被用于越来越复杂的 agentic applications:deep research、coding、computer use、customer service、medical inquiry、troubleshooting 等等。