一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26
一个模型,搞定所有音频生成任务!多项基准SOTA | ICLR'26港科大团队提出音频生成统一模型AudioX,只需一个模型,就能从文本、视频、图像等任意模态生成高质量音效和音乐,在多项基准上超越专家模型。团队同时开源了700万样本的细粒度标注数据集IF-caps与可控T2A评测基准T2A-bench,并在该基准上大幅领先现有方法。论文已被ICLR 2026接收。
港科大团队提出音频生成统一模型AudioX,只需一个模型,就能从文本、视频、图像等任意模态生成高质量音效和音乐,在多项基准上超越专家模型。团队同时开源了700万样本的细粒度标注数据集IF-caps与可控T2A评测基准T2A-bench,并在该基准上大幅领先现有方法。论文已被ICLR 2026接收。
多模态学习(Multimodal Learning)正在推动 AI 在医学影像、自动驾驶、人机交互等领域取得突破。通过融合图像、文本、表格等多种模态,模型能够获得更全面的信息,从而显著提升性能。
OpenClaw推出v2026.3.7-beta.1,史上最密集一次更新:89项提交、200+Bug修复,核心亮点是全新ContextEngine插件接口——上下文管理终于可以「自由插拔」,不动核心代码就能换策略。这次更新值得每一个做AI Agent的人认真看。
大四学生,十天Vibe Coding,3个月拿下3000万投资,把毕设做成了公司!随着国产开源项目MiroFish登顶GitHub趋势榜榜首,一个人做出全球爆款的「超级个体」时代,真的来了。
十亿参数的三维重建模型,能塞进手机吗?
高中毕业不上大学,没学过一行代码,靠一群🦞开起了公司。
2025年春节前,OpenClaw开始爆火。NoDesk AI创始人宋健带着团队,用两周时间开发了新产品DeskClaw。最初,NoDesk只是为了内部使用,让自己的电商Agent业务团队基于OpenClaw提升效率。但开发完成后,团队感受到外界喷涌的需求,马上决定对外发布。2026年2月14日,DeskClaw个人版第一个版本上线。
作为2月刷屏的现象级开源产品,OpenClaw不仅自身掀起了AI工具的使用热潮,成为全球最大API聚合平台OpenRouter上的Tokens消耗最多的应用,更成为了国产大模型出海的关键推手。
「2018 到 2023 年间在 EMNLP 会议上发表的那篇论文中,第一作者本科就读于达特茅斯学院、第四作者本科就读于宾夕法尼亚大学的那篇科学论文,题目是什么?」
这个女孩后来创立了 BoldVoice,一个帮助全球 10 亿非英语母语者突破发音障碍的 AI 平台。就在最近,这家只有 7 名员工的公司宣布完成了 2100 万美元的 A 轮融资