速递|OpenAI收购Weights.GG,拿下AI语音克隆技术,6名核心成员入职
速递|OpenAI收购Weights.GG,拿下AI语音克隆技术,6名核心成员入职据一位熟悉该收购的人士透露,OpenAI 在一月收购了 Weights.GG, 这是一家开发了名为 Replay 的 AI 语音克隆工具的小型创业公司。大约六名员工加入了 OpenAI,OpenAI 收购了该创业公司的知识产权,但并不打算整合该创业公司的产品。
搜索
据一位熟悉该收购的人士透露,OpenAI 在一月收购了 Weights.GG, 这是一家开发了名为 Replay 的 AI 语音克隆工具的小型创业公司。大约六名员工加入了 OpenAI,OpenAI 收购了该创业公司的知识产权,但并不打算整合该创业公司的产品。
相似度超越Seed-TTS、MiniMax-Speech等知名模型。昨晚,美团LongCat团队发布了文本转语音模型LongCat-AudioDiT,并开源1B、3.5B参数量的版本。这一模型的最大特点,是彻底抛弃了梅尔谱等中间表示,直接在波形潜空间进行基于扩散模型的文本转语音。通俗地说,这一模型直接根据声音本身的规律进行生成,“雕刻”出最原始的声音波形,从根源阻断数据转换的级联误差。
近期,港中大(深圳)联手趣丸科技联合推出了新一代大规模声音克隆 TTS 模型 ——MaskGCT。该模型在包含 10 万小时多语言数据的 Emilia 数据集上进行训练,展现出超自然的语音克隆、风格迁移以及跨语言生成能力,同时保持了较强的稳定性。MaskGCT 已在香港中文大学(深圳)与上海人工智能实验室联合开发的开源系统 Amphion 发布。
继去年初的第一代VALL-E模型之后,微软最近又上新了VALL-E 2模型,标志着第一个在合成语音稳健性、相似度、自然程度等方面达到人类水平的文本到语音模型。
这两天,ElevenLabs 紧随着自己融资 8000 万的新闻,在 X 上接连发了一则招聘启事和一条宣传片,以将自己的团队规模,从 40 人扩大到 100 人。
在语音克隆领域,ElevenLabs(11Labs)是公认的最强工具之一。