霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+
霉霉开口唱碧昂丝的歌,又是AI!口型不出戏,五官姿态也自然,复旦百度等出品|GitHub揽星1k+一张人像、一段音频参考,就能让霉霉在你面前唱碧昂丝的《Halo》。
一张人像、一段音频参考,就能让霉霉在你面前唱碧昂丝的《Halo》。
Build大会召开两周之后,微软更新了Phi-3系列模型的技术报告。不仅加入最新的基准测试结果,而且对小模型、高性能的实现机制做出了适当的揭示。
雷·库兹韦尔即将出版《奇点临近》的全新续作——《奇点更近》。在书中,他更加大胆地承诺,人类可以获得「永生」,库兹韦尔认为在本世纪40-50年代,人类将重建自己的身体和大脑,使其远远超出我们生物体的能力。
大语言模型提示中,竟有不少「怪癖」:重复某些内容,准确性就大大提高;人名变匿名,准确性就大大下降。最近,马里兰OpenAI等机构的30多位研究者,首次对LLM的提示技术进行了大规模系统研究,并发布75页详尽报告。
DeepMind最近发表的一篇论文提出用混合架构的方法解决Transformer模型的推理缺陷。将Transformer的NLU技能与基于GNN的神经算法推理器(NAR)的强大算法推理能力相结合,可以实现更加泛化、稳健、准确的LLM推理。
大语言模型(LLM)的迅速发展,引发了关于如何评估其公平性和可靠性的热议。
当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。
通过算法层面的创新,未来大语言模型做数学题的水平会不断地提高。
AI 研究发展的主要推动力是什么?在最近的一次演讲中,OpenAI 研究科学家 Hyung Won Chung 给出了自己的答案。
过去一年人工智能研究取得了重大突破
在三维生成建模的研究领域,现行的两大类 3D 表示方法要么基于拟合能力不足的隐式解码器,要么缺乏清晰定义的空间结构难以与主流的 3D 扩散技术融合。来自中科大、清华和微软亚洲研究院的研究人员提出了 GaussianCube,这是一种具有强大拟合能力的显式结构化三维表示,并且可以无缝应用于目前主流的 3D 扩散模型中。
最近两天,一篇入选 ACL 2024 的论文《Can Language Models Serve as Text-Based World Simulators?》在社交媒体 X 上引发了热议,就连图灵奖得主 Yann LeCun 也参与了进来。
Meta AI的NLLB-200登上Nature,「不让任何一门语言掉队」,能翻译200种语言的大模型获得Nature社论的盛赞——复兴了濒临灭绝的语言,但是Nature研究人员也郑重提醒Meta,必须将使用这些语言的社区也纳入进来,才会真正减缓语言的消亡。
大模型是世界模型吗?UA微软等机构最新研究发现,GPT-4在复杂环境的模拟中,准确率甚至不及60%。对此,LeCun激动地表示,世界模型永远都不可能是LLM。
GPT-4o掀起一股全模态(Omni-modal)热潮,去年的热词多模态仿佛已经不够看了。
如何生成高难度、指令超复杂的视频呢?
来自浙江大学和伊利诺伊大学厄巴纳-香槟分校的研究者发表了他们关于「表格语言模型」(Tabular Language Model)的研究成果
训练数据的数量和质量,对LLM性能的重要性已经是不言自明的事实。然而,Epoch AI近期的一篇论文却给正在疯狂扩展的AI模型们泼了冷水,他们预测,互联网上可用的人类文本数据将在四年后,即2028年耗尽。
谷歌DeepMind开发的AlphaFold一夜之间颠覆了生物学,这一革命性的突破背后,有一支怎样的团队?AlphaFold的缔造者之一、DeepMind研究副总裁分享了成功的秘密——如何组建一个团队来应对这一巨大的跨学科挑战并取得胜利。
才用了112台A800,就能训出性能达GPT-4 90%的万亿参数大模型?智源的全球首个低碳单体稠密万亿参数大模型Tele-FLM,有望解决全球算力紧缺难题!此外,全新思路的原生多模态「世界模型」Emu 3等都浅亮相了一把。2024的智源大会,依然是星光熠熠,学术巨佬含量超标。
陶哲轩在最新的采访中,系统地谈到了AI可能会对数学领域产生的影响。他乐观地认为,使用Lean等工具「形式化」数学,在AI的辅助下实现规模化生产——一次证明数百或数千条定理。但他也审慎地预测,数学问题在短期内不会像国际象棋一样被「解决」,但有可能会提高人类科学家的洞察力。
今年年初发布的Mobile-Agent凭借强大的自动化手机操作能力,引起了AI界和手机厂商的广泛关注,仅5个月的时间就已在Github上收获了2,000个Star。
刚刚,英伟达全新发布的开源模型Nemotron-4 340B,有可能彻底改变训练LLM的方式!从此,或许各行各业都不再需要昂贵的真实世界数据集了。而且,Nemotron-4 340B直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2,甚至可以和GPT-4掰手腕!
人类的教育方式,对大模型而言也很适用。
人形机器人的「Hello World」。
一年一度的国内「AI 春晚」—— 智源大会又一次拉开了序幕。
3D生成是生成式人工智能和计算机图形学领域最引人注目的话题之一,符合影视、游戏标准的3D生成尤其受产业界关注。在生产流程中,一般品类的3D资产往往通过手工建模或者扫描的方式制作。但作为3D资产的一个重要类别,服装资产的往往来源于平面板片与物理模拟等流程,而不是直接在3D上建模。
性能超越 Llama-3,主要用于合成数据。
只要一个大模型,就能解决打工人遇到的表格难题!
在CV、ML等领域经常用到的神经场网格模型,如今有了理论框架描述其训练动力学和泛化性能。