AI技术研报-这里有最前沿的人工智能技术解读

霉霉开口唱碧昂丝的歌，又是AI！口型不出戏，五官姿态也自然，复旦百度等出品｜GitHub揽星1k+

一张人像、一段音频参考，就能让霉霉在你面前唱碧昂丝的《Halo》。

来自主题: AI技术研报

12277 点击 2024-06-17 23:26

树莓派上部署RAG！微软Phi-3技术报告揭示「小而美」模型如何诞生

Build大会召开两周之后，微软更新了Phi-3系列模型的技术报告。不仅加入最新的基准测试结果，而且对小模型、高性能的实现机制做出了适当的揭示。

来自主题: AI技术研报

11538 点击 2024-06-17 21:49

《奇点临近》续作来了！雷·库兹韦尔预言人类「永生」，活120岁太短

雷·库兹韦尔即将出版《奇点临近》的全新续作——《奇点更近》。在书中，他更加大胆地承诺，人类可以获得「永生」，库兹韦尔认为在本世纪40-50年代，人类将重建自己的身体和大脑，使其远远超出我们生物体的能力。

来自主题: AI技术研报

8796 点击 2024-06-17 21:45

LLM最全「怪癖」首曝光！马里兰OpenAI等30+学者祭出75页提示报告

大语言模型提示中，竟有不少「怪癖」：重复某些内容，准确性就大大提高；人名变匿名，准确性就大大下降。最近，马里兰OpenAI等机构的30多位研究者，首次对LLM的提示技术进行了大规模系统研究，并发布75页详尽报告。

来自主题: AI技术研报

8768 点击 2024-06-17 21:41

拯救Transformer推理能力！DeepMind新研究TransNAR：给模型嵌入「算法推理大脑」

DeepMind最近发表的一篇论文提出用混合架构的方法解决Transformer模型的推理缺陷。将Transformer的NLU技能与基于GNN的神经算法推理器（NAR）的强大算法推理能力相结合，可以实现更加泛化、稳健、准确的LLM推理。

来自主题: AI技术研报

11161 点击 2024-06-17 21:30

答案抽取正确率达96.88%，xFinder断了大模型「作弊」的小心思

大语言模型（LLM）的迅速发展，引发了关于如何评估其公平性和可靠性的热议。

来自主题: AI技术研报

11176 点击 2024-06-17 19:37

字节豆包、武大提出 CAL：通过视觉相关的 token 增强多模态对齐效果

当前主流的视觉语言模型（VLM）主要基于大语言模型（LLM）进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间，然后使用自回归方式根据图像 token 预测答案。

来自主题: AI技术研报

9559 点击 2024-06-17 19:35

大模型+蒙特卡洛树搜索，一招让LLaMa-3 8B奥数水平直逼GPT-4

通过算法层面的创新，未来大语言模型做数学题的水平会不断地提高。

来自主题: AI技术研报

11067 点击 2024-06-17 19:32

AI研究的主要推动力会是什么？ChatGPT团队研究科学家：算力成本下降

AI 研究发展的主要推动力是什么？在最近的一次演讲中，OpenAI 研究科学家 Hyung Won Chung 给出了自己的答案。

来自主题: AI技术研报

10769 点击 2024-06-17 19:30

2024人工智能指数报告（二）：技术性能

过去一年人工智能研究取得了重大突破

来自主题: AI技术研报

2404 点击 2024-06-17 09:51

高质量3D生成最有希望的一集？GaussianCube在三维生成中全面超越NeRF

在三维生成建模的研究领域，现行的两大类 3D 表示方法要么基于拟合能力不足的隐式解码器，要么缺乏清晰定义的空间结构难以与主流的 3D 扩散技术融合。来自中科大、清华和微软亚洲研究院的研究人员提出了 GaussianCube，这是一种具有强大拟合能力的显式结构化三维表示，并且可以无缝应用于目前主流的 3D 扩散模型中。

来自主题: AI技术研报

11229 点击 2024-06-16 18:15

ACL 2024论文盖棺定论：大语言模型≠世界模拟器，Yann LeCun：太对了

最近两天，一篇入选 ACL 2024 的论文《Can Language Models Serve as Text-Based World Simulators?》在社交媒体 X 上引发了热议，就连图灵奖得主 Yann LeCun 也参与了进来。

来自主题: AI技术研报

10274 点击 2024-06-16 18:07

Meta新模型NLLB获Nature盛赞，200种濒危语言高质量翻译，「不让任何语言掉队」

Meta AI的NLLB-200登上Nature，「不让任何一门语言掉队」，能翻译200种语言的大模型获得Nature社论的盛赞——复兴了濒临灭绝的语言，但是Nature研究人员也郑重提醒Meta，必须将使用这些语言的社区也纳入进来，才会真正减缓语言的消亡。

来自主题: AI技术研报

10731 点击 2024-06-16 18:04

GPT-4不是世界模型，LeCun双手赞同！ACL力证LLM永远无法模拟世界

大模型是世界模型吗？UA微软等机构最新研究发现，GPT-4在复杂环境的模拟中，准确率甚至不及60%。对此，LeCun激动地表示，世界模型永远都不可能是LLM。

来自主题: AI技术研报

10494 点击 2024-06-16 17:57

37项SOTA！全模态预训练范式MiCo：理解任何模态并学习通用表示｜港中文&中科院

GPT-4o掀起一股全模态（Omni-modal）热潮，去年的热词多模态仿佛已经不够看了。

来自主题: AI技术研报

10668 点击 2024-06-16 17:50

北大快手攻克复杂视频生成难题！新框架轻松组合各种细节，代码将开源

如何生成高难度、指令超复杂的视频呢？

来自主题: AI技术研报

9980 点击 2024-06-16 17:29

「连续数值分布式表征」加持，浙大UIUC让语言模型擅长表格预测 | ICLR 2024 Spotlight

来自浙江大学和伊利诺伊大学厄巴纳-香槟分校的研究者发表了他们关于「表格语言模型」（Tabular Language Model）的研究成果

来自主题: AI技术研报

9835 点击 2024-06-15 16:23

Scaling Law触礁「数据墙」？Epoch AI发文预测LLM到2028年耗尽所有文本数据

训练数据的数量和质量，对LLM性能的重要性已经是不言自明的事实。然而，Epoch AI近期的一篇论文却给正在疯狂扩展的AI模型们泼了冷水，他们预测，互联网上可用的人类文本数据将在四年后，即2028年耗尽。

来自主题: AI技术研报

10901 点击 2024-06-15 16:20

AlphaFold的伟大，只因做对了这5件事！DeepMind副总裁：团队注定会取得突破

谷歌DeepMind开发的AlphaFold一夜之间颠覆了生物学，这一革命性的突破背后，有一支怎样的团队？AlphaFold的缔造者之一、DeepMind研究副总裁分享了成功的秘密——如何组建一个团队来应对这一巨大的跨学科挑战并取得胜利。

来自主题: AI技术研报

8615 点击 2024-06-15 16:12

Sora负责人与谢赛宁「隔空对话」，LLM先锋集结中国最硬核AI内行盛会！智源大模型全家桶亮相

才用了112台A800，就能训出性能达GPT-4 90%的万亿参数大模型？智源的全球首个低碳单体稠密万亿参数大模型Tele-FLM，有望解决全球算力紧缺难题！此外，全新思路的原生多模态「世界模型」Emu 3等都浅亮相了一把。2024的智源大会，依然是星光熠熠，学术巨佬含量超标。

来自主题: AI技术研报

10662 点击 2024-06-15 16:07

陶哲轩最新采访：AI将颠覆数学界！用Lean规模化，成百上千条定理一次秒杀

陶哲轩在最新的采访中，系统地谈到了AI可能会对数学领域产生的影响。他乐观地认为，使用Lean等工具「形式化」数学，在AI的辅助下实现规模化生产——一次证明数百或数千条定理。但他也审慎地预测，数学问题在短期内不会像国际象棋一样被「解决」，但有可能会提高人类科学家的洞察力。

来自主题: AI技术研报

10992 点击 2024-06-15 16:05

Mobile-Agent-v2问世，自动化手机操作能力再上新台阶

今年年初发布的Mobile-Agent凭借强大的自动化手机操作能力，引起了AI界和手机厂商的广泛关注，仅5个月的时间就已在Github上收获了2,000个Star。

来自主题: AI技术研报

10805 点击 2024-06-15 15:58

英伟达开源3400亿巨兽，98%合成数据训出最强开源通用模型！性能对标GPT-4o

刚刚，英伟达全新发布的开源模型Nemotron-4 340B，有可能彻底改变训练LLM的方式！从此，或许各行各业都不再需要昂贵的真实世界数据集了。而且，Nemotron-4 340B直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2，甚至可以和GPT-4掰手腕！

来自主题: AI技术研报

6071 点击 2024-06-15 15:58