AI资讯新闻榜单内容搜索-模型训练

三个大模型组队挑战o1，实测360多模型协作干掉提示词工程

o1，Inference law，推理定律，模型训练

来自主题: AI技术研报

11867 点击 2024-09-20 20:25

Transformer推理天花板被谷歌打破？DeepMind首席科学家亮出84页PPT，却遭LeCun反对

随OpenAI爆火的CoT，已经引发了大佬间的激战！谷歌DeepMind首席科学家Denny Zhou拿出一篇ICLR 2024论文称：CoT可以让Transformer推理无极限。但随即他就遭到了田渊栋和LeCun等的质疑。最终，CoT会是通往AGI的正确路径吗？

来自主题: AI技术研报

10580 点击 2024-09-20 19:48

狮门影业片库卖去炼 AI ，潘多拉魔盒就此打开？

演员导演谈妥与否，目前不得而知

来自主题: AI资讯

7692 点击 2024-09-20 15:07

斯坦福重磅，突破小规模语料瓶颈，EntiGraph合成数据增强算法让LLM更聪明

如何处理小众数据，如何让这些模型高效地学习专业领域的知识，一直是一个挑战。斯坦福大学的研究团队最近提出了一种名为EntiGraph的合成数据增强算法，为这个问题带来了新的解决思路。

来自主题: AI资讯

8617 点击 2024-09-20 10:31

KAN结合Transformer，真有团队搞出了解决扩展缺陷的KAT

Transformer 是现代深度学习的基石。传统上，Transformer 依赖多层感知器 (MLP) 层来混合通道之间的信息。

来自主题: AI资讯

5636 点击 2024-09-19 15:16

ECCV 2024 | 探索离散Token视觉生成中的自适应推理策略

本论文第一作者倪赞林是清华大学自动化系 2022 级直博生，师从黄高副教授，主要研究方向为高效深度学习与图像生成。他曾在 ICCV、CVPR、ECCV、ICLR 等国际会议上发表多篇学术论文。

来自主题: AI技术研报

7364 点击 2024-09-19 11:14

图像AI那么耗算力，问题出在 RGB 格式上？

最近一直在想一个问题。为什么我们的图像 AI 模型那么耗算力？比如，现在多模态图文理解 AI 模型本地化部署一个节点，动不动就需要十几个 G 的显存资源。

来自主题: AI资讯

2992 点击 2024-09-18 15:49

通过打包 Flash Attention 来提升 Hugging Face 训练效率

现在，在 Hugging Face 中，使用打包的指令调整示例 (无需填充) 进行训练已与 Flash Attention 2 兼容，这要归功于一个最近的 PR 以及新的 DataCollatorWithFlattening。它可以在保持收敛质量的同时，将训练吞吐量提高多达 2 倍。继续阅读以了解详细信息！

来自主题: AI资讯

4394 点击 2024-09-18 15:44

OpenAI o1要跟，怎么跟？这个GitHub项目把解读、博客、相关论文一网打尽

优秀的 GitHub 项目啊！有关 OpenAI ο1 的一切都在这里

来自主题: AI技术研报

7192 点击 2024-09-17 23:19

港大新型图基础模型AnyGraph：挑战Scaling Law，精准建模多样化结构模式和特征空间

新型图基础模型来了—— AnyGraph，基于图混合专家（MoE）架构，专门为实现图模型跨场景泛化而生。

来自主题: AI资讯

7545 点击 2024-09-17 21:57