拆解梁文锋署名的DSpark,看懂这10个点就够了!
拆解梁文锋署名的DSpark,看懂这10个点就够了!Fireworks AI的联合创始人兼CTO、PyTorch核心维护者Dmytro Dzhulgakov将整篇论文梳理成了10个概念,从最底层的GPU访存特性讲到最上层的在线自适应调度。DeepSeek这套方案真正的精髓在于系统工程和模型协同设计。
搜索
Fireworks AI的联合创始人兼CTO、PyTorch核心维护者Dmytro Dzhulgakov将整篇论文梳理成了10个概念,从最底层的GPU访存特性讲到最上层的在线自适应调度。DeepSeek这套方案真正的精髓在于系统工程和模型协同设计。
为了想清楚 Agent 时代怎么发社交平台,我做了 ArcSocial 。ArcSocial 不是为了让 AI 替我写文章,而是为了把人的判断、Agent 的协作和平台发布流程组织成可追溯、可维护的工作区。
15 个来自火山引擎 V-START 加速器的项目,横跨具身智能、AI 陪伴硬件、Agent 工具、内容生成、AI 教育等赛道。都在各自的场景里,把模型能力变成了用户愿意持续使用甚至付费的产品体验,要么扎进了模型短期内替代不了的物理世界,要么在垂直场景里把 Agent 做到了用户真正愿意持续用的程度,要么用 AI 重构了一个原本就有刚需的消费品类。
来自 Sharpa、清华大学、UC Berkeley、上海交通大学、ETH Zurich 等机构的研究者提出了首个通用触觉基础策略 FTP-1。它基于约 3,000 小时、来自 26 个数据来源和 21 种触觉传感器的数据进行预训练
刚刚,DeepSeek V4 进行了一次更新。新推出了投机解码(Speculative Decoding)框架 DSpark,并同步开源了支撑该版本的全栈推测性解码框架 DeepSpec。DeepSeek-V4-Pro-DSpark 并非全新架构模型,而是在 DeepSeek-V4-Pro 基础上引入了推测性解码模块。此次更新的重点在于工程落地,而非模型能力本身的迭代。
我们来看下这个号称是「Andrej Karpathy 实际使用的 CLAUDE.md 文件」究竟讲了啥?链接:https://drive.google.com/file/d/1mtJKbu-QRk62WTWkyc0M0pGXbKzisA5W/view
Qualcomm 正在与 Modular 进行高级别谈判,拟收购该人工智能基础设施软件公司,交易估值约为 40 亿美元,据熟悉此事的人士称。这些人士表示,一笔交易可能会在未来几周内宣布,但他们要求不透露姓名,因为相关信息属于私人性质。
来自至知创新研究院(IQuest Research)、中国人民大学高瓴人工智能学院、KAUST等机构的研究团队提出了FORT,一个面向Deep Search Agent的shortcut-resistant training-data synthesis framework。
布朗大学的博士生 Yong Zheng-Xin 今天自宣了下个月将正式加入 OpenAI,作为 Astra Fellow 专注于 AI 的安全研究(AI Safety Research)。
Harsh Mehta 在 Anthropic 的时候,启动了一个后来被称为 autoresearch 的内部平台(不是 Karpathy 那个)。最初这个项目只有他一个人,功能是让 AI 自主完成 AI 研发中的一系列流程环节:提出实验假设、编写代码、调度算力、评估结果,再决定下一步做什么。