字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型生成很长的推理链(CoT),并在奥数等高难度推理任务上取得了显著的效果提升。
搜索
最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型生成很长的推理链(CoT),并在奥数等高难度推理任务上取得了显著的效果提升。
追星分泌多巴胺,却也伴随大量做数据等考验精神耐力和体力的绝望劳动。应援、做数据,为自担辗转各大平台控评,以及为每一次线下见面设计应援物,每一项都耗损心神,靠饭圈女孩用爱发电。 随着AI生成图文的功能强大,一些饭圈女孩被解救出来。
4月25日,昆仑万维发布最新财报,2024年营收56.62亿元,同比增长15.2%,净利润亏损15.95亿元,同比下跌226.8%。这也是上市十年,昆仑万维首度亏损的一年。
在AI大浪潮里,今天我们来看几个硅谷风投青睐的AI应用的案例。既有有趣而小众的AI应用,单凭创意就打动了看似视财如命的硅谷大佬,也有靠“骗术”制造出人工智能的假象,揭穿后面临蹲监风险。
科研成果「复现」新革命!还在为堆积如山的论文和难以复现的代码发愁吗?Paper2Code能直接「阅读」机器学习论文,自动生成高质量、可运行的代码库。它通过智能规划、分析、生成三步,效率远超人类,有望极大加速科研迭代,告别「重复造轮子」的烦恼!
ChatGPT新玩法,让程序员大佬Simon Willison直呼太反乌托邦了,像科幻突然变成现实:只需一张照片,靠带图深度思考就能猜出地理位置。这种玩法很简单,随手拍一张风景,没有任何明显的地标即可,也不需要复杂的提示词,只需要问“猜猜这张照片是在哪里拍的?”(需要o3/o4-mini的带图思考,先关闭所有记忆功能)。
Dia 应该是在目前在用户实测中体验反馈效果最好的 AI 浏览器之一。不同于其他产品在已有浏览器上进行「雕花」,增添 AI 功能的做法,Dia 将 AI 作为核心构建理念,想要打造一个由 AI 驱动的全新浏览环境。
自回归模型,首次生成2048×2048分辨率图像!来自Meta、西北大学、新加坡国立大学等机构的研究人员,专门为多模态大语言模型(MLLMs)设计的TokenShuffle,显著减少了计算中的视觉Token数量,提升效率并支持高分辨率图像合成。
360 旗下的纳米 AI 宣布推出面向个人用户的「MCP 万能工具箱」。这款产品是针对无技术背景的普通用户打造的,让每个人都能以最低的学习成本掌握前沿的 AI 使用方式。
LLM的规模爆炸式增长,传统量化技术虽能压缩模型,却以牺牲精度为代价。莱斯大学团队的最新研究DFloat11打破这一僵局:它将模型压缩30%且输出与原始模型逐位一致!更惊艳的是,通过针对GPU的定制化解压缩内核,DFloat11使推理吞吐量提升最高38.8倍。