AI资讯新闻榜单内容搜索-训练模型

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 训练模型
字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题

最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型生成很长的推理链(CoT),并在奥数等高难度推理任务上取得了显著的效果提升。

来自主题: AI技术研报
8138 点击    2025-04-28 14:09
月之暗面Kimi的技术一点都不落后。

月之暗面Kimi的技术一点都不落后。

月之暗面Kimi的技术一点都不落后。

2 月 18 日,月之暗面发布了一篇关于稀疏注意力框架 MoBA 的论文。MoBA 框架借鉴了 Mixture of Experts(MoE)的理念,提升了处理长文本的效率,它的上下文长度可扩展至 10M。并且,MoBA 支持在全注意力和稀疏注意力之间无缝切换,使得与现有的预训练模型兼容性大幅提升。

来自主题: AI技术研报
9812 点击    2025-02-23 11:38
TPAMI-2024 | Uni-AdaFocus视频理解框架,让AI学会「划重点」,计算效率提升4-23倍!

TPAMI-2024 | Uni-AdaFocus视频理解框架,让AI学会「划重点」,计算效率提升4-23倍!

TPAMI-2024 | Uni-AdaFocus视频理解框架,让AI学会「划重点」,计算效率提升4-23倍!

Uni-AdaFocus 是一个通用的高效视频理解框架,实现了降低时间、空间、样本三维度冗余性的统一建模。代码和预训练模型已开源,还有在自定义数据集上使用的完善教程,请访问项目链接。

来自主题: AI资讯
8768 点击    2025-01-18 10:03
AAAI 2025 | 开放世界的深伪检测,北交大团队:解决好无配对数据挑战很重要

AAAI 2025 | 开放世界的深伪检测,北交大团队:解决好无配对数据挑战很重要

AAAI 2025 | 开放世界的深伪检测,北交大团队:解决好无配对数据挑战很重要

现有的深伪检测方法大多依赖于配对数据,即一张压缩图像和其对应的原始图像来训练模型,这在许多实际的开放环境中并不适用。尤其是在社交媒体等开放网络环境(OSN)中,图像通常经过多种压缩处理,导致图像质量受到影响,深伪识别也因此变得异常困难。

来自主题: AI技术研报
9577 点击    2024-12-23 09:44
3D具身基础模型!北大提出Lift3D赋予2D大模型鲁棒的3D操纵能力

3D具身基础模型!北大提出Lift3D赋予2D大模型鲁棒的3D操纵能力

3D具身基础模型!北大提出Lift3D赋予2D大模型鲁棒的3D操纵能力

为了构建鲁棒的 3D 机器人操纵大模型,Lift3D 系统性地增强 2D 大规模预训练模型的隐式和显式 3D 机器人表示,并对点云数据直接编码进行 3D 模仿学习。Lift3D 在多个仿真环境和真实场景中实现了 SOTA 的操纵效果,并验证了该方法的泛化性和可扩展性。

来自主题: AI技术研报
8502 点击    2024-12-09 14:55
美欧亚三洲开发者联手,全球首个组团训练的大模型来了,全流程开源

美欧亚三洲开发者联手,全球首个组团训练的大模型来了,全流程开源

美欧亚三洲开发者联手,全球首个组团训练的大模型来了,全流程开源

Prime Intellect 宣布通过去中心化方式训练完成了一个 10B 模型。30 号,他们开源了一切,包括基础模型、检查点、后训练模型、数据、PRIME 训练框架和技术报告。据了解,这应该是有史以来首个以去中心化形式训练得到的 10B 大模型。

来自主题: AI资讯
9167 点击    2024-12-02 12:35
Ilya认错,Scaling Law崩了?自曝SSI秘密技术路线取代OpenAI

Ilya认错,Scaling Law崩了?自曝SSI秘密技术路线取代OpenAI

Ilya认错,Scaling Law崩了?自曝SSI秘密技术路线取代OpenAI

Ilya终于承认,自己关于Scaling的说法错了!现在训练模型已经不是「越大越好」,而是找出Scaling的对象究竟应该是什么。他自曝,SSI在用全新方法扩展预训练。而各方巨头改变训练范式后,英伟达GPU的垄断地位或许也要打破了。

来自主题: AI资讯
6877 点击    2024-11-12 14:39
幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

幻觉不一定有害,新框架用AI的「幻觉」优化图像分割技术

在人工智能领域,大型预训练模型(如 GPT 和 LLaVA)的 “幻觉” 现象常被视为一个难以克服的挑战,尤其是在执行精确任务如图像分割时。

来自主题: AI技术研报
9554 点击    2024-11-03 17:53