AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
破解遥感目标的形状与尺度难题,PKINet二代推理提速近4倍!

破解遥感目标的形状与尺度难题,PKINet二代推理提速近4倍!

破解遥感目标的形状与尺度难题,PKINet二代推理提速近4倍!

卫星和航空影像里的目标,不仅大小相差悬殊,还可能朝向任意方向:一边是细长的桥梁、船舶,一边是密集的小车和大面积运动场。PKINet-v2是一种改进的遥感目标检测模型,能同时处理复杂形状和尺度变化的问题。

来自主题: AI技术研报
6220 点击    2026-07-01 09:50
美团 LongCat-2.0:第一个在纯国产芯片训练的万亿参数大模型

美团 LongCat-2.0:第一个在纯国产芯片训练的万亿参数大模型

美团 LongCat-2.0:第一个在纯国产芯片训练的万亿参数大模型

如果只看标题,它很容易被归到“又一个万亿参数大模型”的队伍里:1.6 万亿总参数、MoE 架构、100 万 token 上下文、面向代码和 Agent 场景。但这次真正值得看的,不只是模型有多大,而是它背后的三个问题:国产算力能不能支撑前沿级大模型训练?

来自主题: AI资讯
9618 点击    2026-06-30 21:04
条条电路通罗马:大模型可解释性的「唯一机制」可能从一开始就不存在

条条电路通罗马:大模型可解释性的「唯一机制」可能从一开始就不存在

条条电路通罗马:大模型可解释性的「唯一机制」可能从一开始就不存在

长期以来,机制可解释性(mechanistic interpretability)领域有一个几乎从未被明说、却被视为理所当然的前提:模型对于同一种任务的能力或表现,背后对应着一条唯一的、或近乎唯一的内部「电路」(circuit)。该领域的研究者们之所以要做「电路发现」(circuit discovery),是为了要把这些「特定的」电路找出来。

来自主题: AI技术研报
7781 点击    2026-06-30 15:12
给Transformer变个形,LLM竟能变得更聪明

给Transformer变个形,LLM竟能变得更聪明

给Transformer变个形,LLM竟能变得更聪明

2026 年 6 月,大模型行业正在经历一场前所未有的「开源海啸」:英伟达放出了 550B 参数的混合架构模型,谷歌送出多模态的 Gemma 新版本,智谱用最宽松的协议全量开源了自家旗舰模型。

来自主题: AI技术研报
7714 点击    2026-06-30 10:20
AI助手不该只等人提问:清华团队两项新研究,探索理解用户与适时互动

AI助手不该只等人提问:清华团队两项新研究,探索理解用户与适时互动

AI助手不该只等人提问:清华团队两项新研究,探索理解用户与适时互动

如今,大模型越来越擅长回答问题了,但当 AI 不再只停留在聊天窗口,而是走向智能眼镜、可穿戴设备乃至家庭机器人时,问题会随之改变。用户未必有时间把需求完整说出来,也未必希望助手随时插话。更理想的助手,应该能在现场真正理解人,在用户需要的时候出现,在不合适的时候保持安静。

来自主题: AI技术研报
6146 点击    2026-06-30 09:55
百亿真实数据,首个面向AI Infra的运维智能体评测基准正式开源

百亿真实数据,首个面向AI Infra的运维智能体评测基准正式开源

百亿真实数据,首个面向AI Infra的运维智能体评测基准正式开源

随着全球智能体加速落地,算力需求呈指数级爆发,以 GPU 为核心的 AI 基础设施正变得愈发关键。据摩根士丹利报告预测,2028 年全球 AI 基础设施累计总投资将达 2.9 万亿美元。

来自主题: AI技术研报
5648 点击    2026-06-30 09:53
全球首个:隐空间世界模型,打通长时序双向物理因果链了!

全球首个:隐空间世界模型,打通长时序双向物理因果链了!

全球首个:隐空间世界模型,打通长时序双向物理因果链了!

你从桌上端起一杯水,大脑用了不到一秒,同时完成三件事: 估算杯子的重量,预判水面晃动的幅度,顺便绕开了旁边那个玻璃杯。

来自主题: AI技术研报
8492 点击    2026-06-30 09:53
Nvidia都在点赞的LoopWM世界模型,竟然来自一家中国初创FaceMind?

Nvidia都在点赞的LoopWM世界模型,竟然来自一家中国初创FaceMind?

Nvidia都在点赞的LoopWM世界模型,竟然来自一家中国初创FaceMind?

在世界模型这条路上,行业一直卡在一个几乎无解的矛盾里:想要更真实的长程模拟,就必须给模型更深的计算;可一旦把模型做得更深,部署成本、参数规模和误差累积又会迅速抬头。结果就是,大家都知道世界模型要 “想得更久”,却很难让它在现实系统里 “算得起、跑得稳”。

来自主题: AI技术研报
5412 点击    2026-06-29 15:54