AI资讯新闻榜单内容搜索-模型训练

# 热门搜索 #

大模型

人工智能

openai

融资

chatGPT

搜索: 模型训练

破解遥感目标的形状与尺度难题，PKINet二代推理提速近4倍！

破解遥感目标的形状与尺度难题，PKINet二代推理提速近4倍！

破解遥感目标的形状与尺度难题，PKINet二代推理提速近4倍！

卫星和航空影像里的目标，不仅大小相差悬殊，还可能朝向任意方向：一边是细长的桥梁、船舶，一边是密集的小车和大面积运动场。PKINet-v2是一种改进的遥感目标检测模型，能同时处理复杂形状和尺度变化的问题。

来自主题: AI技术研报

6220 点击 2026-07-01 09:50

美团 LongCat-2.0：第一个在纯国产芯片训练的万亿参数大模型

美团 LongCat-2.0：第一个在纯国产芯片训练的万亿参数大模型

美团 LongCat-2.0：第一个在纯国产芯片训练的万亿参数大模型

如果只看标题，它很容易被归到“又一个万亿参数大模型”的队伍里：1.6 万亿总参数、MoE 架构、100 万 token 上下文、面向代码和 Agent 场景。但这次真正值得看的，不只是模型有多大，而是它背后的三个问题：国产算力能不能支撑前沿级大模型训练？

来自主题: AI资讯

9618 点击 2026-06-30 21:04

AI圈刚开始谈Loop Engineering，两位95后博士已经盯上了人类闭环数据

AI圈刚开始谈Loop Engineering，两位95后博士已经盯上了人类闭环数据

AI圈刚开始谈Loop Engineering，两位95后博士已经盯上了人类闭环数据

AI 圈最近又热了一个词：Loop Engineering。

来自主题: AI技术研报

8802 点击 2026-06-30 16:05

条条电路通罗马：大模型可解释性的「唯一机制」可能从一开始就不存在

条条电路通罗马：大模型可解释性的「唯一机制」可能从一开始就不存在

条条电路通罗马：大模型可解释性的「唯一机制」可能从一开始就不存在

长期以来，机制可解释性（mechanistic interpretability）领域有一个几乎从未被明说、却被视为理所当然的前提：模型对于同一种任务的能力或表现，背后对应着一条唯一的、或近乎唯一的内部「电路」（circuit）。该领域的研究者们之所以要做「电路发现」（circuit discovery），是为了要把这些「特定的」电路找出来。

来自主题: AI技术研报

7781 点击 2026-06-30 15:12

DeepSeek点燃大模型效率之争，阶跃火速接棒：JetSpec让大模型解码速度最高提升近10倍

DeepSeek点燃大模型效率之争，阶跃火速接棒：JetSpec让大模型解码速度最高提升近10倍

DeepSeek点燃大模型效率之争，阶跃火速接棒：JetSpec让大模型解码速度最高提升近10倍

近期，DeepSeek发布DSpark让大模型推理效率再次成为行业焦点。

来自主题: AI技术研报

9859 点击 2026-06-30 15:11

给Transformer变个形，LLM竟能变得更聪明

给Transformer变个形，LLM竟能变得更聪明

给Transformer变个形，LLM竟能变得更聪明

2026 年 6 月，大模型行业正在经历一场前所未有的「开源海啸」：英伟达放出了 550B 参数的混合架构模型，谷歌送出多模态的 Gemma 新版本，智谱用最宽松的协议全量开源了自家旗舰模型。

来自主题: AI技术研报

7714 点击 2026-06-30 10:20

AI助手不该只等人提问：清华团队两项新研究，探索理解用户与适时互动

AI助手不该只等人提问：清华团队两项新研究，探索理解用户与适时互动

AI助手不该只等人提问：清华团队两项新研究，探索理解用户与适时互动

如今，大模型越来越擅长回答问题了，但当 AI 不再只停留在聊天窗口，而是走向智能眼镜、可穿戴设备乃至家庭机器人时，问题会随之改变。用户未必有时间把需求完整说出来，也未必希望助手随时插话。更理想的助手，应该能在现场真正理解人，在用户需要的时候出现，在不合适的时候保持安静。

来自主题: AI技术研报

6146 点击 2026-06-30 09:55

百亿真实数据，首个面向AI Infra的运维智能体评测基准正式开源

百亿真实数据，首个面向AI Infra的运维智能体评测基准正式开源

百亿真实数据，首个面向AI Infra的运维智能体评测基准正式开源

随着全球智能体加速落地，算力需求呈指数级爆发，以 GPU 为核心的 AI 基础设施正变得愈发关键。据摩根士丹利报告预测，2028 年全球 AI 基础设施累计总投资将达 2.9 万亿美元。

来自主题: AI技术研报

5648 点击 2026-06-30 09:53

全球首个：隐空间世界模型，打通长时序双向物理因果链了！

全球首个：隐空间世界模型，打通长时序双向物理因果链了！

全球首个：隐空间世界模型，打通长时序双向物理因果链了！

你从桌上端起一杯水，大脑用了不到一秒，同时完成三件事：估算杯子的重量，预判水面晃动的幅度，顺便绕开了旁边那个玻璃杯。

来自主题: AI技术研报

8492 点击 2026-06-30 09:53

Nvidia都在点赞的LoopWM世界模型，竟然来自一家中国初创FaceMind？

Nvidia都在点赞的LoopWM世界模型，竟然来自一家中国初创FaceMind？

Nvidia都在点赞的LoopWM世界模型，竟然来自一家中国初创FaceMind？

在世界模型这条路上，行业一直卡在一个几乎无解的矛盾里：想要更真实的长程模拟，就必须给模型更深的计算；可一旦把模型做得更深，部署成本、参数规模和误差累积又会迅速抬头。结果就是，大家都知道世界模型要 “想得更久”，却很难让它在现实系统里 “算得起、跑得稳”。

来自主题: AI技术研报

5412 点击 2026-06-29 15:54

上一页当前第2页,共417页下一页