深入感知级别图像理解:UniPercept 统一图像美学、质量与结构纹理感知
深入感知级别图像理解:UniPercept 统一图像美学、质量与结构纹理感知尽管多模态大语言模型(MLLMs)在识别「图中有什么」这一语义层面上取得了巨大进步,但在理解「图像看起来怎么样」这一感知层面上仍显乏力。
尽管多模态大语言模型(MLLMs)在识别「图中有什么」这一语义层面上取得了巨大进步,但在理解「图像看起来怎么样」这一感知层面上仍显乏力。
本文为《2025 年度盘点与趋势洞察》系列内容之一,由 InfoQ 技术编辑组策划。本系列覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传统行业等方向,通过长期跟踪、与业内专家深度访谈等方式,对重点领域进行关键技术进展、核心事件和产业趋势的洞察盘点。
之前刷到个帖子,提到有部讲述中国高铁发展的纪录片,用了AI生成的画面。这部纪录片是系列节目中的一集,有争议的画面展示了一段架梁作业的过程。整个画面AI味十足,也不符合实际情况。
在多模态大模型(MLLMs)领域,思维链(CoT)一直被视为提升推理能力的核心技术。然而,面对复杂的长程、视觉中心任务,这种基于文本生成的推理方式正面临瓶颈:文本难以精确追踪视觉信息的变化。形象地说,模型不知道自己想到哪一步了,对应图像是什么状态。
两天前,DeepSeek悄无声息地把R1的论文更新了,从原来22页「膨胀」到86页。DeepSeek向世界证明:开源不仅能追平闭源,还能教闭源做事!
刚刚,全球大模型第一股,终于在港交所敲钟!被称为中国版OpenAI的智谱正式挂牌上市(股票代码2513)。不仅拿下全球首家AGI基座模型上市公司头衔,首日开盘涨超3%,报120港元/股,市值突破528亿港元。
AI 助手以类似手办的形式出现在桌面上,这样的场景你想象过吗?近日,CES 2026 展上,在琳琅满目的 AI 为核心的技术与产品中,一个「装在罐子里」的二次元少女形象的「桌面 AI 伙伴」,成为其中最具话题性的展示之一。这是由游戏外设公司 Razer (雷蛇)推出的 Project Ava,官方定位是「与您形影不离的 AI 桌面伴侣」,
CES每年都在找「下一个iPhone时刻」。2026年,答案可能不在手机,而在你家客厅。而谷歌却悄悄在最不起眼的地方——你家客厅的电视机里,埋下了一颗重磅炸弹。不需要昂贵的头显,也不需要把芯片植入大脑,谷歌直接宣布:电视机,长脑子了。
新的一年,OpenAI 决定认真入局 AI 医疗健康领域了。就在刚刚,OpenAI 重磅推出了 ChatGPT 健康(ChatGPT Health),能够把你的医疗记录、健康 App、甚至是 Apple 健康数据连接起来,然后用 AI 帮你看懂那些复杂到头大的体检报告、准备就医问题清单、甚至规划饮食运动。
硅谷正用算法重塑上帝!AI耶稣成了手机里的「贴身伴侣」。从私信神灵的赛博亲密,到付费解锁撒旦的商品化禁忌,是技术救赎,还是披着温柔外衣的数字异端?
2023年启动大模型研发以来,腾讯第一次把大语言模型变成一把手工程,负责人是个27岁的年轻人;
目前最新的消费级 GPU,还是去年在 CES 上正式发布的 RTX 50 系列。其中必然有内存全球大涨价的原因,当前市场的内存成本,一周之内就能涨价 50%-100%,并且多个分析机构表示,涨价会持续到 2027 年。
作为一位冲浪达人和市场观察的爱好者,我在 2023 年夏季的文章提出「AI 原生游戏是一场广义 UGC 的范式迁移,产品乐趣将由开发者、AI、玩家三者共创」这个判断。(参见:别尬吹 AI 降本增效了,游戏不好玩都白搭)。
近日,清华大学团队从 AI 里找到了与幻觉产生高度关联的少数“脑细胞”,并给它们起了一个名字 H-神经元(幻觉神经元)。他们发现拨动这些小开关能显著调节 AI 的行为倾向——例如影响它是否会盲目听从错误指令、甚至是否会产生有害回答。
Agent 的工具可以 “以终为始”。
当整个科技圈都在为「谷歌黑魔法」集体高潮时,真相恐给了所有人一记耳光。那套被捧上神坛的「并行验证循环」,不过是社交网络上AI生成的「赛博跳大神」。
FaithLens 模型在忠实性幻觉检测任务上,达到了当前最优效果。
今天在讲Milvus的Attu之前,我们先来唠一段计算机行业的八卦。
AI 语音模型测试第三弹。
planning-with-files是开源社区最近疯传的一个Skill,发布仅四天收获3.3k star。目前还在持续增长。
之前跟Tao博合作过很多次,从MindOS到Mebot,听说最近Second Me新版上线了,马上第一时间体验了一下,于是就有了这篇文章。Second Me 这次重点更新了 AI 社交玩法,体验是很有意思的。
一场AI界的《创造101》火了!LMArena让你盲投选出最强AI,三年从校园项目逆袭,刚刚融1.5亿美元,估值飙到17亿美元。众包投票挑战专家权威,争议四起,却已成行业标杆。你的票,就能决定下一个AI顶流!
刚开年,马斯克就到账了200亿美金!(是谁听到了金币的声音~
当大模型竞争转向后训练,继续为闲置显卡烧钱无异于「慢性自杀」。如今,按Token计费的Serverless模式,彻底终结了算力租赁的暴利时代,让算法工程师真正拥有了定义物理世界的权利。
在迟到了 40 分钟之后,老罗终于在 2025 年的最后一天,站上了科技春晚的舞台。对那些枯等了许久的现场观众,他给到的除了免票,还有一个「理由」:ADHD。
央企第一家AI独角兽,诞生了。
昨天,Claude Code 的创造者 Boris Cherny 在 X 上发了一条长推,分享了他自己使用 CC 的 13 条私藏技巧,将近 400 万的阅读量,我昨天一睁眼几乎被刷屏了。
已经2026年了,其实还是看到很多朋友,说不知道怎么能更好的跟AI对话。
过去一段时间,我们介绍了很多小白入门级的agent框架,也介绍了包括langchain在内的很多专业级agent搭建框架。
Transformer 已经改变了世界,但也并非完美,依然还是有竞争者,比如线性递归(Linear Recurrences)或状态空间模型(SSM)。这些新方法希望能够在保持模型质量的同时显著提升计算性能和效率。