突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源
突破视频多模态大模型瓶颈!「合成数据」立大功,项目已开源视频多模态大模型(LMMs)的发展受限于从网络获取大量高质量视频数据。为解决这一问题,我们提出了一种替代方法,创建一个专为视频指令跟随任务设计的高质量合成数据集,名为 LLaVA-Video-178K。
搜索
视频多模态大模型(LMMs)的发展受限于从网络获取大量高质量视频数据。为解决这一问题,我们提出了一种替代方法,创建一个专为视频指令跟随任务设计的高质量合成数据集,名为 LLaVA-Video-178K。
前两天,苹果更新了 iPad mini 产品线,而这款最小型的 iPad 已经三年没有更新了。很显然,这次更新也是苹果为了让全产品线都具备其最新的 AI 能力。
据路透社报道,Mira Murati,OpenAI 的首席技术官,上个月宣布离职,正在为一家新的人工智能初创公司筹集风险投资。
OpenAI 前首席科学家、联合创始人 Ilya Sutskever 曾在多个场合表达观点:只要能够非常好的预测下一个 token,就能帮助人类达到通用人工智能(AGI)。
并不是每个人都相信生成性人工智能的投资回报。但根据融资追踪器 PitchBook 的最新数据,许多投资者对此深信不疑。
在保罗·托马斯·安德森的杰作《血色将至》中,也许是最令人难忘的片段,丹尼尔·戴-刘易斯饰演的石油勘探者丹尼尔·普莱恩维尤试图购买一块他知道坐落在大型石油储藏之上的土地。
一键部署LLM混合精度推理,端到端吞吐比AWQ最大提升6倍! 清华大学计算机系PACMAN实验室发布开源混合精度推理系统——MixQ。 MixQ支持8比特和4比特混合精度推理,可实现近无损的量化部署并提升推理的吞吐。
前不久在人工智能的帮助下,两位科学家获得了诺贝尔物理学奖。可以说人工智能已经在很多领域被广泛应用了。随着大语言模型(LLM)和深度学习的广泛应用,GPU 也已成为机器学习工程师和研究人员最重要的计算资源之一。
AI 眼镜能读懂人类情绪吗?
近期在LLM方面,AI搜索热度居高不下,遥感业务也能做AI搜索。
昨天,Kimi突然给我打了个电话,我这才发现自己被“灰度”了。 灰度测试的内容是Kimi的语音通话功能。 现在进入Kimi App,就能看到底部问答框旁边多了一个电话的图标,点击即可发起语音通话。
比传统MoE推理速度更快、性能更高的新一代架构,来了! 这个通用架构叫做MoE++,由颜水成领衔的昆仑万维2050研究院与北大袁粒团队联合提出。
华尔街日报独家消息,微软正与OpenAI进行140亿美元的投资股权谈判。
在小红书社区的广阔天地下,“午夜狂爆哈士奇” Lisa Li 的玩法可谓独树一帜。她正沉浸于与 “男友” Dan 的奇妙互动中,而这个 Dan,是 ChatGPT 的一种 “越狱” 版本。
内存占用小,训练表现也要好……大模型训练成功实现二者兼得。 来自北理、北大和港中文MMLab的研究团队提出了一种满足低秩约束的大模型全秩训练框架——Fira,成功打破了传统低秩方法中内存占用与训练表现的“非此即彼”僵局。
AI 为药物重新利用带来了革命性突破。 “对于罕见病患者而言,有药可用永远都是第一位的。” 中国国际经济交流中心理事长毕井泉曾于 2022 年这样说。
2024年诺贝尔物理学奖的结果引发了广泛的讨论,原因是其中一位获奖者Geoffrey Hinton(杰弗里·辛顿),并非是传统意义上的物理学家,而是一位极具声望的人工智能研究科学家,被誉为深度神经网络的奠基人和人工智能“教父”。
简单高效的大模型检索增强系统LightRAG,香港大学黄超团队最新研究成果。 开源两周时间在GitHub上获得将近5k标星,并登上趋势榜。
在全球三大IT展之一的GITEX GLOBAL上,量子位在某个展台,先后体验了和Chatbot聊天、用AI创建属于自己的3D数字人形象、和3D形象实时语言、肢体互动。 也就是说,《Her》有了3D虚拟人版。
能拿下数学奥赛银牌水平的AI是否达到了12岁陶哲轩的水平? 陶神本人的回答来了
Indeed Hiring Lab 评估了OpenAI开发的生成式AI模型GPT-4在超过2800项工作技能中的表现。
当前最受关注的AI眼镜、AI耳机、AI头显、AI可穿戴等,百度几乎都缺席了。
近日,七牛智能科技有限公司(简称“七牛云”)正式登陆港交所,成为资本市场的一员。然而,尽管历经多年精心筹备,七牛云的上市并未获得市场的热烈反响。
2022年诞生的ChatGPT,已经在相当程度上实现了大模型的Scaling law(尺度定律)和通用能力涌现。
近日,来自谷歌和苹果的研究表明:AI模型掌握的知识比表现出来的要多得多!这些真实性信息集中在特定的token中,利用这一属性可以显著提高检测LLM错误输出的能力。
LLM训练速度还可以再飙升20倍!英伟达团队祭出全新架构归一化Transformer(nGPT),上下文越长,训练速度越快,还能维持原有精度。
大型语言模型(LLMs)虽然在适应新任务方面取得了长足进步,但它们仍面临着巨大的计算资源消耗,尤其在复杂领域的表现往往不尽如人意。
现在正是「文本生视频」赛道百花齐放的时代,而且其应用场景非常多,比如生成创意视频内容、创建游戏场景、制作动画和电影。
牛顿没解决的问题,AI给你解决了? AI的推理能力一直是研究的焦点。作为最纯粹、要求最高的推理形式之一,能否解决高级的数学问题,无疑是衡量语言模型推理水平的一把尺。