剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器
剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器PreFLMR模型是一个通用的预训练多模态知识检索器,可用于搭建多模态RAG应用。模型基于发表于 NeurIPS 2023 的 Fine-grained Late-interaction Multi-modal Retriever (FLMR) 并进行了模型改进和 M2KR 上的大规模预训练。
PreFLMR模型是一个通用的预训练多模态知识检索器,可用于搭建多模态RAG应用。模型基于发表于 NeurIPS 2023 的 Fine-grained Late-interaction Multi-modal Retriever (FLMR) 并进行了模型改进和 M2KR 上的大规模预训练。
最近,华中科技大学和金山的研究人员在多模态大模型 Monkey [1](Li et al., CVPR2024)工作的基础上提出 TextMonkey。在多个场景文本和文档的测试基准中,TextMonkey 处于国际领先地位,有潜力带来办公自动化、智慧教育、智慧金融等行业应用领域的技术变革。
最近,Kimi Chat 的上下文长度从 20 万汉字升级到了 200 万汉字,10 倍的差距已经足够产生一次质变,做很多之前做不了的事情。感谢月之暗面给了提前测试的机会,我们直接开测!
说到三星的超大杯影像旗舰,就不得不让人联想到另一个词——演唱会神器。
Mistral 可以说是欧洲目前最有代表性的 AI 公司,开源小模型、MoE、专注欧洲多语言市场等等,都让它与美国的几家大模型公司如 OpenAI、Anthropic 截然不同。
刚刚,Mistral AI 的模型又更新了。 这次开源一如既往地「突然」,是在一个叫做 Cerebral Valley 的黑客松活动上公布的。
「推特封了我的号,因为他们认为我是机器人,现在马斯克帮我解封了,因为我就是一个机器人。」这是有史以来第一次,「人类以外的智慧生物」在社交网络上用意念发了推:
SOTA 语音合成效果。文本到语音合成(Text to Speech,TTS)作为生成式人工智能(Generative AI 或 AIGC)的重要课题,在近年来取得了飞速发展。在大模型(LLM)时代下,语音合成技术能够扩展大模型的语音交互能力,更是受到了广泛的关注。
今年美国首个大型科技公司IPO来了:当地时间3月21日,著名社交媒体网站Reddit在纽交所敲钟上市。股票代码「RDDT」,以每股34美元出售2200万股,募资7.48亿美元。并在首日交易中一鸣惊人,盘中最高暴涨62.9%至每股55.39美元,最终以50.44美元股价高收。也使得公司市值从预估的65亿美元飙到95亿美元,完成了它强劲的IPO首秀。
AI足球教练登上Nature子刊,谷歌DeepMind与利物浦队合作三年打造:如同AlphaGo颠覆围棋一样,改变了球队制定战术的方式。