CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集
CVPR 2025|北大开源多模态驱动的定制化漫画生成框架DiffSensei,还有4.3万页漫画数据集北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei,首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架。该框架通过创新的掩码交叉注意力机制与文本兼容的角色适配器,实现了对多角色外观、表情、动作的精确控制
搜索
北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei,首个结合多模态大语言模型(MLLM)与扩散模型的定制化漫画生成框架。该框架通过创新的掩码交叉注意力机制与文本兼容的角色适配器,实现了对多角色外观、表情、动作的精确控制
据ZP独家获悉,半图科技(SemiGraph)近日完成了一轮数千万人民币的天使轮融资,全球知名投资机构IDG资本独家投资。据了解,半图科技正式成立于2024下半年,致力于通过创新的技术推动AI应用领域的变革,尤其聚焦于AI技术在游戏、内容、情感交互等领域的深度应用。此次融资的成功为公司3D动画大模型底层技术的突破提供了强有力的资金支持,并有望加速其产品和技术的市场落地。
Ilya团队再次拿到20亿美元新一轮融资,估值300亿美元。与此同时,SSI在以色列特拉维夫办公室的首支研究团队的成员曝光,阵容堪称豪华。硅谷当下投资最热门,不是某个产品,而是一个人。
藏了下一代Ray-Ban Meta的影子。
M3 Ultra终极引擎,可跑千亿模型
StyleStudio能解决风格迁移中风格过拟合、文本对齐差和图像不稳定的问题,通过跨模态AdaIN技术融合文本和风格特征、用教师模型稳定布局、引入基于风格的无分类器引导,实现精准控制风格元素,提升生成图像的质量和稳定性,无需额外训练,使用门槛更低!
张涛此前在字节跳动负责国际化产品的战略规划与落地,2023年,他加入王慧文创办的人工智能公司光年之外,担任产品负责人,主导AI产品的研发与商业化探索。2024年7月,张涛与首席科学家季逸超(Peak)、连续创业者肖弘(Red)共同创立Manus AI,并担任合伙人。他目前主要负责产品战略、市场沟通及用户体验优化。
故事从去年10月26日说起,在那天,黄叔非常喜欢的Arc浏览器被创始人Josh Miller决定战略性放弃,开始开发新的AI Agent浏览器Dia: 同一天,HideCloud和Peak刚从武汉飞回北京,落地后,HideCloud震惊的发现,打开手机刷的第一条推特就是上面这条,因为,此前的两天,他们在武汉决定了终止AI浏览器的研发工作,莫名其妙的中美两只团队在同一刻达成了共识。
仅用32B,就击败o1-mini追平671B满血版DeepSeek-R1!阿里深夜重磅发布的QwQ-32B,再次让全球开发者陷入狂欢:消费级显卡就能跑,还一下子干到推理模型天花板!
DeepSeek-R1 作为 AI 产业颠覆式创新的代表轰动了业界,特别是其训练与推理成本仅为同等性能大模型的数十分之一。多头潜在注意力网络(Multi-head Latent Attention, MLA)是其经济推理架构的核心之一,通过对键值缓存进行低秩压缩,显著降低推理成本 [1]。