AI资讯新闻榜单内容搜索-模型训练

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
搜索: 模型训练
大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘

大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘

大模型Scaling Law同样适用于下游任务性能?斯坦福、谷歌最新研究揭秘

大模型的成功很大程度上要归因于 Scaling Law 的存在,这一定律量化了模型性能与训练数据规模、模型架构等设计要素之间的关系,为模型开发、资源分配和选择合适的训练数据提供了宝贵的指导。

来自主题: AI技术研报
3451 点击    2024-02-27 14:00
Sora训练数据疑暴露,网友:绝对用了UE5

Sora训练数据疑暴露,网友:绝对用了UE5

Sora训练数据疑暴露,网友:绝对用了UE5

好消息,好消息,真·Sora视频上新了!走过路过不要错过!

来自主题: AI资讯
8357 点击    2024-02-25 15:45
补齐Transformer规划短板,田渊栋团队的Searchformer火了

补齐Transformer规划短板,田渊栋团队的Searchformer火了

补齐Transformer规划短板,田渊栋团队的Searchformer火了

最近几年,基于 Transformer 的架构在多种任务上都表现卓越,吸引了世界的瞩目。使用这类架构搭配大量数据,得到的大型语言模型(LLM)等模型可以很好地泛化用于真实世界用例。

来自主题: AI技术研报
8396 点击    2024-02-24 14:51
模型融合、混合专家、更小的LLM,几篇论文看懂2024年LLM发展方向

模型融合、混合专家、更小的LLM,几篇论文看懂2024年LLM发展方向

模型融合、混合专家、更小的LLM,几篇论文看懂2024年LLM发展方向

在过去的 2023 年中,大型语言模型(LLM)在潜力和复杂性方面都获得了飞速的发展。展望 2024 年的开源和研究进展,似乎我们即将进入一个可喜的新阶段:在不增大模型规模的前提下让模型变得更好,甚至让模型变得更小。

来自主题: AI技术研报
6299 点击    2024-02-22 15:31
爆火Sora背后的技术,一文综述扩散模型的最新发展方向

爆火Sora背后的技术,一文综述扩散模型的最新发展方向

爆火Sora背后的技术,一文综述扩散模型的最新发展方向

为了使机器具有人类的想象力,深度生成模型取得了重大进展。这些模型能创造逼真的样本,尤其是扩散模型,在多个领域表现出色。扩散模型解决了其他模型的限制,如 VAEs 的后验分布对齐问题、GANs 的不稳定性、EBMs 的计算量大和 NFs 的网络约束问题。

来自主题: AI技术研报
10798 点击    2024-02-22 15:25
金融研报数据魔改Yi-34B & DeepSeek 67B 谁更强? Deepmoney金融大模型魔改方案分享&在线实测

金融研报数据魔改Yi-34B & DeepSeek 67B 谁更强? Deepmoney金融大模型魔改方案分享&在线实测

金融研报数据魔改Yi-34B & DeepSeek 67B 谁更强? Deepmoney金融大模型魔改方案分享&在线实测

在微调大型模型的过程中,一个常用的策略是“知识蒸馏”,这意味着借助高性能模型,如GPT-4,来优化性能较低的开源模型。这种方法背后隐含的哲学理念与logos中心论相似,把GPT-4等模型视为更接近唯一的逻辑或真理的存在。

来自主题: AI资讯
9113 点击    2024-02-21 16:49