AI资讯新闻榜单内容搜索-模型评测

大模型常用评测基准汇总

基于评测维度，考虑到各评测集关注的评测维度，可以将其划分为通用评测基准和具体评测基准。

来自主题: AI资讯

14699 点击 2024-07-23 19:24

全员i人？《大闹天宫》MBTI测试让全公司炸锅！最神秘国产大模型团队出手了

最近，公司全体同事都在疯狂沉迷这款《大闹天宫MBTI》测试！各种直击打工人的灵魂拷问，让所有i人和e人在职场极限场景中反复拉扯。国产黑马和上影打造的原汁原味《大闹天宫》画风，简直让人一秒穿越回童年。

来自主题: AI资讯

8356 点击 2024-07-04 16:10

国内外140+大模型、8万+考题测评结果出炉！智源评测体系出品

2024年5月17日，智源研究院举办大模型评测发布会，正式推出科学、权威、公正、开放的智源评测体系，发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。

来自主题: AI资讯

11996 点击 2024-05-17 17:25

清华SuperBench全球测评出炉，Claude 3拿下多个冠军！合成数据才是人类未来？

就在最近，清华大学SuperBench团队的新一轮全球大模型评测结果出炉了！

来自主题: AI技术研报

6874 点击 2024-05-02 17:20

大模型一对一战斗75万轮，GPT-4夺冠，Llama 3位列第五

关于Llama 3，又有测试结果新鲜出炉—— 大模型评测社区LMSYS发布了一份大模型排行榜单，Llama 3位列第五，英文单项与GPT-4并列第一。

来自主题: AI资讯

10651 点击 2024-04-23 14:20

新测试基准发布，最强开源Llama 3尴尬了

随着Claude 3、Llama 3甚至之后GPT-5等更强模型发布，业界急需一款更难、更有区分度的基准测试。

来自主题: AI资讯

4960 点击 2024-04-22 20:58

谁才是最强的？清华给海内外知名大模型做了场综合能力评测

在 2023 年的 “百模大战” 中，众多实践者推出了各类模型，这些模型有的是原创的，有的是针对开源模型进行微调的；有些是通用的，有些则是行业特定的。如何能合理地评价这些模型的能力，成为关键问题。

来自主题: AI技术研报

8576 点击 2024-04-19 11:29

能力与可信度可以兼得？GPT-4、Gemini等多模态大模型评测报告来了

2023 年我们正见证着多模态大模型的跨越式发展，多模态大语言模型（MLLM）已经在文本、代码、图像、视频等多模态内容处理方面表现出了空前的能力，成为技术新浪潮。以 Llama 2，Mixtral 为代表的大语言模型（LLM），以 GPT-4、Gemini、LLaVA 为代表的多模态大语言模型跨越式发展。

来自主题: AI资讯

10111 点击 2024-03-01 13:47

大语言模型评测是怎么被玩儿烂的？我们跟知情人聊了一个下午

上海人工智能研究室（下简称上海 AI Lab）在徐汇区云锦路上有11幢楼。这里有6000张GPU，也是这座城市在人工智能领域的中心。

来自主题: AI资讯

10644 点击 2024-01-31 16:29

谁在评价大模型？AI大模型评测榜单乱象调查

新华社研究院发布了《人工智能大模型体验报告2.0》，对国内主流大模型进行使用体验的横向测评。该榜单用500道题目评测了国内8款主流AI大模型，最终讯飞星火排名第一，百度文心一言排名第二，阿里通义千问排在倒数第二。

来自主题: AI资讯

11799 点击 2023-09-24 12:43