在宣布匿名Chatbot Arena之后,我们发布了一个更新的排行榜,其中包含我们上周收集的更多模型和新数据。我们正在积极迭代竞技场和排行榜分数的设计。
在本次更新中,我们在竞技场中添加了 4 个新的但强大的玩家,包括三个专有模型和一个开源模型。他们是:
- OpenAI GPT-4
- OpenAI GPT-3.5-turbo
- 人择克劳德-v1
- RWKV-4-Raven-14B
表 1 显示了所有 13 个模型的 Elo 评级,这些评级基于本笔记本共享的 13K 投票数据和计算。您还可以尝试投票演示并查看有关排行榜的更多信息。
表 1. LLM 的 Elo 评级(时间范围:2023 年 4 月 24 日至 5 月 8 日)
秩 | 模型 | Elo等级 | 描述 | 执照 |
---|---|---|---|---|
1个 | 🥇 GPT-4 | 1274 | OpenAI 的 ChatGPT-4 | 所有权 |
2个 | 🥈克劳德-v1 | 1224 | Anthropic的克劳德 | 所有权 |
3个 | 🥉 GPT-3.5-turbo | 1155 | OpenAI 的 ChatGPT-3.5 | 所有权 |
4个 | Vicuna-13B | 1083 | LLaMA 对 LMSYS 的用户共享对话进行微调的聊天助手 | 可用重量;非商业用途 |
5个 | 考拉13B | 1022 | BAIR 的学术研究对话模型 | 可用重量;非商业用途 |
6个 | RWKV-4-Raven-14B | 989 | 具有变压器级 LLM 性能的 RNN | 阿帕奇 2.0 |
7 | Oasst-Pythia-12B | 928 | LAION 人人可用的开放助手 | 阿帕奇 2.0 |
8个 | 聊天GLM-6B | 918 | 清华大学开放式双语对话语言模型 | 可用重量;非商业用途 |
9 | StableLM-Tuned-Alpha-7B | 906 | 稳定性 AI 语言模型 | CC-BY-NC-SA-4.0 |
10 | 羊驼13B | 904 | LLaMA 在斯坦福的指令遵循演示中微调的模型 | 可用重量;非商业用途 |
11 | 快聊-T5-3B | 902 | LMSYS 从 FLAN-T5 微调的聊天助手 | 阿帕奇 2.0 |
12 | 多莉-V2-12B | 863 | Databricks 的指令调优开放大型语言模型 | 麻省理工学院 |
13 | LLaMA-13B | 826 | Meta 开放高效的基础语言模型 | 可用重量;非商业用途 |
如果您想查看更多模型,请帮助我们添加它们或通过授予我们 API 访问权限与我们联系。
概述
感谢社区的帮助,我们收集了 13k 匿名投票。查看从这次排行榜更新中收集的排名和数据,我们有一些有趣的发现。
专有模型与开源模型之间的差距
我们确实观察到三种专有模型与所有其他开源模型之间存在巨大差距。特别是,GPT-4 在董事会中处于领先地位,获得了 1274 的 Elo 分数。它比该董事会上最好的开源替代品——我们的 Vicuna-13B 高出近 200 分。在打平后,GPT-4 在对抗 Vicuna-13B 时赢得了 82% 的比赛,在对抗上一代 GPT-3.5-turbo 时甚至赢得了 79% 的比赛。
但是,需要注意的是,排行榜上的这些开源模型通常比专有模型具有更少的参数,在 3B – 14B 范围内。事实上,最近在 LLM 和数据管理方面的进步已经允许使用更小的模型显着提高性能。 谷歌最新的 PaLM 2就是一个很好的例子:我们知道 PaLM 2 使用更小的模型尺寸实现了比上一代更好的性能,我们对开源语言模型赶超的潜力仍然非常乐观。通过我们基于 FastChat 的 Chatbot Arena和这个排行榜的努力,我们希望为评估 LLM 贡献一个值得信赖的评估平台,并帮助推进这一领域并为每个人创建更好的语言模型。
比较专有模型
然而,在三个专有模型中,根据我们收集的投票结果,我们确实观察到 Anthropic 的 Claude 模型比 GPT-3.5-turbo 更受我们用户的青睐,GPT-3.5-turbo 经常被讨论为它的对手。事实上,即使在与最强大的模型——OpenAI 的 GPT-4 竞争时,克劳德也具有很强的竞争力。查看胜率图(下图 3),在 GPT-4 和克劳德之间的 66 场非平局比赛中,克劳德确实在 32 场(48%)比赛中战胜了 GPT-4。人类团队干得好!
比较开源聊天机器人
在此更新中,由于社区贡献,我们将 RWKV-4-Raven-14B 模型添加到竞技场中。与所有其他模型不同,RWKV 模型是一个 RNN 而不是基于 transformer 的模型;但它的表现出奇的好!它很快在排行榜上呈上升趋势,并在整体排行榜上排名第 6。它在与除 Vicuna 之外的所有其他开源模型的非平局比赛中获胜超过 50%。欢迎您查看其存储库,以了解更多有关内存节省和快速推理等其他功能的信息。感谢 RWKV 开发人员。
Elo分数的波动
现有模型的Elo分数可能会根据新游戏的结果上下波动。这类似于国际象棋选手的 Elo 分数随时间变化的方式(参见此处)。自从三大专属模式强者的加入,聊天机器人竞技场的竞争空前激烈!因此,我们观察到所有开源模型的 Elo 分数都有所下降。这是因为开源模型在对抗专有模型时会失去很多成对匹配。
详细结果
GPT-4 什么时候失效?
我们举了一些用户不喜欢 GPT-4 的例子。
图 1:Claude 优于 GPT-4 的一个示例。
在图 1 中,用户提出了一个需要仔细推理和规划的棘手问题。尽管 Claude 和 GPT-4 都提供了相似的答案,但由于针位于顶部,Claude 的反应稍微好一些。然而,我们观察到由于抽样的随机性,这个例子的结果不能总是被复制。有时 GPT-4 也可以给出与 Claude 相同的命令,但在这一代试验中失败了。此外,我们注意到 GPT-4 的行为在使用 OpenAI API 与 ChatGPT 界面时略有不同,这可能是由于不同的提示、采样参数或其他未知因素造成的。
图 2:一个用户认为 Claude 和 GPT-4 都错了的例子。
在图 2 中,尽管 Claude 和 GPT-4 具有惊人的能力,但它们仍在努力解决这种棘手的推理问题。
除了这些棘手的案例,还有很多不需要复杂推理或知识的简单问题。在这种情况下,像 Vicuna 这样的开源模型的性能可以与 GPT-4 相媲美,因此我们可以使用稍微弱一点(但更小或更便宜)的 LLM 来代替更强大的 GPT-4。
获胜分数矩阵
我们在图 3 中展示了所有模型对的获胜分数。
图 3:模型 A 在所有非平局 A 与 B 战斗中获胜的比例。
特定语言排行榜
最后,我们通过将对话数据根据语言分为两个子集,展示了两个特定语言排行榜:(1) 纯英语和 (2) 非英语。从图 4 中,我们可以看出 Koala 在非英语语言方面更差,而 ChatGLM-6B 在非英语语言方面更好。这是因为他们的训练数据的组成不同。
图 4:仅英语和非英语排行榜。
更多数据、分析和计算可在本笔记本中找到。
下一步
帮助我们添加更多模型
自 Chatbot Arena 推出以来,我们发现社区的兴趣越来越大。许多模型开发人员都渴望将他们的聊天机器人放入竞技场,看看它们与其他人的表现如何。请按照本指南帮助我们添加更多模型。
自带自托管聊天机器人 (BYOC)
我们还计划开放一些 API,以允许参赛者注册他们的自托管聊天机器人并参加竞技场。
Area-specific Arena
与语言-specific Arena 类似,我们将把单一的、整体的排行榜扩展到更多的领域,并发布更多功能特定的排行榜,例如写作、编码和推理。您希望在哪个特定领域或能力上评估 LLM?请在Discord或Twitter上给我们反馈。