当您在聊天机器人竞技场中输入提示时,两个匿名模型会给出他们的响应。投票后,实验会告诉您投票给哪个模型。您还可以尝试对不同模型进行并排比较,并查看排行榜上是否有投票最多的模型。
这个名为大型模型系统组织(LMSYS)的研究小组创建了众包实验,作为对最近激增的许多LLM进行有效基准测试的一种方式。“对LLM助手进行基准测试极具挑战性,因为问题可能是开放式的,并且很难编写一个程序来自动评估响应质量,”LMSYS博客文章宣布Chatbot Arena说。到目前为止,已经投了40万多张选票。