C-Eval是全面的中文基础模型评估套件,涵盖了52个不同学科的13948个多项选择题,分为四个难度级别,如下所示。更多详情,请访问我们的网站或查看我们的论文。
我们希望C-Eval能够帮助开发人员跟踪模型开发的进展,以及分析开发中模型的优点和弱点。
Model | STEM | Social Science | Humanities | Other | Average |
---|---|---|---|---|---|
GPT-4 | 67.1 | 77.6 | 64.5 | 67.8 | 68.7 |
ChatGPT | 52.9 | 61.8 | 50.9 | 53.6 | 54.4 |
Claude-v1.3 | 51.9 | 61.7 | 52.1 | 53.7 | 54.2 |
Claude-instant-v1.0 | 43.1 | 53.8 | 44.2 | 45.4 | 45.9 |
GLM-130B | 34.8 | 48.7 | 43.3 | 39.8 | 40.3 |
Bloomz-mt | 35.3 | 45.1 | 40.5 | 38.5 | 39.0 |
LLaMA-65B | 37.8 | 45.6 | 36.1 | 37.1 | 38.8 |
ChatGLM-6B | 30.4 | 39.6 | 37.4 | 34.5 | 34.5 |
Chinese LLaMA-13B | 31.6 | 37.2 | 33.6 | 32.8 | 33.3 |
MOSS | 28.6 | 36.8 | 31.0 | 30.3 | 31.1 |
Chinese Alpaca-13B | 26.0 | 27.2 | 27.8 | 26.4 | 26.7 |
我们选取了C-Eval中具有挑战性的数学、物理和化学科目组成C-Eval Hard,包括:高等数学、离散数学、概率统计、大学化学、大学物理、高中数学、高中物理、高中化学八个科目。这些科目包含了复杂的LaTex公式,需要非凡的推理能力才能解决。以下是5-shot准确率。
Model | Accuracy |
---|---|
GPT-4 | 54.9 |
ChatGPT | 41.4 |
Claude-v1.3 | 39.0 |
Claude-instant-v1.0 | 35.5 |
LLaMA-65B | 31.7 |
Bloomz-mt | 30.4 |
GLM-130B | 30.3 |
Chinese LLaMA-13B | 27.3 |
Chinese Alpaca-13B | 27.1 |
MOSS | 24.0 |
ChatGLM-6B | 23.1 |
因为我们不会公开发布测试数据集的标签,所以我们提供验证集的平均准确率作为参考。验证集总共有1346个问题。我们在下表中提供在所有科目上的5-shot平均准确率。Val集的平均准确率与排行榜中呈现的平均测试准确率比较接近。
Model | Average |
---|---|
GPT-4 | 69.9 |
Claude-v1.3 | 55.5 |
ChatGPT | 53.5 |
Claude-instant-v1.0 | 47.4 |
GLM-130B | 40.8 |
LLaMA-65B | 39.8 |
Bloomz-mt | 38.0 |
ChatGLM-6B | 37.1 |
Chinese-LLaMA-13B | 33.1 |
MOSS | 28.9 |
Chinese-Alpaca-13B | 27.2 |
© 版权声明
文章版权归作者所有,未经允许请勿转载。