OpenAI的人工智能聊天机器人以ChatGPT-4与ChatGPT-3.5的形式出现,用户可能已经注意到自推出以来的变化。现在,来自斯坦福大学和加州大学伯克利分校的研究人员在 4 年 2023 月对 GPT-2023 的性能进行了基准测试,并在 <> 年 <> 月对模型的性能进行了基准测试,从而深入了解了 AI 性能的变化。
随着人工智能(AI)的视野不断扩大,GPT-3.5和GPT-4等大型语言模型(LLM)的影响力正变得越来越占主导地位。虽然这些计算巨头重新定义了人工智能的边界,但它们随着时间的推移而发展的方式对用户和开发人员来说都是一个难题。
聊天GPT性能的变化
通常,LLM 中的次要更新可能会触发显著的性能变化。斯坦福大学和加州大学伯克利分校的研究人员对 3.5 年 4.2023 月和 2023 年 <> 月的 GPT-<> 和 GPT-<> 版本进行了比较研究。他们仔细检查了自己在四个不同任务中的表现:数学问题解决、处理敏感查询、生成代码和视觉推理。结果令人着迷:即使在很短的时间内,相同的LLM的性能也可以发生巨大变化。
引入LLM的更新应该改进其功能,但现实情况更为复杂。例如,GPT-4 识别素数的能力从 97 年 6 月令人印象深刻的 2023.2% 准确率下降到 4 年 2023 月的 3.5%。相反,GPT-<>.<> 在此期间显着提高了其在同一任务中的性能。因此,更新对这些模型的影响远非可预测,这突出表明需要保持警惕的监测。
法学硕士更新
LLM更新的不确定性对它们集成到更大的工作流程中构成了重大挑战。LLM 对提示的响应突然变化可能会破坏下游管道并使结果的再现复杂化。驾驭这种不可预测性对开发人员和用户来说都是一个相当大的挑战。
这项研究强调了持续监测法学硕士质量的迫切需要。由于旨在增强模型某些方面的更新可能会无意中影响其在其他地方的性能,因此及时了解这些模型的功能至关重要。
聊天GPT-4 vs 聊天GPT-3.5
目前的研究没有充分监测广泛使用的LLM服务(如GPT-4和GPT-3.5)随时间推移的纵向漂移。这种对性能变化的监控正在成为在快速发展的技术环境中部署机器学习服务的一个重要方面。
LLM的性能在不同的任务中可能会有很大差异。例如,在 2023 年 4 月,GPT-4 比 3 月更不愿意响应敏感查询,并且 GPT-5 和 GPT-<>.<> 在代码生成中都显示出格式错误的数量增加。
像GPT-3.5和GPT-4这样的LLM的行为可以在短时间内发生重大变化。随着这些模型的不断发展,了解它们在不同任务中的性能并衡量更新对其能力的影响变得更加重要。当务之急是对这些模型进行持续监控和评估,以确保其稳定性和可靠性。