每个人都可以通过 OpenAI Evals 帮助改进 GPT-4

工具软件3年前 (2023)发布 AI观察员

451 0 0

点击进入：ChatGPT工具插件导航大全

随着 Gpt-4 的发布，该公司还开源了 OpenAI Evals 以帮助改进 LLM。用户将能够报告缺点，这将有助于推动进一步改进。

OpenAI前两天公布了最新的语言模型，成为目前网络上最热门的话题。然而，该公司不仅发布了GPT-4，还开源了其软件框架 OpenAI Evals。此举将加快解决某些基准和评估后可能发现的问题。

该公司使用 Evals 来指导其 LLM 的开发，以识别缺陷并防止倒退。现在它是一个开源软件框架，用户可以应用它来跟踪跨模型版本和产品集成的性能。例如，该博客文章称，Stripe 使用它来补充他们的人工评估，以衡量其基于 GPT 的文档工具的准确性。

OpenAI Evals 将有助于进一步改进

“因为代码都是开源的，Evals 支持编写新类来实现自定义评估逻辑。然而，根据我们自己的经验，许多基准测试都遵循少数“模板”之一，因此我们还包括了最常用的模板在内部很有用（包括“模型分级评估”的模板——我们发现 GPT-4 出人意料地能够检查自己的工作）。通常，构建新评估的最有效方法是实例化其中一个模板以及提供数据。我们很高兴看到其他人可以使用这些模板和更普遍的 Evals 构建什么，”帖子说。

该公司还邀请大家使用 OpenAI Evals 来测试其模型。这对双方都有利，因为 OpenAI 将改进其产品，而开发人员和其他客户将通过更好的功能获得更好的体验。

不幸的是，OpenAI 不会向贡献者支付任何费用。但是，该公司计划向那些贡献“高质量”基准的人授予 GPT-4 访问权限。如果您想为 OpenAI Evals 做出贡献，请查看官方 GitHub 页面。

ChatGPT 最近的名声和成功可能会塑造未来。微软已经在 OpenAI 上投入了大量资金，其他科技巨头也在努力保持竞争力。谷歌可能会在今年的I/O 活动上推出 Bard 。此外，据报道，苹果上个月向其员工介绍说，工程师们一直在研究大型语言模型和其他人工智能工具。

另一方面，OpenAI Evals 可能会帮助公司更快地解决问题，并在 AI 竞赛中比其他公司更具优势。