随着 Gpt-4 的发布,该公司还开源了 OpenAI Evals 以帮助改进 LLM。用户将能够报告缺点,这将有助于推动进一步改进。
OpenAI前两天公布了最新的语言模型,成为目前网络上最热门的话题。然而,该公司不仅发布了GPT-4,还开源了其软件框架 OpenAI Evals。此举将加快解决某些基准和评估后可能发现的问题。
该公司使用 Evals 来指导其 LLM 的开发,以识别缺陷并防止倒退。现在它是一个开源软件框架,用户可以应用它来跟踪跨模型版本和产品集成的性能。例如,该博客文章称,Stripe 使用它来补充他们的人工评估,以衡量其基于 GPT 的文档工具的准确性。
OpenAI Evals 将有助于进一步改进
“因为代码都是开源的,Evals 支持编写新类来实现自定义评估逻辑。然而,根据我们自己的经验,许多基准测试都遵循少数“模板”之一,因此我们还包括了最常用的模板在内部很有用(包括“模型分级评估”的模板——我们发现 GPT-4 出人意料地能够检查自己的工作)。通常,构建新评估的最有效方法是实例化其中一个模板以及提供数据。我们很高兴看到其他人可以使用这些模板和更普遍的 Evals 构建什么,”帖子说。
该公司还邀请大家使用 OpenAI Evals 来测试其模型。这对双方都有利,因为 OpenAI 将改进其产品,而开发人员和其他客户将通过更好的功能获得更好的体验。
不幸的是,OpenAI 不会向贡献者支付任何费用。但是,该公司计划向那些贡献“高质量”基准的人授予 GPT-4 访问权限。如果您想为 OpenAI Evals 做出贡献,请查看官方 GitHub 页面。
ChatGPT 最近的名声和成功可能会塑造未来。微软已经在 OpenAI 上投入了大量资金,其他科技巨头也在努力保持竞争力。谷歌可能会在今年的I/O 活动上推出 Bard 。此外,据报道,苹果上个月向其员工介绍说,工程师们一直在研究大型语言模型和其他人工智能工具。
另一方面,OpenAI Evals 可能会帮助公司更快地解决问题,并在 AI 竞赛中比其他公司更具优势。