Codex 模型是我们可以理解和生成代码的 GPT-3 模型的后代。他们的训练数据包含自然语言和来自 GitHub 的数十亿行公共代码。他们最擅长 Python,精通 JavaScript、Go、Perl、PHP、Ruby、Swift、TypeScript、SQL 甚至 Shell 等十几种语言。
入门
访问我们的 Codex 模型后,您可以在此处试用沙箱,或通过 playground 或 API试用 Codex 模型,有多种方法可以开始。
查看我们文档的介绍,以大致了解 API 的工作原理以及如何以不同方式与文本模型交互。您可能还想查看一些示例,以了解其他开发人员如何使用该 API。
许可
自 2022 年 5 月起,Codex 模型可免费试用。当我们了解使用情况时,我们将寻求提供定价以支持广泛的应用程序。在此试用期间,欢迎您使用您的应用程序,只要它符合我们的使用政策。我们欢迎在早期使用这些模型时提供任何反馈,并期待与社区互动。
主要特征
我们目前提供两种 Codex 型号:code-davinci-002 和 code-cushman-001。
Code-davinci-002 是我们功能最强大的 Codex 模型。它特别擅长将自然语言翻译成代码。除了补全代码,还支持在代码中插入补全。此外,code-davinci-002 的最大请求为 4,000 个令牌,而 code-cushman-001 的最大请求为 2,048 个令牌。
遗憾的是,我们目前不提供微调 Codex 模型的功能
训练数据
OpenAI 非常关心开发人员并致力于尊重他们的权利。我们希望 Codex 能够降低入门门槛,增加初级程序员的机会,提高专家级程序员的工作效率,并创建新的代码生成工具。
Codex 模型在数千万个公共存储库上进行了训练,这些存储库被用作 Codex 设计中用于研究目的的训练数据。我们认为这是变革性合理使用的一个例子。
code-davinci-002 模型接受了截至 2021 年 6 月的数据训练,我们的 code-cushman-001 接受了截至 2021 年 1 月的数据训练。