DeepSeek Coder 由一系列代码语言模型组成,每个模型都在 2T 令牌上从头开始训练,其中 87% 是英文和中文的代码,13% 是自然语言。我们提供各种尺寸的代码模型,范围从1B到33B版本。每个模型都通过使用 16K 的窗口大小和额外的填空任务在项目级代码语料库上进行预训练,以支持项目级代码补全和填充。在编码能力方面,DeepSeek Coder 在多种编程语言和各种基准测试的开源代码模型中实现了最先进的性能。
-
海量训练数据:在2T token上从头开始训练,包括87%的代码和13%的英文和中文语言数据。
-
高度灵活和可扩展:提供 1B、5.7B、6.7B 和 33B 型号尺寸,使用户能够选择最适合其要求的设置。
-
卓越的模型性能:在 HumanEval、MultiPL-E、MBPP、DS-1000 和 APPS 基准测试中公开可用的代码模型中具有最先进的性能。
-
高级代码补全能力:16K窗口大小和填空任务,支持项目级代码补全和填空任务。
我们在各种与编码相关的基准测试中评估 DeepSeek Coder。此处仅报告 HumanEval(Python 和多语言)、MBPP 和 DS-1000 的 pass@1 结果:
结果表明,DeepSeek-Coder-Base-33B 的性能显着优于现有的开源代码 LLM。与CodeLlama-34B相比,在HumanEval Python、HumanEval Multilingual、MBPP和DS-1000上分别领先7.9%、9.3%、10.8%和5.9%。令人惊讶的是,我们的 DeepSeek-Coder-Base-7B 达到了 CodeLlama-34B 的性能。指令调整后的 DeepSeek-Coder-Instruct-33B 模型在 HumanEval 上的表现优于 GPT35-turbo,并在 MBPP 上达到与 GPT35-turbo 相当的结果。
项目链接
https://github.com/deepseek-ai/DeepSeek-Coder