DeepSeek (深度求索)开源编程大模型DeepSeek-Coder系列

58次阅读

共计 1087 个字符，预计需要花费 3 分钟才能阅读完成。

DeepSeek (深度求索) 开源编程大模型 DeepSeek-Coder 系列，这是一个针对 AI 编程的开放源代码模型。这些模型在 1.3B 到 33B 的参数范围内，使用从 200 亿个令牌的大规模代码语料库训练，覆盖了 87 种编程语言，并且采用了填空任务（Fill-in-the-Blank）来增强代码生成和填充能力。DeepSeek-Coder 系列模型在多个基准测试中展示了其在开源代码模型中的领先地位，甚至超越了一些封闭源模型，DeepSeek-Coder-Instruct 33B 在代码相关任务中的性能超过了 OpenAI 的 GPT-3.5 Turbo 模型。

GitHub 地址：https://github.com/deepseek-ai/DeepSeek-Coder
模型地址：https://huggingface.co/deepseek-ai

特点：

开源性 ：DeepSeek-Coder 系列模型是完全开源的，允许研究和商业用途，这与许多封闭源的大型模型形成对比。
多语言支持 ：模型支持 87 种编程语言，展现了对多种编程语言的深入理解。
高质量的训练数据 ：模型在项目级别的代码语料库上进行了预训练，并通过组织代码库中的文件依赖关系来增强模型的上下文理解能力。
长上下文处理能力 ：通过扩展上下文窗口到 16K，模型能够处理更复杂的编码任务。
指令调优 ：通过使用高质量的指令数据进行微调，DeepSeek-Coder-Instruct 模型在代码相关任务中的表现超过了 GPT-3.5 Turbo。

实现方法：

数据收集 ：从 GitHub 收集公共仓库，过滤低质量代码，进行依赖解析，仓库级别的去重，以及质量筛查和去污染。
训练策略 ：采用下一个令牌预测（Next Token Prediction）和填空任务（Fill-in-the-Middle）作为训练目标。
模型架构 ：基于 DeepSeek Large Language Model 框架，使用 SwiGLU 激活函数，Rotary Position Embedding（RoPE），以及 Grouped-Query-Attention（GQA）。
优化：使用 AdamW 优化器，遵循 DeepSeek LLM 的批大小和学习率缩放法则，以及三阶段学习率调度策略。
环境：在 HAI-LLM 框架下进行实验，该框架支持多种并行策略，如张量并行、数据并行和流水线并行。
长上下文适应 ：通过调整 RoPE 参数，模型能够处理长达 64K 令牌的上下文，尽管在实际应用中，模型在 16K 令牌范围内表现最可靠。
指令调优 ：通过使用 Alpaca Instruction 格式的高质量数据进行指令调优，提升模型在多轮对话场景中的代码生成能力。

正文完

关注公众号获取最新教程