DeepSeek (深度求索)开源编程大模型DeepSeek-Coder系列

8次阅读
没有评论

共计 1087 个字符,预计需要花费 3 分钟才能阅读完成。

DeepSeek (深度求索) 开源编程大模型 DeepSeek-Coder 系列,这是一个针对 AI 编程的开放源代码模型。这些模型在 1.3B 到 33B 的参数范围内,使用从 200 亿个令牌的大规模代码语料库训练,覆盖了 87 种编程语言,并且采用了填空任务(Fill-in-the-Blank)来增强代码生成和填充能力。DeepSeek-Coder 系列模型在多个基准测试中展示了其在开源代码模型中的领先地位,甚至超越了一些封闭源模型,DeepSeek-Coder-Instruct 33B 在代码相关任务中的性能超过了 OpenAI 的 GPT-3.5 Turbo 模型。

GitHub 地址:https://github.com/deepseek-ai/DeepSeek-Coder

模型地址:https://huggingface.co/deepseek-ai

特点:

  1. 开源性 :DeepSeek-Coder 系列模型是完全开源的,允许研究和商业用途,这与许多封闭源的大型模型形成对比。
  2. 多语言支持 :模型支持 87 种编程语言,展现了对多种编程语言的深入理解。
  3. 高质量的训练数据 :模型在项目级别的代码语料库上进行了预训练,并通过组织代码库中的文件依赖关系来增强模型的上下文理解能力。
  4. 长上下文处理能力 :通过扩展上下文窗口到 16K,模型能够处理更复杂的编码任务。
  5. 指令调优 :通过使用高质量的指令数据进行微调,DeepSeek-Coder-Instruct 模型在代码相关任务中的表现超过了 GPT-3.5 Turbo。

实现方法:

  1. 数据收集 :从 GitHub 收集公共仓库,过滤低质量代码,进行依赖解析,仓库级别的去重,以及质量筛查和去污染。
  2. 训练策略 :采用下一个令牌预测(Next Token Prediction)和填空任务(Fill-in-the-Middle)作为训练目标。
  3. 模型架构 :基于 DeepSeek Large Language Model 框架,使用 SwiGLU 激活函数,Rotary Position Embedding(RoPE),以及 Grouped-Query-Attention(GQA)。
  4. 优化 :使用 AdamW 优化器,遵循 DeepSeek LLM 的批大小和学习率缩放法则,以及三阶段学习率调度策略。
  5. 环境 :在 HAI-LLM 框架下进行实验,该框架支持多种并行策略,如张量并行、数据并行和流水线并行。
  6. 长上下文适应 :通过调整 RoPE 参数,模型能够处理长达 64K 令牌的上下文,尽管在实际应用中,模型在 16K 令牌范围内表现最可靠。
  7. 指令调优 :通过使用 Alpaca Instruction 格式的高质量数据进行指令调优,提升模型在多轮对话场景中的代码生成能力。
正文完
关注公众号获取最新教程
post-qrcode
 
AI小诸葛
版权声明:本站原创文章,由 AI小诸葛 2024-01-27发表,共计1087字。
转载说明:除特殊说明外本站文章皆由原创发布,请勿转载。
评论(没有评论)
验证码