DeepSeek-V3 Technical Report-论文


这篇论文是关于DeepSeek-V3的技术报告,介绍了该混合专家(MoE)语言模型在架构、训练、评估等方面的创新与优化,展示其超越开源模型、接近闭源模型的性能优势及高效低成本的训练特点。

  1. 模型概述:DeepSeek-V3是671B参数的MoE语言模型,每个token激活37B参数。采用MLA和DeepSeekMoE架构,创新提出无辅助损失的负载均衡策略和多token预测训练目标,在14.8万亿高质量token上预训练,经监督微调(SFT)和强化学习(RL)后,性能优异且训练成本低,模型检查点开源。
  2. 模型架构:基于Transformer框架,采用MLA和DeepSeekMoE。MLA通过低秩联合压缩减少推理时的KV缓存和训练时的激活内存;DeepSeekMoE使用更细粒度专家和共享专家,并引入无辅助损失的负载均衡策略和互补的序列级辅助损失,还采用节点限制路由和无token丢弃策略。此外,设置多token预测目标,通过顺序模块预测未来多个token,提升模型性能。
  3. 基础设施:在配备2048个NVIDIA H800 GPU的集群上训练,使用HAI-LLM框架,采用16路管道并行、64路专家并行和ZeRO-1数据并行。设计DualPipe算法减少管道气泡,开发高效跨节点通信内核,优化内存占用。提出FP8混合精度训练框架,在多方面进行优化以提高训练精度和效率。在推理部署上,分离预填充和解码阶段,采用多种并行策略和负载均衡方法。
  4. 预训练:优化训练语料库,增加数学和编程样本比例,扩展多语言覆盖范围,采用文档打包方法并调整tokenizer。设置一系列超参数,采用YaRN进行上下文长度扩展,使模型能处理128K长度输入。在多基准测试中评估,结果显示DeepSeek-V3-Base超越其他开源基础模型,尤其在数学和代码任务上表现出色。
  5. 后训练:监督微调使用精心策划的1.5M实例数据集,推理数据借助DeepSeek-R1模型生成并处理,非推理数据由DeepSeek-V2.5生成并经人工验证。强化学习采用规则和模型两种奖励模型,使用组相对策略优化(GRPO)。在多种基准测试中评估指令模型,结果表明DeepSeek-V3的聊天版本性能超越开源模型,与领先闭源模型相当。
  6. 研究结论:DeepSeek-V3在架构、训练和知识蒸馏方面取得创新成果。但模型仍存在局限性,未来可在提升训练效率、探索新架构和训练方法、增强推理能力和拓展应用场景等方向开展研究。

DeepSeek-V3 Technical Report