DeepSeek-V3技术报告


以下是DeepSeek-V3技术报告的详细内容:

项目概述

DeepSeek-V3是由杭州深度求索人工智能基础技术研究有限公司开发的一款大规模稀疏专家混合(MoE)模型,拥有高达6710亿个参数,其中每个token激活37亿个参数。它在14.8万亿token上进行了预训练,采用了先进的架构和训练方法,通过精细划分问题空间来优化处理能力。

技术特点

  • 架构创新:DeepSeek-V3采用了多头潜在注意力(MLA)架构,通过低秩联合压缩机制,减少推理过程中的Key-Value缓存需求,提高了推理效率,同时保持性能不下降。此外,它还引入了无辅助损失的负载均衡策略,采用动态调整路由偏置的方式,解决专家负载不均问题,避免因使用辅助损失而引发的性能退化。
  • 训练框架优化:DeepSeek-V3设计了一个FP8混合精度训练框架,并首次验证了在极大规模模型上进行FP8训练的可行性和有效性。通过算法、框架和硬件的协同设计,克服了跨节点MoE训练中的通信瓶颈,几乎实现了计算与通信的完全重叠,显著提升了训练效率。
  • 预训练和后训练过程:DeepSeek-V3的预训练阶段在不到两个月的时间里就完成了,花费了2664K GPU(H800 GPU)小时。预训练后,还进行了119K GPU小时的上下文长度扩展和5K GPU小时的后期训练。此外,它还引入了多Token预测(MTP)训练目标,以增强模型性能。

性能评测

  • 与开源模型对比:在多项评测中,DeepSeek-V3超越了包括Qwen-2.5-72B和Llama-3.1-405B等开源模型。例如,在MMLU pro正确率上达到75.9%,GPQA-Diamond正确率59.1%,在数学和代码领域测试表现突出,MATH 500正确率90.2%,SWE-bench正确率42.0%,Codeforces得分51.6,超越所有非o系列模型。
  • 与闭源模型对比:DeepSeek-V3在性能上与全球顶尖的闭源模型GPT-4o和Claude-3.5-Sonnet表现不分上下。尤其在逻辑推理和代码生成领域,展现出独特的优势。
  • 生成速度提升:DeepSeek-V3的生成速度达到60TPS,是前代模型的三倍。

应用场景

DeepSeek-V3在多个应用场景中表现出色,包括但不限于: - 自然语言处理:在语言理解、文本生成、知识问答等多个任务领域,DeepSeek-V3都能提供更准确、更有用的结果。 - 代码生成:在算法类代码场景(如Codeforces)和工程类代码场景(如SWE-Bench Verified)中,DeepSeek-V3都展现出了强大的能力。 - 数学计算:在数学推理和计算方面,DeepSeek-V3在各种具有挑战性的测试中取得了优异的成绩。

训练成本与效率

DeepSeek-V3的总训练成本仅为557.6万美元,相较于GPT-4o的约1亿美元显得极具经济性。其完整训练成本仅为2.788M GPU小时,在预训练阶段,每个万亿标记上训练DeepSeek-V3只需要180K H800 GPU小时。这显示了深度求索在资源利用和成本控制方面的卓越能力。

API服务与部署

DeepSeek-V3提供了API服务,其定价为输入每百万tokens 0.5元(缓存命中)/2元(缓存未命中),输出每百万tokens 8元。用户也可以选择本地部署推理,具体步骤包括安装依赖、启动服务和调用示例。