这篇论文是DeepSeek-AI关于大语言模型推理能力提升的研究成果,主要介绍了DeepSeek-R1-Zero和DeepSeek-R1模型,通过强化学习提升模型推理能力,并探索了模型蒸馏,为该领域研究提供了重要参考 。
- 研究背景:大语言模型(LLMs)发展迅速,后训练成为提升模型性能的重要环节。OpenAI的o1系列模型通过增加思维链推理长度提高了推理能力,但有效测试时缩放仍是研究难题。此前方法未达到o1系列模型的推理性能,该研究旨在用纯强化学习(RL)提升语言模型推理能力。
- 研究方法
- DeepSeek-R1-Zero:直接对基础模型应用RL,不依赖监督微调(SFT)。采用分组相对策略优化(GRPO)算法,基于规则的奖励模型,设计特定训练模板。训练中性能不断提升,展现出自我验证、反思等能力,还出现了 “顿悟时刻”,但存在可读性差和语言混合的问题。
- DeepSeek-R1:为解决DeepSeek-R1-Zero的问题并进一步提升性能,引入少量冷启动数据和多阶段训练。包括冷启动阶段、推理导向的RL阶段、拒绝采样和监督微调阶段以及全场景RL阶段。最终性能与OpenAI-o1-1217相当。
- 模型蒸馏:将DeepSeek-R1的推理能力蒸馏到较小的密集模型。使用Qwen和Llama系列开源模型进行微调,结果表明蒸馏能显著提升小模型推理能力。
- 实验评估:在多个基准测试中评估模型,包括知识、推理、编码等任务。对比DeepSeek-V3、Claude-Sonnet-3.5-1022等基线模型,DeepSeek-R1在多数任务上表现出色,蒸馏后的小模型也超越了部分基线模型。
- 结果讨论:蒸馏大模型到小模型效果显著,小模型通过大规模RL训练达到蒸馏效果需巨大计算资源;过程奖励模型和蒙特卡洛树搜索在实验中存在局限性,未取得理想效果。
- 研究结论:DeepSeek-R1-Zero和DeepSeek-R1通过RL提升了推理能力,DeepSeek-R1性能与OpenAI-o1-1217相当,蒸馏小模型也有出色表现。未来将在通用能力、语言混合、提示工程和软件工程任务等方面改进DeepSeek-R1。
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning