这篇论文是DeepSeek-AI关于大语言模型推理能力提升的研究成果,主要介绍了DeepSeek-R1-Zero和DeepSeek-R1模型,通过强化学习提升模型推理能力,并探索了模型蒸馏,为该领域研究提供了重要参考 。
- 研究背景:大语言模型(LLMs)发展迅速,后训练成为提升模型性能的重要环节。OpenAI的o1系列模型通过增加思维链推理长度提高了推理能力,但有效测试时缩放仍是研究难题。此前方法未达到o1系列模型的推理性能,该研究旨在用纯强化学习(RL)提升语言模型推理能力。
- 研究方法
- DeepSeek-R1-Zero:直接对基础模型应用RL,不依赖监督微调(SFT)。采用分组相对策...