这篇论文是来自ETH Zurich等机构的研究人员撰写的 “Reasoning Language Models: A Blueprint”,核心是提出一个用于构建、分析和实验推理语言模型(RLMs)的综合蓝图,旨在降低RLMs设计和实验的门槛,推动该领域的发展。
- RLMs的发展与挑战:RLMs结合了大语言模型(LLMs)和先进推理机制,在多领域有变革性突破,但存在成本高、专利性质以及架构复杂等问题,导致获取和扩展困难。其技术基础不透明,组件间的协同机制也尚未明确。
- RLMs的本质:由LLMs、强化学习(RL)和高性能计算(HPC)共同发展而来,具备系统2思维能力。与标准LLMs的插值能力不同,RLMs能够进行外推,突破训练数据的限制。根据推理方式可分为隐式和显式RLMs,前者推理结构嵌入模型权重,后者引入外部显式推理机制。
- RLMs的架构与核心概念:整体架构包含推理、训练和数据生成三大管道。推理过程由用户输入触发,构建推理结构,在策略和价值模型等的辅助下逐步探索解决方案;训练过程涉及多种模型,使用监督数据和无监督自学习数据进行训练;数据生成管道独立于用户请求运行,生成的数据用于重新训练模型。
- RLMs蓝图:提供了一个构建RLMs的模块化框架,涵盖推理方案(包括推理步骤、结构和策略)、多种操作符、模型(如价值模型和策略模型)及其训练范式、训练数据范围(如结果监督和过程监督)以及各类管道。该蓝图具有通用性,能容纳多种现有和新型的RLM设计。
- 现有方案分析:通过将典型的显式RLMs、隐式RLMs以及结构化提示方案(如CoT、ToT和GoT)纳入蓝图进行分析,展示了蓝图的表达能力,表明不同类型的模型和方法都能在该蓝图框架下进行统一的描述和理解。
- x1框架:作为蓝图的一个实例,采用树状推理结构和MCTS推理策略,通过一系列操作符实现推理树的构建、遍历、评估和更新。对策略模型和价值模型的训练方式进行了详细说明,并通过实验分析了令牌概率分布,为推理策略设计提供了参考。同时,探讨了x1框架在云环境中的部署和扩展问题。
- 有效RLMs的示例见解与基准测试:提出过程评估比基于结果的奖励模型更可靠;采用两阶段训练策略(SFT和RL分离)有助于提高模型性能;在熟悉的数据分布上训练能提升模型表现;单纯依靠提示让LLMs进行自我评估和改进效果不佳。还介绍了多种RLMs相关的基准测试,涵盖数学、逻辑、编码、因果、常识推理以及推理工具等多个领域。