📄 中文摘要
训练大型语言模型通过强化学习与搜索引擎进行推理时,面临着根本的信用分配问题:现有方法如Search-R1仅在整个多步轨迹后提供稀疏的结果奖励,使得将成功或失败归因于单个推理和检索决策变得不可行。过程奖励方法如StepSearch通过引入步级监督来缓解这一问题,但依赖于与黄金文档的TF-IDF重叠等启发式奖励,并且仍然为每个示例采样k个完整轨迹,导致高梯度方差。SLATE框架基于两个互补的思想:截断步级采样生成k个共享的轨迹,以及通过过程奖励优化推理过程,从而提高模型的推理能力和稳定性。