Training Language Models to Self-Correct via Reinforcement Learning

alt text

自我纠正(Self-correction)是大语言模型 (LLM) 非常重要的能力,但人们发现这种能力在现代 LLM 中基本上很少存在。现有的训练自我纠正的方法要么需要多个模型,要么依赖于更强大的模型或其他形式的监督。

本文主要贡献在于提出了一种多轮强化学习方法 ——SCoRe,用于教 LLM 如何纠正自己的错误。相对于基础 Gemini 模型,SCoRe 在 MATH 推理问题的自我纠正方面获得了 15.6% 的增益,在 HumanEval 编码问题上获得了 9.1% 的增益。

results matching ""

    No results matching ""