Generative Verifiers: Reward Modeling as Next-Token Prediction

概述

全新的reward model范式，看下面这个图就可以理解了：

首先是抛弃了以往的lm backbone + linear head输出scalar reward的方式，原因是这种方式没能很好的利用lm强大的自回归能力。

简单来说，我们的reward的提取来自于[YES]这个token的输出的概率，概率越高，reward越大，概率越低，reward越小。OK，简单来讲将问题建模为Next-Token Prediction的问题。

算法

那我们下面就从简单到复杂讲解一下论文的算法。

Direct Verifier

一言以蔽之，我们通过SFT训练了一个verifier，输入(x, y, I)，输出的[YES]的概率即为reward。那你可能会说我们传统阶段其实也有一个(x, y+)的SFT阶段，于是作者将两个loss进行融合：

这么做也没太多理论上的原因，实验上看起来确实在正确答案上训练更加有效：

Take away: SFT on correct solutions enhances verification performance.

CoT Verifier

results matching ""

No results matching ""