DPO: Direct Preference Optimization: Your Language Model is Secretly a Reward Model

NeurIPS 2023的论文,RLHF除了PPO外的另外一条路线。
一般的RLHF的优化目标为:
maxπθEx∼D,y∼πθ[rϕ(x,y)]−βDKL[πθ(y∣x)∥π(y∣x)],(1)
先不加证明地给出一个定理,待求解问题:
μmaxEx∼μ(x)[f(x)]+H(μ),s.t.x∑μ(x)=1
该式的最优解服从:
μ(x)=∑xef(x)ef(x)
对照一下,我们即可得到(1)的最优解:
πθ(y∣x)=∑y′πref(y′∣x)eβ1rϕ(x,y′)πref(y∣x)eβ1rϕ(x,y)=Z(x)πref(y∣x)eβ1rϕ(x,y)
反解rϕ(x,y),得到:
rϕ(x,y)=βlogπθ(y∣x)πref(y∣x)+βlogZ(x)
代入BT-model:
p∗(y1>y2∣x)=1+exp(βlogπref(y2∣x)π∗(y2∣x)−βlogπref(y1∣x)π∗(y1∣x))1
因此模型最终优化的Loss为:
L=−E(x,yw,yl)[logσ(βlogπref(yw∣x)πθ(yw∣x)−βlogπref(yl∣x)πθ(yl∣x)))]
DPO的主要理论内容如上,其他部分之后再慢慢来补充,包括DPO优化容易出现的一些问题。简单来讲,DPO原论文的理论下,你可以把整个回答看成是单个action,用单个action的reward来训练模型,求解的基本原理为拉格朗日方程或者说玻尔兹曼分布。在下一篇论文From r to Q*,我们将会从token-level reward的视角下分析DPO的理论。