SfBC: Offline Reinforcement Learning via High-fidelity Generative Behavior Modeling

alt text

算法流程

  1. 先用Offline Data使用Diffusion Model按照BC的范式学习数据集合中的条件数据分布p(xc)p(x|c)或者说μ(as)\mu(a|s),这里x即为action,c为state。
  2. 使用某种方式学习Qϕ(s,a)Q_{\phi}(s, a),怎么学我们先不管,你可以先简单理解成用普通的贝尔曼迭代来学习Qϕ(s,a)Q_{\phi}(s, a)
  3. 通过MC Sampling来近似代理:π(as)μ(as)exp(αQϕ(s,a))\pi^*(a|s)\approx \mu(a|s) \exp(\alpha Q_{\phi}(s, a))

可以看到,我们没有使用之前的一些方法直接使用一个额外的神经网路去拟合我们的最优策略,这是因为归一化因子Intractable,所以我们使用一个加权采样的方式进行近似代替。原文片段: alt text

代码片段

1. 训练Diffusion Model

训练: θ=argminθE(s,a)Dμ,ϵ,t[σtsθ(αta+σtϵ,s,t)+ϵ]22]. \theta=\arg\min_{\theta}\quad\mathbb{E}_{({ s},a)\sim{\mathcal D}^{\mu},\epsilon,t}[\|\sigma_{t}{ s}_{\theta}(\alpha_{t}a+\sigma_{t}\epsilon,{ s},t)+\epsilon]|_{2}^{2}].

采样的时候,aTN(0,I)a_T\sim\mathcal{N}(0, I),随后使用Inverse ODE Solver进行采样,最后得到a0a_0

看点代码找找感觉

2. 训练Q网络

忽略,这块为了加速收敛比较取巧。

3. Evaluation(这部分其实已经没有什么需要训练的了,只是一个采样策略)

results matching ""

    No results matching ""