Introduction
Online RL
Offline RL
- BCQ
- TD3+BC
- CQL
- IQL
- XQL
- DT
Model-Based RL
- MBPO
- TD-MPC
Offline2Online
- PessimisticQ-Ensemble
- FamO2O
Imitation Learning
- GAIL
- AIRL
- IQ-Learn
- IRL&LM
RLHF
- BasicKnowledge
  - LoRA
  - Flash_Attention
- Datasets&Benchmarks
- DeepSpeed
- DPO
- r2Q*
- TDPO
- Prospect Theory
- CoT
- SomeNewPapers
Diffusion
- DDPM
- DDIM
- Score-Matching
- SDE
- Guided Diffusion
- Diffuser
- DiffusionQL
- SfBC
- QGPO
- SRPO
- SomeNewPapers
InContextLearning
scatteredPapers
- RewardShift
- STaR
scatteredNotes
Published with GitBook

RewardShift

Reward Shift

一个有用的结论是，给Value-based RL Algo设计Reward的话，在online任务中用负的，offline任务中用正的。

results matching ""

No results matching ""