Reward Shift

alt text

alt text

一个有用的结论是,给Value-based RL Algo设计Reward的话,在online任务中用负的,offline任务中用正的。

results matching ""

    No results matching ""