TD-MPC: Temporal Difference learning for Model Predictive Control

一些推荐材料：

slides

Model-based RL虽然比model-free的采样效率高，但是规划 long horizon时需要的时间花销很大，并且很难获取一个准确的环境模型，论文就是想通过结合model-free 和model-based RL的优势解决以上问题，具体而言，算法用model-based RL学习用于局部轨迹优化的模型，用model-free RL学习预测长期回报（用于全局优化）的价值函数。

TD-MPC

TD-MPC: Temporal Difference learning for Model Predictive Control

results matching ""

No results matching ""