Introduction
从大一开始,我写博文已经有3年了,从一开始的在csdn、博客园、github.io个人主页再到后来自己购置了服务器,搭建了自己的博客网站,在这个过程中也慢慢掌握了一些写作上的心得和经验。
这个博客的主要用途是强化学习的经典论文阅读笔记和教程,以及一些自己的学习心得和技术分享。希望能够通过这个博客记录自己的学习历程,也希望能够帮助到一些有需要的人。
本博客假设读者有一定的强化学习基础,了解强化学习的基本概念和算法。如果对强化学习还不太了先解,建议学习一些强化学习的基础知识。推荐的基础材料如下:
2024.9.21 读论文心得:TakeAway Message is the most important thing in reading papers.
2024.10.4 读论文心得:借助AI论文阅读助手进行速读,可以提高阅读效率,比如我推荐的是腾讯的元宝
Paper List
(1) Baseline
DQN, Double DQN,Duel DQN,RainboW,DDPG,TD3,SAC,TRPO,PPO
(2) 细分方向
基于偏好的强化学习:TREX,DREX,InstructGPT
多智能体强化学习:QMIX,QPLEX
元强化学习:MAML,PEARL
基于表征的强化学习: Diversity is all you need
模仿学习:
- DAgger,GAIL,IQ-Learn
(model-free)离线强化学习:CQL,BCQ,IQL,AWAC,XQL,DT
基于模型的强化学习:
- a.Online:Dreamer系列,MBPO
- b. Offline:MOPO,COMBO,RAMBO-RL
- c.Planning:TD-MPC系列,TT,Diffuser
博文撰写心得
写博文并不是一件简单的事情,尤其是当你要把一个理念清楚有力地传达给接收方时。我个人一直认为:写作和做Presentation,都是一个科研人员的能力的体现。如何从一个很简单的motivation或者思想出发,循序渐进地将一篇论文的方法娓娓道来,并辅以一些比较独特的个人见解(High-Level Idea),这是一件非常有挑战性的事情。所以,我将从以下几个方面来谈谈我在博文撰写过程中的一些心得,这也是本网站的博文所遵循的写作框架:
从想要解决的问题或者motivation出发,引出论文的主要方法和思想,这是一篇博文的开篇,也是最重要的部分。如果你能够很好地引出论文的主要方法和思想,那么你的博文就成功了一半。
讲完motivation之后,先将算法的整体框架展示出来,这样读者就能够对整个算法有一个大致的了解,然后再逐步展开细节。这个过程可以稍微增加一些代码片段,然后简单的呈现实验效果。
最后是补充一些理论定理,重点不在证明这些定理,而是宏观地理解这些定理在整个算法中的作用,定理部分不应该是简单的将论文拷贝粘贴,而是要有自己的理解和见解。
总结全文,提出一些自己的见解,这个部分是最能体现个人思想的部分,也是最能体现个人水平的部分。