IRL + LLM

在不少LLM的落地场景中，我们手头可以拿到一些专家数据（Expert/Near-Expert Demonstration），比如如果我们想用LLM做某一个特定场景下客服聊天机器人，公司又有一些现有的对话数据，应该如何最大化利用这样的数据来微调Basemodel？

在之前的实践中，监督微调（Supervised Fine Tuning）是在不进行额外的数据标注的情况下，几乎唯一的选择。

这篇工作从Inverse RL的角度出发，在RL的框架下来理解LLM的对齐这一问题：它的特性是什么？除了SFT以外，其他的可行解决方案是什么？各种解决方案都有哪些优缺点？