IRL + LLM

在不少LLM的落地场景中,我们手头可以拿到一些专家数据(Expert/Near-Expert Demonstration),比如如果我们想用LLM做某一个特定场景下客服聊天机器人,公司又有一些现有的对话数据,应该如何最大化利用这样的数据来微调Basemodel?

在之前的实践中,监督微调(Supervised Fine Tuning)是在不进行额外的数据标注的情况下,几乎唯一的选择。

这篇工作从Inverse RL的角度出发,在RL的框架下来理解LLM的对齐这一问题:它的特性是什么?除了SFT以外,其他的可行解决方案是什么?各种解决方案都有哪些优缺点?

  • preference data是必须的吗(几乎是)?它的动机和优劣是什么(得到无偏奖励函数)?
  • SFT在什么样的数据集上够用(非开放任务)?在什么样的数据集上我们需要其他对齐手段(开放任务)?

results matching ""

    No results matching ""