UltraInteract

alt text

这篇论文是2024年3月发表的,是基于UltraFeedback的改进,UltraFeedback是2023年12月发表的。尽管是一篇技术报告,但是里面有很多细节值得学习。

ULTRAINTERACT数据集包含了86K条指令和220K对动作对,每对包含一个指令、一个正确响应和一个错误响应。这些数据采用偏好树的形式组织,每个指令作为根节点,每个动作作为节点,构成了一个多层次的树状结构。这种设计不仅包含了多样化的规划策略和多轮与环境及批评模型的交互轨迹,还有助于偏好学习的实施。通过这种结构,ULTRAINTERACT能够为模型提供丰富的、结构化的学习材料,特别是在处理需要复杂规划和多步骤推理的任务时。

ULTRAINTERACT数据集的一个关键特点是其对多轮交互轨迹的收集。这些轨迹记录了模型在与环境及批评模型交互过程中的行为,包括模型采取的动作、环境的反馈以及批评模型的建议。这种设计不仅有助于模型学习如何从反馈中改进,还能通过多轮的交互来细化和优化解决方案。此外,通过配对正确和错误的动作,ULTRAINTERACT进一步支持了偏好学习的实施。这种基于偏好树的结构,使得模型能够在每一轮交互中学习到更加精确和具体的偏好信息,从而在复杂的推理任务中表现更佳。

alt text

results matching ""

    No results matching ""