Openai-o1

我个人认为OpenAI o1是大模型技术领域的一个巨大突破，除了复杂逻辑推理能力获得极大提升外，这里展开分析下它在其它方面的意义和价值所在。首先，o1给大模型带来了自我反思与错误修正能力，我觉得这点价值特别大。GPT 4这类模型，因为在输出答案的时候是逐个Token输出，当输出长度较长的时候，中间某些Token出错是一定会发生的，但即使LLM后来知道前面输出的Token错了，它也得将错就错往下继续编（这也是大模型幻觉的来源之一，为了看上去逻辑合理，LLM得用100个错误来掩盖前面的第一个错误），因为落Token无悔，没有机制让它去修正前面的错误。而o1在“思考”也就是生成Hidden COT的过程中，如果你分析过OpenAI官网给出的Hidden COT例子的话，会发现它确实能意识到之前犯错了，并能自动进行修正。这种自我错误识别与修正对于LLM能做长链条思考及解决复杂任务非常重要，相当于越过了一个锁住LLM能力的很高的门槛。

第二，所谓新型的RL的Scaling law。OpenAI自己PR可能更强调这点，各种解读也比较看中这一点。我猜测o1的RL大概率要么用了相对复杂的、类似AlphaGo的MCTS树搜索，要么用了简单树结构拓展，比如生成多个候选，从中选择最好的（Best-of-N Sampling），这种策略如果连续用，其实也是一种简单的树搜索结构。也有可能两者一起用。不论怎样，树搜索结构大概率是用了，COT是线性的不假，但这是产出结果，不代表内部思考过程就一定是线性的，我觉得靠线性思维推导过程很难解决复杂问题，树形结构几乎是不可避免的。

Openai-o1

Openai-o1

results matching ""

No results matching ""