上海AI Lab提出的Reasoning as Meta-Learning(RaML)框架,为理解大语言模型(LLM)的推理机制提供了全新视角。RaML将推理过程类比为“梯度下降”,揭示了推理轨迹与参数优化之间的紧密联系。研究发现,随着推理轨迹的生成,模型对正确答案的置信度逐步提升,且推理任务被分为内循环和外循环两层优化结构。实验表明,增加推理轨迹长度、引入“反思”令牌以及合理设计训练策略,均可显著提升模型性能。此外,基于元学习的泛化性研究显示,数学推理训练可迁移至其他推理任务。团队还提出通过摘要长推理轨迹来降低计算开销的方法,为未来优化大模型效率提供了方向。这一框架不仅解释了LLM的工作原理,还为未来发展提供了重要启示。
来源:https://mp.weixin.qq.com/s/siLzumwywCZEj9yA-TCn9g