AI仅凭“自信”学会推理，浙大校友复刻DeepSeek长思维链涌现，强化学习无需外部奖励信号

周大发表于 2025-5-29 13:53:22

UC Berkeley团队提出一种名为INTUITOR的新训练方法，通过优化大模型自身的置信度作为内在奖励信号，使其无需外部监督即可学会复杂推理。该方法在数学任务中无需标准答案即可提升性能，并在代码生成任务中表现优于传统方法GRPO。实验显示，经过INTUITOR微调的小模型展现出类似DeepSeek-R1的长思维链推理能力，且在多任务泛化方面表现出色。此外，INTUITOR有效降低了“奖励黑客”风险，通过在线学习避免了模型作弊行为。尽管当前实验受限于计算资源，但研究展示了该方法在未来大规模应用中的潜力。
来源：https://mp.weixin.qq.com/s/lCjfKhFfOdTtC6uEvhJG4w

		自动登录	找回密码
密码			立即注册

课程导航

AI仅凭“自信”学会推理，浙大校友复刻DeepSeek长思维链涌现，强化学习无需外部奖励信号