AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号

[复制链接]
周大 发表于 2025-5-29 13:53:22 | 显示全部楼层 |阅读模式
UC Berkeley团队提出一种名为INTUITOR的新训练方法,通过优化大模型自身的置信度作为内在奖励信号,使其无需外部监督即可学会复杂推理。该方法在数学任务中无需标准答案即可提升性能,并在代码生成任务中表现优于传统方法GRPO。实验显示,经过INTUITOR微调的小模型展现出类似DeepSeek-R1的长思维链推理能力,且在多任务泛化方面表现出色。此外,INTUITOR有效降低了“奖励黑客”风险,通过在线学习避免了模型作弊行为。尽管当前实验受限于计算资源,但研究展示了该方法在未来大规模应用中的潜力。
来源:https://mp.weixin.qq.com/s/lCjfKhFfOdTtC6uEvhJG4w

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 00:32 , Processed in 0.330504 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表