新研究：直接强化学习可提升多模态推理能力，SFT或阻碍模型发展

周大发表于 2025-6-1 14:20:32

一项新研究揭示，监督微调（SFT）可能诱导视觉语言模型产生“伪推理路径”，限制其真正推理能力的发展。相比之下，强化学习（RL）特别是结合混合奖励函数时，更能有效提升复杂推理能力。实验显示，纯 RL 训练的模型性能优于先经 SFT 的模型，且 SFT 对指令跟随能力有负面影响。研究团队通过自建数据集验证了这些发现，并发布多个高性能模型，为多模态推理提供了新思路。
来源：https://mp.weixin.qq.com/s/oJNtHlfz4Jwv2a-9JvqoZA

		自动登录	找回密码
密码			立即注册

课程导航

新研究：直接强化学习可提升多模态推理能力，SFT或阻碍模型发展