RL新思路！复旦用游戏增强VLM通用推理，性能匹敌几何数据

周大发表于 2025-10-21 14:33:10

复旦大学NLP实验室提出Game-RL框架，结合新方法Code2Logic，基于游戏代码自动生成多模态推理数据，构建含30个游戏、14万问答对的GameQA数据集。实验表明，该方法在仅用5K样本训练下，使4个开源VLM在7个域外基准上平均提升2.33%，性能媲美传统几何推理数据集，且随数据量和游戏种类增加持续增益，验证了游戏数据在提升VLM通用推理与跨领域泛化方面的有效性。
来源：https://mp.weixin.qq.com/s/q1o_xsFVPEHuavW2Yxlinw

		自动登录	找回密码
密码			立即注册

课程导航

RL新思路！复旦用游戏增强VLM通用推理，性能匹敌几何数据