RL新思路!复旦用游戏增强VLM通用推理,性能匹敌几何数据

[复制链接]
周大 发表于 2025-10-21 14:33:10 | 显示全部楼层 |阅读模式
复旦大学NLP实验室提出Game-RL框架,结合新方法Code2Logic,基于游戏代码自动生成多模态推理数据,构建含30个游戏、14万问答对的GameQA数据集。实验表明,该方法在仅用5K样本训练下,使4个开源VLM在7个域外基准上平均提升2.33%,性能媲美传统几何推理数据集,且随数据量和游戏种类增加持续增益,验证了游戏数据在提升VLM通用推理与跨领域泛化方面的有效性。
来源:https://mp.weixin.qq.com/s/q1o_xsFVPEHuavW2Yxlinw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 12:24 , Processed in 0.281807 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表