RL 将如何提高具身大模型 VLA 泛化性?清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

[复制链接]
周大 发表于 2025-10-12 15:55:08 | 显示全部楼层 |阅读模式
清华大学团队在NeurIPS 2025发表研究,系统评估强化学习(RL)对视觉-语言-动作(VLA)模型泛化能力的影响。基于OpenVLA模型,研究发现采用PPO算法的RL在分布外任务中比SFT提升42.6%性能,尤其在语义理解和执行鲁棒性方面表现更优,且通过共享网络架构、预热策略和单轮训练优化,使RL在单张A100上42小时内即可收敛,为VLA提供了高效可扩展的训练新路径。
来源:https://mp.weixin.qq.com/s/F5t-8Aou5DJrn2PVqDLQ5w

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 17:48 , Processed in 0.277444 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表