港大与上海AI Lab推出VLN-R1框架,实现机器人连续视觉语言导航,2B模型性能超越7B

[复制链接]
周大 发表于 前天 15:08 | 显示全部楼层 |阅读模式
VLN-R1是由港大与上海AI Lab研发的视觉语言导航模型,首次实现基于第一人称视角的连续导航控制,无需依赖离散地图即可完成复杂环境中的避障与目标定位。该模型在VLN-CE基准测试中表现优异,使用仅20亿参数的Qwen2-VL通过强化微调(RFT)便超越70亿参数模型的性能,并在长距离跨域任务中展现高效数据利用能力。其核心创新包括两阶段训练机制、时间衰减奖励(TDR)、GRPO算法及VLN-Ego数据集构建,显著提升了小模型的实际应用潜力,为家庭机器人等资源受限场景提供了新路径。
来源:https://mp.weixin.qq.com/s/XhcnUxYUXi2jvX51u3zpsw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-27 12:15 , Processed in 0.263320 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表