港大与上海AI Lab推出VLN-R1框架，实现机器人连续视觉语言导航，2B模型性能超越7B

周大发表于前天 15:08

VLN-R1是由港大与上海AI Lab研发的视觉语言导航模型，首次实现基于第一人称视角的连续导航控制，无需依赖离散地图即可完成复杂环境中的避障与目标定位。该模型在VLN-CE基准测试中表现优异，使用仅20亿参数的Qwen2-VL通过强化微调（RFT）便超越70亿参数模型的性能，并在长距离跨域任务中展现高效数据利用能力。其核心创新包括两阶段训练机制、时间衰减奖励（TDR）、GRPO算法及VLN-Ego数据集构建，显著提升了小模型的实际应用潜力，为家庭机器人等资源受限场景提供了新路径。
来源：https://mp.weixin.qq.com/s/XhcnUxYUXi2jvX51u3zpsw

		自动登录	找回密码
密码			立即注册

课程导航

港大与上海AI Lab推出VLN-R1框架，实现机器人连续视觉语言导航，2B模型性能超越7B