世界模型==VQA？机器人不用想象画面，预测语义就够了

周大发表于 2025-10-28 15:14:27

华盛顿大学与索尼 AI 提出语义世界模型（SWM），摒弃传统世界模型对像素级未来画面的预测，转而通过视觉语言模型回答关于未来状态的自然语言问题。基于 PaliGemma 架构，SWM 在 LangTable 和 OGBench 上实验显示，结合采样或梯度规划方法，任务成功率分别从14.4%、45.33%提升至81.6%和76%，多步任务平均改进达52.0%。模型可在次优数据上训练，并展现出对新对象组合与背景变化的良好泛化能力，为机器人决策提供了灵活、可扩展的新范式。
来源：https://mp.weixin.qq.com/s/1x6QtUoacGM92Wd5CxRI5A

		自动登录	找回密码
密码			立即注册

课程导航

世界模型==VQA？机器人不用想象画面，预测语义就够了