世界模型==VQA?机器人不用想象画面,预测语义就够了

[复制链接]
周大 发表于 2025-10-28 15:14:27 | 显示全部楼层 |阅读模式
华盛顿大学与索尼 AI 提出语义世界模型(SWM),摒弃传统世界模型对像素级未来画面的预测,转而通过视觉语言模型回答关于未来状态的自然语言问题。基于 PaliGemma 架构,SWM 在 LangTable 和 OGBench 上实验显示,结合采样或梯度规划方法,任务成功率分别从14.4%、45.33%提升至81.6%和76%,多步任务平均改进达52.0%。模型可在次优数据上训练,并展现出对新对象组合与背景变化的良好泛化能力,为机器人决策提供了灵活、可扩展的新范式。
来源:https://mp.weixin.qq.com/s/1x6QtUoacGM92Wd5CxRI5A

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 06:19 , Processed in 0.285041 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表