让模型“看视频写网页”，GPT-5仅得36.35分！上海AI Lab联合发布首个video2code基准

周大发表于 2025-10-19 15:22:12

上海人工智能实验室联合浙江大学等机构推出IWR-Bench，首个以视频输入评估多模态模型交互式网页重建能力的基准。该评测涵盖113个真实网页任务、1001次交互动作，要求模型基于操作视频和匿名静态资源生成可交互代码，并通过自动化代理评分。测试显示，即便最优模型GPT-5综合得分仅36.35%，功能正确性（IFS 24.39%）远低于视觉保真度（VFS 64.25%），暴露当前模型在事件逻辑生成上的重大缺陷，且通用多模态模型表现优于专用视频模型，揭示任务的独特挑战。
来源：https://mp.weixin.qq.com/s/dtchICXf74bR6SIZhQbi2A

		自动登录	找回密码
密码			立即注册

课程导航

让模型“看视频写网页”，GPT-5仅得36.35分！上海AI Lab联合发布首个video2code基准