让模型“看视频写网页”,GPT-5仅得36.35分!上海AI Lab联合发布首个video2code基准

[复制链接]
周大 发表于 2025-10-19 15:22:12 | 显示全部楼层 |阅读模式
上海人工智能实验室联合浙江大学等机构推出IWR-Bench,首个以视频输入评估多模态模型交互式网页重建能力的基准。该评测涵盖113个真实网页任务、1001次交互动作,要求模型基于操作视频和匿名静态资源生成可交互代码,并通过自动化代理评分。测试显示,即便最优模型GPT-5综合得分仅36.35%,功能正确性(IFS 24.39%)远低于视觉保真度(VFS 64.25%),暴露当前模型在事件逻辑生成上的重大缺陷,且通用多模态模型表现优于专用视频模型,揭示任务的独特挑战。
来源:https://mp.weixin.qq.com/s/dtchICXf74bR6SIZhQbi2A

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 12:34 , Processed in 0.266021 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表