上海AI实验室等发布图像编辑新基准RISEBench,GPT-4o-Image仅完成28.9%任务

[复制链接]
周大 发表于 2025-5-30 14:17:06 | 显示全部楼层 |阅读模式
上海人工智能实验室联合多校发布RISEBench,一个高质量图像编辑评测基准,涵盖时间、因果、空间和逻辑推理四大类型。测试结果显示,即使是性能最强的GPT-4o-Image,也只能完成28.9%的任务,而开源模型表现更差,最强者BAGEL仅达5.8%。评测从指令理解、外观一致性和视觉合理性三方面进行,揭示了现有模型在复杂推理任务上的不足,强调认知能力是未来发展的关键瓶颈。
来源:https://mp.weixin.qq.com/s/5rrV6m6jXfFy2qtySUNKAg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 00:02 , Processed in 0.287835 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表