多模态长文本理解测评首发:46款模型无一攻克128K难关

[复制链接]
周大 发表于 2025-5-23 15:23:28 | 显示全部楼层 |阅读模式
研究者联合推出MMLongBench,一个全面评估多模态模型长文本理解能力的基准测试。该数据集包含5类任务、16个数据集和13,331个样本,支持8K至128K输入长度。通过对46个领先模型(如Gemini-2.5-Pro、GPT-4o)测试发现,OCR能力和跨模态检索成为主要瓶颈,模型在长上下文任务中仍有较大提升空间。该数据集及代码已开源。
来源:https://mp.weixin.qq.com/s/eOUvlVVMu_XPKbFa3IX_Nw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 12:15 , Processed in 0.279451 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表