智源研究院开源轻量级超长视频理解模型Video-XL-2,可单卡高效处理万帧视频

[复制链接]
周大 发表于 5 天前 | 显示全部楼层 |阅读模式
智源研究院联合上海交通大学发布了新一代超长视频理解模型 Video-XL-2,该模型在长视频理解任务中表现出色,于 MLVU、Video-MME 和 LVBench 等主流评测基准上超越现有轻量级开源模型,并接近甚至超越参数规模达 720 亿的大模型。Video-XL-2 支持单张显卡处理万帧级视频输入,编码 2048 帧视频仅需 12 秒,显著提升了处理效率和适用范围。通过分段式预装填和双粒度 KV 解码机制,模型实现了高效的推理性能。目前,Video-XL-2 的模型权重已全面开放,未来有望广泛应用于影视内容分析、异常行为检测等实际场景。
来源:https://mp.weixin.qq.com/s/sWtrNIaWcbbiM4FpQwXvnw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 18:20 , Processed in 0.290048 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表