AdaCM2:首个面向超长视频理解的跨模态自适应记忆压缩框架

[复制链接]
周大 发表于 昨天 13:38 | 显示全部楼层 |阅读模式
得克萨斯大学阿灵顿分校(UTA)计算机系研究团队提出了 AdaCM2,一种专注于极长视频理解的跨模态记忆压缩框架。该研究解决了现有模型在处理分钟级或小时级视频时面临的显存瓶颈和冗余信息问题,通过引入逐帧回归式建模、跨模态注意力打分和分层压缩机制,显著优化了计算资源利用率。实验结果显示,AdaCM2 在多个标准数据集上性能优于现有方法,显存使用降低 65%,并能稳定处理超 2 小时视频。这项研究已被 CVPR 2025 接收为 Highlight 论文,应用前景覆盖智能交通、医疗分析及机器人感知等领域,标志着长视频多模态建模的重大突破。
来源:https://mp.weixin.qq.com/s/6UEwXmHa25mu7W8FIE5ZFg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-10 12:43 , Processed in 0.290029 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表