打破跨模态干扰,快手东北大学联合提出统一多模态框架,横扫多模态检索基准

[复制链接]
周大 发表于 8 小时前 | 显示全部楼层 |阅读模式
快手与东北大学联合研发的多模态统一嵌入框架UNITE,通过模态感知对比学习(MAMCL)机制有效缓解了跨模态干扰问题,支持文本、图像、视频及融合模态输入。该框架采用“检索适应 + 指令微调”的两阶段训练方法,在细粒度检索、指令检索等多个任务中表现出色,特别是在CaReBench和MMEB Benchmark上刷新了最佳成绩。研究还揭示了视频-文本数据在统一模态中的核心作用,以及文本主导数据对复杂指令任务的重要性,为多模态检索技术的发展提供了新思路。
来源:https://mp.weixin.qq.com/s/OVN_2TeQKOqwq2CsTk6DFw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 23:42 , Processed in 0.272987 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表