LaViDa:首个高速可控视觉-语言扩散模型,多模态理解性能超越自回归模型

[复制链接]
周大 发表于 2025-5-30 14:28:10 | 显示全部楼层 |阅读模式
LaViDa是一款基于扩散模型的视觉-语言模型,具备高速且可控的特点,适用于视觉和文本联合处理任务。相比自回归模型,其非因果式注意力掩码和双向上下文建模能力显著提升了生成性能。实验显示,LaViDa在视觉理解、推理及OCR任务中表现突出,特别是在文本填空任务中达到100%约束满足率。此外,模型可通过调节离散化步数实现速度与质量的灵活权衡,为多模态任务提供了新思路。
来源:https://mp.weixin.qq.com/s/mMjqvEbkszECENtMzLXJlQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 00:39 , Processed in 0.263587 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表