ETT创新端到端视觉tokenizer调优,突破多模态学习视觉瓶颈,显著提升理解与生成性能

[复制链接]
周大 发表于 2025-5-27 15:14:02 | 显示全部楼层 |阅读模式
针对传统视觉 tokenization 方法的局限性,北京智源研究院、中科院自动化所和大连理工大学联合提出 ETT 方法,通过端到端调优显著提升多模态任务性能。ETT 在 GQA、TextVQA 等多模态理解任务及文本到图像生成任务中表现出色,同时优化了视觉重构能力。尽管数据规模和模型容量仍有提升空间,但 ETT 为多模态学习提供了新思路,未来将探索更全面的视觉 tokenizer 训练方法及跨模态扩展。
针对传统视觉 tokenization 方法的局限性,北京智源研究院、中科院自动化所和大连理工大学联合提出 ETT 方法,通过端到端调优显著提升多模态任务性能。ETT 在 GQA、TextVQA 等多模态理解任务及文本到图像生成任务中表现出色,同时优化了视觉重构能力。尽管数据规模和模型容量仍有提升空间,但 ETT 为多模态学习提供了新思路,未来将探索更全面的视觉 tokenizer 训练方法及跨模态扩展。
来源:https://mp.weixin.qq.com/s/Ef-m3z6B9x1SAmLtIjsBdg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 06:47 , Processed in 0.294933 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表