不再靠「猜坐标」!颜水成团队等联合发布PaDT多模态大模型:实现真正的多模态表征输出

[复制链接]
周大 发表于 2025-10-16 14:53:43 | 显示全部楼层 |阅读模式
针对多模态大模型在细粒度视觉任务中定位不准的问题,颜水成团队提出PaDT新范式,通过将图像patch转化为可生成的视觉令牌(VRTs),实现文本与视觉token的统一输出。该方法避免了传统坐标输出的格式混乱与语义断裂问题,并借助轻量解码器和高效训练策略,在仅3B参数下于RefCOCO指代理解任务中取得93.6准确率,超越78B模型;在COCO检测中mAP达38.2,近乎翻倍,同时在分割、描述生成等任务上全面领先,展现出强大泛化性与应用潜力。
来源:https://mp.weixin.qq.com/s/fINdv4pNTzNEaqWF4A91bw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 15:23 , Processed in 0.288415 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表