不再靠「猜坐标」！颜水成团队等联合发布PaDT多模态大模型：实现真正的多模态表征输出

周大发表于 2025-10-16 14:53:43

针对多模态大模型在细粒度视觉任务中定位不准的问题，颜水成团队提出PaDT新范式，通过将图像patch转化为可生成的视觉令牌（VRTs），实现文本与视觉token的统一输出。该方法避免了传统坐标输出的格式混乱与语义断裂问题，并借助轻量解码器和高效训练策略，在仅3B参数下于RefCOCO指代理解任务中取得93.6准确率，超越78B模型；在COCO检测中mAP达38.2，近乎翻倍，同时在分割、描述生成等任务上全面领先，展现出强大泛化性与应用潜力。
来源：https://mp.weixin.qq.com/s/fINdv4pNTzNEaqWF4A91bw

		自动登录	找回密码
密码			立即注册

课程导航

不再靠「猜坐标」！颜水成团队等联合发布PaDT多模态大模型：实现真正的多模态表征输出