3B Image Captioning小钢炮重磅来袭，性能比肩Qwen2.5-VL-72B

周大发表于 2025-10-28 15:07:53

CapRL提出一种基于实用性的强化学习框架，通过语言模型回答视觉问题的准确率作为奖励信号，显著提升图像描述质量。CapRL-3B性能媲美Qwen2.5-VL-72B，在12项评测中全面领先，生成的CapRL-5M数据集有效推动LVLM预训练，相关模型与数据已开源。
来源：https://mp.weixin.qq.com/s/6wmG2OtuUIb64ZuL12Uz4g

		自动登录	找回密码
密码			立即注册

课程导航

3B Image Captioning小钢炮重磅来袭，性能比肩Qwen2.5-VL-72B