港中文联手美团开源“视觉推理通才”！图像视频10类任务一网打尽

周大发表于 4 天前

OneThinker是由香港中文大学与美团联合推出的统一多模态视觉推理模型，在31项基准测试中表现突出，覆盖图像/视频问答、定位、分割等十类任务。通过构建OneThinker-600k数据集与提出EMA-GRPO训练算法，实现了跨模态、多任务的稳定学习与知识迁移，并在多个任务中取得领先性能，如MMMU 70.6%、RefCOCO testA 93.7%，展现出强大的泛化能力。
来源：https://mp.weixin.qq.com/s/8_k-Clf9JK9RRpQQbZ6pcQ

		自动登录	找回密码
密码			立即注册

课程导航

港中文联手美团开源“视觉推理通才”！图像视频10类任务一网打尽