港中文联手美团开源“视觉推理通才”!图像视频10类任务一网打尽

[复制链接]
周大 发表于 4 天前 | 显示全部楼层 |阅读模式
OneThinker是由香港中文大学与美团联合推出的统一多模态视觉推理模型,在31项基准测试中表现突出,覆盖图像/视频问答、定位、分割等十类任务。通过构建OneThinker-600k数据集与提出EMA-GRPO训练算法,实现了跨模态、多任务的稳定学习与知识迁移,并在多个任务中取得领先性能,如MMMU 70.6%、RefCOCO testA 93.7%,展现出强大的泛化能力。
来源:https://mp.weixin.qq.com/s/8_k-Clf9JK9RRpQQbZ6pcQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-12-16 02:28 , Processed in 0.244236 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表