超越英伟达Describe Anything!中科院 & 字节联合提出「GAR」,为DeepSeek-OCR添砖加瓦

[复制链接]
周大 发表于 2025-10-28 15:21:26 | 显示全部楼层 |阅读模式
中科院与字节联合提出的Grasp Any Region(GAR)模型,在区域级视觉理解任务中实现突破,具备精准描述指定区域、建模多区域关系及复杂推理能力。通过引入prompt编码与RoI-aligned特征回放机制,GAR兼顾局部细节与全局上下文,在GAR-Bench等基准测试中,GAR-8B以59.9分超越GPT-4o,逼近o3与Gemini;GAR-1B也以50.6分优于更大规模模型。其在纹理识别、多区域描述与零样本视频迁移任务中均达SOTA,并已开源,为多模态理解与信息压缩提供新路径。
来源:https://mp.weixin.qq.com/s/SqY3AKStSzhpsP1dhH_pfg

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 06:21 , Processed in 0.279430 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表