超越英伟达Describe Anything！中科院 & 字节联合提出「GAR」，为DeepSeek-OCR添砖加瓦

周大发表于 2025-10-28 15:21:26

中科院与字节联合提出的Grasp Any Region（GAR）模型，在区域级视觉理解任务中实现突破，具备精准描述指定区域、建模多区域关系及复杂推理能力。通过引入prompt编码与RoI-aligned特征回放机制，GAR兼顾局部细节与全局上下文，在GAR-Bench等基准测试中，GAR-8B以59.9分超越GPT-4o，逼近o3与Gemini；GAR-1B也以50.6分优于更大规模模型。其在纹理识别、多区域描述与零样本视频迁移任务中均达SOTA，并已开源，为多模态理解与信息压缩提供新路径。
来源：https://mp.weixin.qq.com/s/SqY3AKStSzhpsP1dhH_pfg

		自动登录	找回密码
密码			立即注册

课程导航

超越英伟达Describe Anything！中科院 & 字节联合提出「GAR」，为DeepSeek-OCR添砖加瓦