RAG、Search Agent不香了?苹果DeepMMSearch-R1杀入多模态搜索新战场

[复制链接]
周大 发表于 2025-10-17 14:04:18 | 显示全部楼层 |阅读模式
苹果提出 DeepMMSearch-R1,一种支持多轮文本与图像搜索的多模态大模型,通过自我反思与两阶段训练(SFT + GRPO 强化学习)优化查询效率。其引入 Grounding DINO 实现图像区域裁剪,显著提升检索精度。基于新构建的 1 万样本 DeepMMSearchVQA 数据集,模型在 DynVQA 和 OKVQA 上工具调用率分别为 87.7% 和 43.5%,展现自适应能力。实验表明,该模型相较 RAG 和 search agent 提升达 +21.13% 和 +8.89%,性能媲美 OpenAI o3,同时保持通用 VQA 能力稳定。
来源:https://mp.weixin.qq.com/s/Eq2VaPuqL10cojzEoDklZw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 12:32 , Processed in 0.275821 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表