中英双语、29项第一、像素级理解：360 FG-CLIP2登顶全球最强图文跨模态模型

周大发表于 4 天前

360发布新一代图文跨模态模型FG-CLIP 2，在29项国际基准测试中全部夺冠，英文任务平均得分81.10，显著领先于Meta CLIP 2（72.71）和Google SigLIP 2（71.87），并在中文理解上超越阿里Chinese-CLIP。该模型基于自建的FineHARD数据集，含5亿图文对、4000万目标框及1000万难负样本，结合两阶段训练与五维优化体系，实现像素级细节识别。现已开源并开放API，应用于搜索、AIGC、安防与机器人等领域，标志着中国团队在多模态基础模型上的系统性突破。
来源：https://mp.weixin.qq.com/s/3YYHOuRrLpIm9xvFMMKKkA

		自动登录	找回密码
密码			立即注册

课程导航

中英双语、29项第一、像素级理解：360 FG-CLIP2登顶全球最强图文跨模态模型