读万卷书，大模型就能「看」懂视觉世界？Meta揭秘LLM视觉先验的起源

周大发表于 2025-10-11 19:29:15

Meta与牛津团队研究表明，大语言模型在纯文本预训练中可发展出视觉先验能力。研究通过50万GPU小时实验发现，视觉能力源于“推理先验”与“感知先验”：前者由代码、数学等数据驱动，具跨模态通用性；后者来自描述性文本且易饱和。实验显示，推理数据占比达75%时视觉表现最优，而感知能力更依赖后期微调。基于此，团队提出优化的数据混合配方，在7B模型上实现语言与视觉任务的协同提升，证明可通过文本预训练提前构建多模态潜力，为构建统一智能系统提供新方向。
来源：https://mp.weixin.qq.com/s/2z8ddeqOx35MI8OZqULG3w

		自动登录	找回密码
密码			立即注册

课程导航

读万卷书，大模型就能「看」懂视觉世界？Meta揭秘LLM视觉先验的起源