LLaVA-OneVision-1.5全流程开源，8B模型预训练只需4天、1.6万美元

周大发表于 2025-10-13 15:10:18

LLaVA-OneVision-1.5 是一个全开放、高可复现的多模态模型框架，整合85M概念均衡预训练数据（含6500万英文与2000万中文图文对）和22M指令数据，在8B参数规模下，结合RICE-ViT细粒度视觉编码器、三阶段训练流程及离线并行打包技术（最高11× padding压缩），仅用128张A800 GPU约4天完成关键训练阶段，成本低于1.6万美元。该模型在OCR、图表理解等任务上表现优异，性能对标甚至超越Qwen2.5-VL等先进模型，凸显高质量数据与系统优化对多模态训练的重要性，并推动开源社区向真正端到端可复现迈进。
来源：https://mp.weixin.qq.com/s/t0oflHZOVU_73zzq2PCLSw

		自动登录	找回密码
密码			立即注册

课程导航

LLaVA-OneVision-1.5全流程开源，8B模型预训练只需4天、1.6万美元