LLaVA-OneVision-1.5全流程开源,8B模型预训练只需4天、1.6万美元

[复制链接]
周大 发表于 2025-10-13 15:10:18 | 显示全部楼层 |阅读模式
LLaVA-OneVision-1.5 是一个全开放、高可复现的多模态模型框架,整合85M概念均衡预训练数据(含6500万英文与2000万中文图文对)和22M指令数据,在8B参数规模下,结合RICE-ViT细粒度视觉编码器、三阶段训练流程及离线并行打包技术(最高11× padding压缩),仅用128张A800 GPU约4天完成关键训练阶段,成本低于1.6万美元。该模型在OCR、图表理解等任务上表现优异,性能对标甚至超越Qwen2.5-VL等先进模型,凸显高质量数据与系统优化对多模态训练的重要性,并推动开源社区向真正端到端可复现迈进。
来源:https://mp.weixin.qq.com/s/t0oflHZOVU_73zzq2PCLSw

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 15:24 , Processed in 0.294247 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表