Google DeepMind推出DataRater框架,利用元学习技术自动评估和筛选高质量训练数据,显著提升模型训练效率。实验表明,DataRater在低质量数据集(如Pile和C4/noclean)上表现出色,最多可减少46.6%的浮点运算量,并提高模型最终性能。该工具通过元梯度优化,能够跨不同模型规模(从5000万到10亿参数)进行泛化,同时有效识别低质量数据(如文本编码错误、OCR错误等)。DataRater的最佳数据丢弃比例因数据集质量而异,例如C4建议丢弃10%,Pile则需丢弃75%。元训练成本约为单个10亿参数LLM训练的58.4%,但其筛选后的数据集可分摊更大规模模型的训练成本。
来源:https://mp.weixin.qq.com/s/lMsivtY3aBiDq3eknSVZug