Google DeepMind推出DataRater：全自动筛选低质量数据，最高可删75%训练数据提升模型性能

周大发表于 2025-6-18 14:42:59

Google DeepMind推出DataRater框架，利用元学习技术自动评估和筛选高质量训练数据，显著提升模型训练效率。实验表明，DataRater在低质量数据集（如Pile和C4/noclean）上表现出色，最多可减少46.6%的浮点运算量，并提高模型最终性能。该工具通过元梯度优化，能够跨不同模型规模（从5000万到10亿参数）进行泛化，同时有效识别低质量数据（如文本编码错误、OCR错误等）。DataRater的最佳数据丢弃比例因数据集质量而异，例如C4建议丢弃10%，Pile则需丢弃75%。元训练成本约为单个10亿参数LLM训练的58.4%，但其筛选后的数据集可分摊更大规模模型的训练成本。
来源：https://mp.weixin.qq.com/s/lMsivtY3aBiDq3eknSVZug

		自动登录	找回密码
密码			立即注册

课程导航

Google DeepMind推出DataRater：全自动筛选低质量数据，最高可删75%训练数据提升模型性能