Google DeepMind推出DataRater:全自动筛选低质量数据,最高可删75%训练数据提升模型性能

[复制链接]
周大 发表于 前天 14:42 | 显示全部楼层 |阅读模式
Google DeepMind推出DataRater框架,利用元学习技术自动评估和筛选高质量训练数据,显著提升模型训练效率。实验表明,DataRater在低质量数据集(如Pile和C4/noclean)上表现出色,最多可减少46.6%的浮点运算量,并提高模型最终性能。该工具通过元梯度优化,能够跨不同模型规模(从5000万到10亿参数)进行泛化,同时有效识别低质量数据(如文本编码错误、OCR错误等)。DataRater的最佳数据丢弃比例因数据集质量而异,例如C4建议丢弃10%,Pile则需丢弃75%。元训练成本约为单个10亿参数LLM训练的58.4%,但其筛选后的数据集可分摊更大规模模型的训练成本。
来源:https://mp.weixin.qq.com/s/lMsivtY3aBiDq3eknSVZug

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-20 13:58 , Processed in 0.267923 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表