Meta等研究称GPT系列模型每个参数约能记忆3.6比特,饱和后转向泛化

[复制链接]
周大 发表于 4 天前 | 显示全部楼层 |阅读模式
一项由 Meta、DeepMind、康奈尔大学和英伟达合作的研究显示,GPT 系列模型的记忆容量约为每个参数 3.6 比特。研究通过区分“非预期记忆”与“泛化”能力,揭示了模型在达到容量上限后会停止记忆并开始泛化。团队训练了数百个 Transformer 模型,提出了关于模型容量与数据规模的 scaling law,并借助 Kolmogorov 复杂度量化记忆量。实验结果表明,模型容量与参数数量大致成正比,且精度提升对容量影响有限。
来源:https://mp.weixin.qq.com/s/DAoNui-_u0IlBjHl16wn-g

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 19:44 , Processed in 0.288067 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表