Meta等研究称GPT系列模型每个参数约能记忆3.6比特，饱和后转向泛化

周大发表于 2025-6-4 13:48:00

一项由 Meta、DeepMind、康奈尔大学和英伟达合作的研究显示，GPT 系列模型的记忆容量约为每个参数 3.6 比特。研究通过区分“非预期记忆”与“泛化”能力，揭示了模型在达到容量上限后会停止记忆并开始泛化。团队训练了数百个 Transformer 模型，提出了关于模型容量与数据规模的 scaling law，并借助 Kolmogorov 复杂度量化记忆量。实验结果表明，模型容量与参数数量大致成正比，且精度提升对容量影响有限。
来源：https://mp.weixin.qq.com/s/DAoNui-_u0IlBjHl16wn-g

		自动登录	找回密码
密码			立即注册

课程导航

Meta等研究称GPT系列模型每个参数约能记忆3.6比特，饱和后转向泛化