中科院提出大模型参数迁移新方法LaTen，跨规模模型知识传递仍存挑战

周大发表于 2025-6-3 14:00:32

中国科学院自动化研究所的研究团队针对参数知识迁移（PKT）展开全面分析，探讨了跨规模大模型间的知识传递问题。研究发现，不同规模的大模型在表现相似度和参数结构相似度上均较低，导致 PKT 面临巨大挑战。为此，团队提出了一种新的 Pre-Align PKT 范式——定位后对齐（LaTen），通过神经元归因分析和超网络实现参数对齐。然而，实验结果显示，无论是 Post-Align PKT 还是 Pre-Align PKT，均受限于训练稳定性和性能提升不足的问题。进一步分析表明，神经不兼容性（如低表示相似性和低参数结构相似性）是跨规模 PKT 失败的关键原因。展望未来，研究者期望探索更高效、直接的迁移方法，以突破语言作为知识传递的有损压缩限制。
来源：https://mp.weixin.qq.com/s/Y569fOj-STQu5Oq-pilvdg

		自动登录	找回密码
密码			立即注册

课程导航

中科院提出大模型参数迁移新方法LaTen，跨规模模型知识传递仍存挑战