中科院提出大模型参数迁移新方法LaTen,跨规模模型知识传递仍存挑战

[复制链接]
周大 发表于 5 天前 | 显示全部楼层 |阅读模式
中国科学院自动化研究所的研究团队针对参数知识迁移(PKT)展开全面分析,探讨了跨规模大模型间的知识传递问题。研究发现,不同规模的大模型在表现相似度和参数结构相似度上均较低,导致 PKT 面临巨大挑战。为此,团队提出了一种新的 Pre-Align PKT 范式——定位后对齐(LaTen),通过神经元归因分析和超网络实现参数对齐。然而,实验结果显示,无论是 Post-Align PKT 还是 Pre-Align PKT,均受限于训练稳定性和性能提升不足的问题。进一步分析表明,神经不兼容性(如低表示相似性和低参数结构相似性)是跨规模 PKT 失败的关键原因。展望未来,研究者期望探索更高效、直接的迁移方法,以突破语言作为知识传递的有损压缩限制。
来源:https://mp.weixin.qq.com/s/Y569fOj-STQu5Oq-pilvdg

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 19:05 , Processed in 0.284838 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表