追求概率质量的帕累托最优:基于广义α-β散度引导的知识蒸馏框架ABKD

[复制链接]
周大 发表于 昨天 13:40 | 显示全部楼层 |阅读模式
一项新研究针对知识蒸馏技术中的核心问题——分布匹配方式的选择,提出了一种基于 α-β 散度的通用框架 ABKD。研究发现,传统方法 FKLD 和 RKLD 的局限性源于对「难度集中」和「置信集中」两种效应的极端利用,分别导致输出平滑性和过度自信的问题。ABKD 通过灵活调节超参数 α 和 β,在两者之间实现平衡,从而优化概率分配。实验结果表明,ABKD 在自然语言和视觉任务中均表现出色,不仅优于 FKLD 和其他先进方法,还能作为插件工具提升现有模型性能。这一研究成果为知识蒸馏技术提供了更通用高效的解决方案。
来源:https://mp.weixin.qq.com/s/UwRwDJJxWrS-9mVoHSUPDQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-10 13:11 , Processed in 0.313807 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表