上海交大EPIC Lab提出dLLM-Cache,实现扩散语言模型最高九倍推理加速且免训练

[复制链接]
周大 发表于 2025-5-27 15:59:18 | 显示全部楼层 |阅读模式
上海交通大学EPIC Lab团队开发了dLLM-Cache,一种无需训练的高效推理缓存机制,专为加速扩散式大语言模型(dLLMs)设计。该方法通过复用稳定特征和更新剧烈变化特征,实现最高9.1倍的推理加速,同时保持生成质量无损。研究发现prompt特征长期稳定,response特征仅少量变化剧烈,为缓存策略提供了理论支持。实验表明,dLLM-Cache在LLaDA和Dream等模型上显著提升推理速度,并使dLLMs在准确率领先的情况下,推理速度首次超越自回归模型(ARMs)。
来源:https://mp.weixin.qq.com/s/MMVBTI6OHE2wUKLcTNAfmQ

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-9 07:19 , Processed in 0.289174 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表