英伟达联合多机构推Fast-dLLM,实现扩散大语言模型推理速度27.6倍突破

[复制链接]
周大 发表于 2025-5-30 14:47:11 | 显示全部楼层 |阅读模式
NVIDIA联合多家机构推出Fast-dLLM,通过分块KV缓存与置信度感知并行解码,实现扩散模型推理效率的大幅提升。在LLaDA模型上,该技术将长文本生成速度提高27.6倍,精度损失小于2%,展现出卓越的性能与通用性。作为无需训练的即插即用方案,Fast-dLLM为扩散模型的实际应用提供了重要支持。
来源:https://mp.weixin.qq.com/s/uR7Bk6YpPGyR8cgN5u2oBw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-8 18:21 , Processed in 0.298618 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表