英伟达联合多机构推Fast-dLLM，实现扩散大语言模型推理速度27.6倍突破

周大发表于 2025-5-30 14:47:11

NVIDIA联合多家机构推出Fast-dLLM，通过分块KV缓存与置信度感知并行解码，实现扩散模型推理效率的大幅提升。在LLaDA模型上，该技术将长文本生成速度提高27.6倍，精度损失小于2%，展现出卓越的性能与通用性。作为无需训练的即插即用方案，Fast-dLLM为扩散模型的实际应用提供了重要支持。
来源：https://mp.weixin.qq.com/s/uR7Bk6YpPGyR8cgN5u2oBw

		自动登录	找回密码
密码			立即注册

课程导航

英伟达联合多机构推Fast-dLLM，实现扩散大语言模型推理速度27.6倍突破