推理提速4倍！莫纳什、浙大提出动态拼接，大小模型智能协作

周大发表于 2025-10-17 14:09:23

莫纳什、北航与浙大等机构联合提出R-Stitch框架，利用熵值动态评估不确定性，实现大小语言模型在推理过程中的智能协作：小模型负责低风险环节以提速，大模型处理高熵高风险部分以保精度。实验表明，在vLLM框架下该方法可实现2–4倍加速，结合强化学习的R-Stitch⁺最高提速达14倍；与提早退出方法DEER协同后，在多个数学推理任务中延迟降低超50%，推理时间最多缩短至1/6以上，且准确率稳定甚至略有提升，显著优于传统投机解码方案。
来源：https://mp.weixin.qq.com/s/Lbz_cyZZPGFzJKXR6InZaQ

		自动登录	找回密码
密码			立即注册

课程导航

推理提速4倍！莫纳什、浙大提出动态拼接，大小模型智能协作