R-KV开源方法登场,10% KV Cache实现无损数学推理,解决大模型推理「记忆过载」难题

[复制链接]
周大 发表于 昨天 14:53 | 显示全部楼层 |阅读模式
R-KV是一种高效压缩大模型KV缓存的方法,可降低显存90%,提升吞吐量6.6倍,准确率保持100%。通过实时排序和筛选token,去除冗余并保留关键信息。相比现有方法,R-KV无需改动模型结构,灵活性强,在数学推理任务中表现突出,同时显著提升端到端吞吐量,适用于边端设备及强化学习场景。
来源:https://mp.weixin.qq.com/s/eexIc83xQ-pUyi847IE6lw

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-17 12:01 , Processed in 0.321584 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表