华为AI推理大招开源,时延降90%,吞吐提22倍,上下文10倍级扩展

[复制链接]
周大 发表于 3 天前 | 显示全部楼层 |阅读模式
华为于11月5日开源UCM推理记忆数据管理技术,该技术通过KV Cache分级缓存与存算分离架构,可使首Token时延最高降低90%、系统吞吐提升22倍,并支持10倍级上下文扩展。UCM具备稀疏注意力、前缀缓存等四大能力,适配HBM、DRAM、SSD多级存储,降低对高成本显存依赖。作为面向企业用户的AI推理加速套件,其开源有望缓解大模型长序列推理中的资源瓶颈,促进行业高效推理方案落地。
来源:https://tech.ifeng.com/c/8o2SfaTCMKR

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 06:16 , Processed in 0.282206 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表