AI推理性能大提升:华为UCM技术开源,系统吞吐猛增22倍

[复制链接]
周大 发表于 3 天前 | 显示全部楼层 |阅读模式
华为于11月5日宣布开源AI推理加速技术UCM,该技术通过KV Cache多级缓存与推理框架、算力、存储的协同优化,显著提升长序列推理效率。其架构支持稀疏注意力、前缀缓存等核心功能,可实现首Token时延降低最高90%、系统吞吐提升22倍,并扩展上下文窗口达10倍。相关代码与工具链已开放,供开发者在ModelEngine社区获取。
来源:https://tech.ifeng.com/c/8o2Mlagk4zX

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 06:09 , Processed in 0.281869 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表