华为AI推理大招开源，时延降90%，吞吐提22倍，上下文10倍级扩展

周大发表于 3 天前

华为于11月5日开源UCM推理记忆数据管理技术，该技术通过KV Cache分级缓存与存算分离架构，可使首Token时延最高降低90%、系统吞吐提升22倍，并支持10倍级上下文扩展。UCM具备稀疏注意力、前缀缓存等四大能力，适配HBM、DRAM、SSD多级存储，降低对高成本显存依赖。作为面向企业用户的AI推理加速套件，其开源有望缓解大模型长序列推理中的资源瓶颈，促进行业高效推理方案落地。
来源：https://tech.ifeng.com/c/8o2SfaTCMKR

		自动登录	找回密码
密码			立即注册

课程导航

华为AI推理大招开源，时延降90%，吞吐提22倍，上下文10倍级扩展