为MoE解绑:全新「专家即服务」推理架构发布,超细粒度扩展锐减37.5%成本

[复制链接]
周大 发表于 2025-10-13 15:13:27 | 显示全部楼层 |阅读模式
EaaS是一种新型MoE模型推理系统,通过将专家层解耦为无状态服务,实现细粒度弹性伸缩、动态负载均衡与高容错性。实验表明,其吞吐随GPU数线性增长,支持任意规模部署,相较传统架构最高可节省37.5%算力;在故障场景下吞吐仅降不足2%,且通信延迟最多降低49.6%,兼顾高吞吐与低延迟,适用于云端MaaS应用。
来源:https://mp.weixin.qq.com/s/7uQSGe6htpQnv881Ayb2YQ

搜索|Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-11-9 15:22 , Processed in 0.276714 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表