为MoE解绑：全新「专家即服务」推理架构发布，超细粒度扩展锐减37.5%成本

周大发表于 2025-10-13 15:13:27

EaaS是一种新型MoE模型推理系统，通过将专家层解耦为无状态服务，实现细粒度弹性伸缩、动态负载均衡与高容错性。实验表明，其吞吐随GPU数线性增长，支持任意规模部署，相较传统架构最高可节省37.5%算力；在故障场景下吞吐仅降不足2%，且通信延迟最多降低49.6%，兼顾高吞吐与低延迟，适用于云端MaaS应用。
来源：https://mp.weixin.qq.com/s/7uQSGe6htpQnv881Ayb2YQ

		自动登录	找回密码
密码			立即注册

课程导航

为MoE解绑：全新「专家即服务」推理架构发布，超细粒度扩展锐减37.5%成本