华为昇腾万卡集群四大创新:高可用容错、96%线性度、分钟级训练恢复、智能故障诊断

[复制链接]
周大 发表于 昨天 13:42 | 显示全部楼层 |阅读模式
华为团队针对AI算力集群提出了一系列全面的创新解决方案,涵盖超节点高可用、集群线性度优化、快速恢复机制、故障感知与诊断、建模仿真以及框架迁移等多个方面。通过系统层、业务层和运维层容错设计,确保算力集群24小时稳定运行;同时,借助拓扑感知协同编排技术,实现高达95%-96%的线性度。此外,针对万卡集群训练中断问题,提出多级恢复机制,将恢复时间缩短至分钟级甚至秒级。在超大规模MoE模型推理中,三级容错方案有效降低用户损失。华为还推出马尔科夫建模仿真平台,提前发现计算瓶颈并优化性能,并通过昇思MindSpore框架支持主流生态无缝迁移。这些技术创新为下一代高效、弹性、自愈的算力基础设施奠定了基础。
来源:https://mp.weixin.qq.com/s/-C7exI0y_o0V8028jcX8hA

Archiver|手机版|靠浦网络|靠浦ai课堂 ( 鄂ICP备17024134号-3 )

GMT+8, 2025-6-10 13:19 , Processed in 0.286327 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表