【十万卡夸娥智算集群】
接下来讲讲刚才提到过的“夸娥”万卡智算集群(KUAE 2.0),也是本次大会的一个重磅亮点。
这东西看似和普通人距离很远,但却是国家AI算力的关键基础设施,我们日常使用的大量AI服务也都是它们在幕后默默提供支持。
从千卡集群起步,做到万卡集群,摩尔线程接下来还要冲击10万卡、100万卡、1000万卡……
摩尔线程夸娥万卡集群成功攻克了万卡级硬件筛选、高速互联、系统级容错等高难度工程级难题,可支撑万亿参数大模型的训练与部署。
该集群具备全精度、全功能通用计算能力,在万卡规模下实现高效稳定的AI训练与推理。
训练算力利用率(MFU)在Dense稠密大模型上达60%,MoE专家大模型上达40%,有效训练时间占比超过90%,训练线性扩展效率达95%,训练容错系统目标ETTR达到99%,并与国内、国际主流生态高度兼容,在多项指标上具备显著能效优势。
软件方面有KUAE RAS System Daemon,可以守护万卡集群的稳定性、性能、正确性,目标是提升客户万卡训练成功率30%。
在客户系统无感情况下,它可以快速定位并替换集群故障节点、慢节点、SDC 节点,有效保障客户万卡训练稳定性、高性能、正确性。
摩尔线程联合硅基流动,实现国产GPU与软件栈的全栈优化,大幅提升了AI推理性能。
基于摩尔线程最新AI加速卡MTT S5000,运行DeepSeek R1 671B全量模型,单卡Prefill吞吐突破了4000 tokens/s,Decode吞吐也突破了1000 tokens/s,可支持高并发、低延迟的大模型服务。
摩尔线程还计划推出第一代超级节点产品MTT C256,着眼高密硬件架构。
它以一层scale-up网络,实现两台机柜256块加速卡的全互联,从而规避两层以上网络带来的带宽损失和额外延迟,大幅提高智算集群的GPU部署密度。
此外,本次MUSA开发者大会,摩尔线程还介绍了全功能GPU在生命科学计算、量子科技、6G、具身智能与仿真、物理引擎、仿真环境训练、智能驾驶物理AI仿真等各领域的应用与发展,“摩尔学院”开发者扶持项目等等,不再一一展开。





