新架构×1、新芯片×3、新整机×2、新集群×1：5岁的摩尔线程彻底爆发了！-快科技-科技改变生活

【十万卡夸娥智算集群】

接下来讲讲刚才提到过的“夸娥”万卡智算集群(KUAE 2.0)，也是本次大会的一个重磅亮点。

这东西看似和普通人距离很远，但却是国家AI算力的关键基础设施，我们日常使用的大量AI服务也都是它们在幕后默默提供支持。

从千卡集群起步，做到万卡集群，摩尔线程接下来还要冲击10万卡、100万卡、1000万卡……

摩尔线程夸娥万卡集群成功攻克了万卡级硬件筛选、高速互联、系统级容错等高难度工程级难题，可支撑万亿参数大模型的训练与部署。

该集群具备全精度、全功能通用计算能力，在万卡规模下实现高效稳定的AI训练与推理。

训练算力利用率（MFU）在Dense稠密大模型上达60％，MoE专家大模型上达40％，有效训练时间占比超过90％，训练线性扩展效率达95％，训练容错系统目标ETTR达到99％，并与国内、国际主流生态高度兼容，在多项指标上具备显著能效优势。

软件方面有KUAE RAS System Daemon，可以守护万卡集群的稳定性、性能、正确性，目标是提升客户万卡训练成功率30％。

在客户系统无感情况下，它可以快速定位并替换集群故障节点、慢节点、SDC 节点，有效保障客户万卡训练稳定性、高性能、正确性。

摩尔线程联合硅基流动，实现国产GPU与软件栈的全栈优化，大幅提升了AI推理性能。

基于摩尔线程最新AI加速卡MTT S5000，运行DeepSeek R1 671B全量模型，单卡Prefill吞吐突破了4000 tokens/s，Decode吞吐也突破了1000 tokens/s，可支持高并发、低延迟的大模型服务。

摩尔线程还计划推出第一代超级节点产品MTT C256，着眼高密硬件架构。

它以一层scale-up网络，实现两台机柜256块加速卡的全互联，从而规避两层以上网络带来的带宽损失和额外延迟，大幅提高智算集群的GPU部署密度。

此外，本次MUSA开发者大会，摩尔线程还介绍了全功能GPU在生命科学计算、量子科技、6G、具身智能与仿真、物理引擎、仿真环境训练、智能驾驶物理AI仿真等各领域的应用与发展，“摩尔学院”开发者扶持项目等等，不再一一展开。