新架构×1、新芯片×3、新整机×2、新集群×1:5岁的摩尔线程彻底爆发了!
  • 上方文Q
  • 2025年12月26日 10:52
  • 0

【十万卡夸娥智算集群】

新架构×1、新芯片×3、新整机×2、新集群×1:5岁的摩尔线程彻底爆发了!

接下来讲讲刚才提到过的“夸娥”万卡智算集群(KUAE 2.0),也是本次大会的一个重磅亮点。

这东西看似和普通人距离很远,但却是国家AI算力的关键基础设施,我们日常使用的大量AI服务也都是它们在幕后默默提供支持。

从千卡集群起步,做到万卡集群,摩尔线程接下来还要冲击10万卡、100万卡、1000万卡……

新架构×1、新芯片×3、新整机×2、新集群×1:5岁的摩尔线程彻底爆发了!

摩尔线程夸娥万卡集群成功攻克了万卡级硬件筛选、高速互联、系统级容错等高难度工程级难题,可支撑万亿参数大模型的训练与部署。

该集群具备全精度、全功能通用计算能力,在万卡规模下实现高效稳定的AI训练与推理。

训练算力利用率(MFU)在Dense稠密大模型上达60%,MoE专家大模型上达40%,有效训练时间占比超过90%,训练线性扩展效率达95%,训练容错系统目标ETTR达到99%,并与国内、国际主流生态高度兼容,在多项指标上具备显著能效优势。

软件方面有KUAE RAS System Daemon,可以守护万卡集群的稳定性、性能、正确性,目标是提升客户万卡训练成功率30%。

在客户系统无感情况下,它可以快速定位并替换集群故障节点、慢节点、SDC 节点,有效保障客户万卡训练稳定性、高性能、正确性。

新架构×1、新芯片×3、新整机×2、新集群×1:5岁的摩尔线程彻底爆发了!

摩尔线程联合硅基流动,实现国产GPU与软件栈的全栈优化,大幅提升了AI推理性能。

基于摩尔线程最新AI加速卡MTT S5000,运行DeepSeek R1 671B全量模型,单卡Prefill吞吐突破了4000 tokens/s,Decode吞吐也突破了1000 tokens/s,可支持高并发、低延迟的大模型服务。

新架构×1、新芯片×3、新整机×2、新集群×1:5岁的摩尔线程彻底爆发了!

摩尔线程还计划推出第一代超级节点产品MTT C256,着眼高密硬件架构。

它以一层scale-up网络,实现两台机柜256块加速卡的全互联,从而规避两层以上网络带来的带宽损失和额外延迟,大幅提高智算集群的GPU部署密度。

此外,本次MUSA开发者大会,摩尔线程还介绍了全功能GPU在生命科学计算、量子科技、6G、具身智能与仿真、物理引擎、仿真环境训练、智能驾驶物理AI仿真等各领域的应用与发展,“摩尔学院”开发者扶持项目等等,不再一一展开。


文章纠错

  • 好文点赞
  • 水文反对

此文章为快科技原创文章,快科技网站保留文章图片及文字内容版权,如需转载此文章请注明出处:快科技

观点发布 网站评论、账号管理说明
热门评论
查看全部评论
相关报道

最热文章排行查看排行详情

邮件订阅

评论0 | 点赞0| 分享0 | 收藏0