2025 年,国产 GPU 行业迎来了一个不仅关乎生存,更关乎胜负的「大年」。
在国际博弈与 AI 大模型爆发的双重夹击下,国内企业达成了前所未有的共识,若不拥有自主 GPU 算力,就无法在通往未来的牌桌上保住席位。过去两年,国内模型玩家们一边在全球范围内「屯粮」,一边悄悄投遍了国内所有的 GPU 厂商,每个人都在等待那个能真正承载中国 AI 野心的玩家出现,希望国产芯片能在性能上与国际巨头正面一搏。
不过,今天这一切或许有了新的变化。12月20日,摩尔线程在北京中关村国际创新中心举办了首届 MUSA 开发者大会(MDC 2025)。会上,摩尔线程创始人、董事长兼 CEO 张建中在主题演讲中介绍了其最新 GPU 架构「花港」,算力密度提升 50%,效能提升 10 倍。落在具体芯片上,摩尔线程基于该架构推出高性能 AI 训推一体「华山」芯片与专攻高性能图形渲染的「庐山」芯片。
据介绍,在性能上,华山的访存容量甚至超越了英伟达 Blackwell,访存带宽与之并肩齐驱。尽管在绝对浮点算力和互联带宽上仍处于追赶 Blackwell 的状态,但它已多方位超越了长期作为行业标杆产品。这种「紧咬旗舰」的态势,标志着国产 GPU 已经完成了从「能用」到「顶级好用」的跨代跃迁。
华山性能示意图 | 图片来源:极客公园
而专注于高性能图形渲染的庐山,相较于上一代的 S80,能够为 3A 游戏性能带来 15 倍的提升,具体而言,在 AI 性能上有 64 倍的提升,在光线追踪性能上有 50 倍提升。
作为目前少数敢于和英伟达公开掰手腕的国产 GPU 厂商之一,摩尔线程在此次发布会中所推出的产品,更具象体现其「全功能 GPU」的定位,从具身智能到生命科学,再到量子计算,摩尔线程和生态伙伴们的合作正逐步展开。
熬过了漫长的静默期,摩尔线程终于以「国产 GPU 第一股」的姿态站到聚光灯下。此刻,它必须面对市场的集中叩问如何立足市场?未来征途又将去往何处?尤为关键的是,在数款硬件落地之后,其业务体系究竟如何布局?在芯片荒与算力焦虑交织的当下,摩尔线程这种全方面布局方式究竟能否在激烈竞争中挖到真正的「算力黄金」?通过这场大会释放出的多方信号,我们得以窥见这家公司重塑计算效率边界的野心与路径。
一、1个架构,2款硬件,3款芯片
「算力就是国力。我们希望能够从芯片到集群以『加速计算』的能力,利用全功能 GPU 打造国之重器。」在摩尔线程创始人张建中讲述自己讲如何打造一条从微观芯片架构到宏观智算集群的自主突围之路。
与英伟达构筑的 CUDA 护城河逻辑相似,摩尔线程深知单一硬件无法定义未来,因此打造了一个纵深极广的生态系统MUSA,底层集成了 AI 计算、3D 图形渲染、高性能计算与智能视频编解码的全功能 GPU ,以全数据单元的兼容性将算力触角延伸至科学计算、数字孪生、具身智能、量子计算乃至 6G 通信与生物医药等前沿领域。
在全功能GPU之上,是硬件系统,摩尔线程的智算集群叫作夸娥。夸娥智算集群实现了从微型系统到十万卡规模的弹性扩展;MUSA 软件栈则通过完备的加速库、调试工具及应用实例,为开发者提供了从底层基础软件到 AI 训推系统框架的闭环支持,甚至通过复杂的管理套件,攻克了超大规模系统运维的难题。
架构迭代升级的确定性,是国产芯片对抗外部不确定性的定海神针。在历经苏堤、春晓、曲院、平湖四代量产演进的积淀后,摩尔线程计划于明年正式量产第五代架构「花港」。
摩尔线程通过底层指令集升级来换取性能空间优化,花港在同等工艺条件下实现了 50% 的算力密度增长与 10 倍的能效提升。摩尔线程还专门针对大模型趋势优化了 FP4、FP6、FP8 等低精度计算单元,并支持十万卡以上集群的扩展。
花港架构 | 图片来源:摩尔线程
基于此架构的 AI 芯片「华山」,更是引入了新一代异步编程模型,通过 TCE-PAIR 技术实现 Tensor 核心间的数据共享,让本需两次调用的数据一次完成,解决了计算单元因任务分配不均而「空转」的顽疾,在硬件底层优化了算子的实际吞吐效率。
此外,摩尔线程技术溢出不仅影响到数据中心,同样在图形与边缘侧市场引发了质变。承袭花港架构底层优势的专业图形显卡「庐山」,相比前代 S80,其游戏性能提升 15 倍,AI 原生算力激增 64 倍,几何处理能力提升 16 倍,并支持 50 倍性能的光线追踪硬件加速。通过统一任务引擎管理框架,「庐山」确保了多核并行效率的最大化,使其足以胜任 CAD 与 CAE 等高精度的工业辅助设计任务。
庐山 芯片 | 图片来源:摩尔线程
在连接云端与端侧的战略上,新一代 AI SoC 长江内部融合了 CPU、GPU、NPU、VPU、DPU、DSP 及 ISP 等多元异构引擎,让端侧设备极高的灵活性。目前,长江能够在一个高效率、低功耗的单芯片系统内,同时处理复杂的逻辑指令与超高清视频编解码,覆盖了从机器人到智能终端几乎所有的技术诉求。
长江智能 SoC 芯片 | 图片来源:摩尔线程
为了加速生态下沉,摩尔线程还推出了售价 9999 元起的算力本 MTT AIBOOK 与个人工作站 AICube,试图将「云端算力」升级为「开箱即用」的个人生产力。
据介绍,MTT AIBOOK 是首部真正意义上的「算力本」,它搭载了长江SoC,将大模型训推能力直接封装进便携设备。摩尔线程认为,通过内置的 MT AIOS,开发者可以在 Linux 原生环境下自由切换 Windows 虚拟机与安卓系统,实现从模型训练、推理调试到多端应用部署的周期闭环。
MTT AIBOOK | 图片来源:摩尔线程
针对个人开发者面临的环境配置痛点,AIBOOK 还提供了预装方案,不仅支持 Docker 与深度神经网络库,还集成了 VS Code、Python 及 PyTorch、vLLM 等主流框架,配合 1TB SSD 与最高 64G 高速存储,让「一人一 Agent」的设想成为可能。用户可以利用其开放系统开发专属智能体,甚至让 Agent 接管系统操作,真正实现 AI 原生的工作流。
如果说 AIBOOK 算是流动的节点,那么 AICube 则是一个静默而强大的算力中枢。作为一个目前处于原型机阶段的小型工作站,AICube 利用强大的算力化身为家庭或办公室的「数据中枢」,通过人工智能交互对碎片化信息进行智能化管理。无论是咨询旅行照片、检索家庭短片还是规划行程,其内置数字人都能充当「家庭大脑」提供即时服务。
算力竞赛的终局,最终都会回归生态渗透率的较量。为了打破 CUDA 生态的惯性迁移壁垒,摩尔线程正在开发的 MUSACode 大模型已实现 93% 的自动化编译率,并正在自研通过自然语言直接生成代码的 Text to MUSA 技术,试图大幅降低迁移门槛。此外,GPU 虚拟化技术的迭代实现了热迁移与热插拔功能,这种高可靠性特性极大增强了国产算力在云端部署中的商业竞争力。
从华山到庐山再到长江,从数据中心到个人桌面,这种多方位布局体现了摩尔线程试图通过架构创新与软件深度重构,在现有制程框架下大幅提高计算效率。
二、打造万卡 AI 超级工厂
前几年,万卡集群曾被视为难以逾越的巅峰,但随着千亿级乃至万亿级参数大模型的涌现,如何构建一个真正属于国产化的超算底座,成了行业共同的追索。在这个过程中,摩尔线程并不满足于只做芯片的供应商,而是希望打造一座智能的「AI 工厂」。
在大规模集群中,如何让数以万计的 GPU 像一个大脑一样协同工作,其中最大的难题之一在于 Scale-up(垂直扩展)的效率。
为了打破互联的围墙,摩尔线程的「华山」芯片不仅拥有高速的 MTLink 4.0 技术,还主动拥抱多元化的以太网协议,将国内合作伙伴的各种协议内置在芯片里,这也让华山芯片的兼容性能无缝适配广阔硬件生态,让国产算力能够通过跨厂商的交换机实现自由扩展。目前,华山的超节点 Scale-up 能力已提升至 1024 卡,这意味着超千颗 GPU 能在一个节点内实现极致的带宽互通,为十万卡级别的超大规模集群打开了物理想象力。
然而,当算力规模走向十万卡级别,稳定性就成了集群运转的生死线。摩尔线程通过RAS 2.0 技术,采用 ECC 与 SRAM 校验机制,芯片能在问题发生的一瞬间自动检测、上报并精准隔离故障单元。这种设计确保了在成千上万芯片构成的星阵中,局部的微小问题不会引发系统性的崩溃,让开发者和管理者能够实时掌控集群的健康状态,确保了整个智算中心的安全性与业务连续性。
从 2024 年的千卡试水,到 2025 年万卡集群的落地,再到未来十万卡级的蓝图,摩尔线程的夸娥智算集群正在重塑国产算力的上限。这座坐落于北京的万卡工厂,不仅拥有惊人的 10 EFLOPS 浮点算力,更在模型算力利用率和有效训练时长上给出不错的成果。目前,它通过深度软硬件协同,让 MFU 稳定在 60% 以上,真正解决了大模型训练中「出工不出力」的难题。
很显然,在摩尔线程的愿景里,国产超算不应只是硬件堆砌。为此,他们推出了MTT C256 超节点解决方案,让 256 颗 GPU 在亿级拓扑互联下实现互通。同时,为了降低开发门槛,他们打造了从自研 MT Transformer 推理引擎到全面兼容 vLLM、Llama.cpp 等开源生态的软件矩阵。
MTT C256 超节点解决方案| 图片来源:摩尔线程
从华山芯片到夸娥集群,再到那些让代码迁移变得轻而易举的 MUSACode 工具,摩尔线程正在做的是试图在这个由制程瓶颈与技术壁垒构成的迷宫中,开辟出一条通往「算力自由」的中国路径,让国产智算中心真正成为能支撑起万物智能的基座。
三、成为下一个「英伟达」?
当摩尔线程将其完整的产品图谱悉数铺开时,你会惊觉这家公司在静默的时光里已然走过了极为深远的征途。从苏堤、春晓、曲院、平湖,再到计划量产的「花港」架构,这种一年一代的迭代速率,勾勒出一条国产算力向上攀升的曲线。从底层的芯片逻辑看,摩尔线程始终紧扣「全功能、全精度、全产品业务」三大支柱。
在展会现场,这种「全」的意图被展现得淋漓尽致:从云端智算中心到边缘计算节点,再到 横跨 B、C 两端的桌面终端,这种纵贯产业链上下游的布局,几乎覆盖了计算生态的每一个神经末梢。
在推理生态上,摩尔线程与硅基流动的深度合作,展示了其基础库在开发者手中的实战潜力。据介绍,在 Prefill 阶段,单卡每秒可处理 4000 tokens,decode 阶段亦能达到单卡每秒 1000 tokens。
不仅如此,摩尔线程在生命科学领域利用 MUSA 平台开发出 Sponge 和 DSDP,试图在自己的生态里生长出原生的应用场景。在前沿的 AI For 6G 赛道,摩尔线程与中关村联合合作,利用 S5000 的算力,让 6G 通信的算法优化与网络部署,加速通信与算力融合。
摩尔线程还打造的数字人「小麦」,开放了核心能力,支持开发者在 AIBOOK 上原生开发 2D 数字人应用。摩尔线程甚至提供了云边结合的数字人制作工具,让 AI 生成的数字人能应用于服务与交互场景。
展会上引人注目的亮点之一,莫过于那台被摆在各个站台演示位核心、甚至已成为摩尔线程公司内部主力办公设备之一的 MTT AIBOOK。通过后台参数性能监控可以发现,即便是在播放高码率视频或执行多任务切换时,其底层的全功能 GPU 波动依然保持平稳。这说明 AIBOOK 并非一个点到为止的「参考设计」,而是一款完成度较高、意图切入真实市场的硬件产品。与之相伴的还有针对个人数据中心打造的AICube,这些消费级终端的「小试牛刀」,背后折射出摩尔线程下沉算力入口的野心。
摩尔线程打造的 MTT AIBOOK和 MTT AICube| 图片来源:极客公园
然而,全能的另一面往往是业务重心的取舍难题。9999 元的定价背后,也是芯片厂商跨界生态位的巨大风险。这种看似「战线过长」的布局,其实隐藏着国产 GPU 厂商在现有国际霸权生态下的集体无奈。
在国际厂商生态已然坚不可摧、开发者习惯早已固化的今天,国产玩家想要突围,仅仅提供一颗芯片是不够的。现有的成熟平台就像是精密运转的钟表,所有外部齿轮都围绕其转动;而作为后来者的摩尔线程,必须亲自搭建起适配平台、开发库、解决方案甚至是硬件终端。这是一种「为了卖出芯片,必须先修好整条路」的战略自觉,只有将通路的工作做在前面,才能最大化地释放出国产化芯片的性能优势,为自己争取到进入核心赛道的门票。
这一切,最终凝结为摩尔线程前瞻且全面的业务体系。展会中,我们听到不少人将其称为「中国的英伟达」。诚然,从其展示的蓝图中,我们确实能看到一颗不甘追随、志在引领的雄心。然而,真正的破局者从不满足于成为另一个谁。在技术封锁与生态挑战并存的当下,我们期待摩尔线程这套「以全破坚」的方略,不仅能开辟生存之路,更能走出一条定义自身、通往算力自主的开拓之路。








