Day-0支持｜摩尔线程率先完成智谱GLM-5.2极速适配-快科技-科技改变生活

6月17日，摩尔线程宣布在AI训推一体全功能GPU智算卡MTT S5000上，完成对智谱新一代开源旗舰模型GLM-5.2的Day-0极速适配。此次适配延续了摩尔线程在GLM-5.1长上下文Prefill与P/D异构分离推理场景中的优化积累，并面向GLM-5.2超长上下文与复杂推理负载，进一步释放MTT S5000在长输入Prefill阶段的高吞吐优势。

摩尔线程技术团队基于高性能SGLang-MUSA推理引擎及TileLang-MUSA算子编程语言，快速完成模型结构适配、关键算子优化、框架拉起与部署验证，在MTT S5000上实现GLM-5.2的高效、高精度推理。这一成果彰显了国产全功能GPU算力基础设施对前沿SOTA模型的快速响应能力，也为软硬协同应对复杂AI推理场景提供了可复制的工程实践。

作为智谱迄今能力最强的开源模型，GLM-5.2专为长程任务（Long Horizon Task）能力而生。它支持真正可用的1M Solid超长上下文，可稳定支撑长达 8 小时的超长生命周期任务。在全球百万用户参与盲测的前端开发评估系统Code Arena上，GLM-5.2取得全球可用模型第一的表现；相比前代GLM-5.1，新模型在前端、后端及长程开发场景下的成功率均有长足提升，能够提供更实用、更具确定性的Coding能力，让复杂系统工程与深度调试更稳、更强。

为充分释放GLM-5.2的长上下文与复杂推理潜能，MTT S5000从硬件算力、软件栈到开源框架进行了全链路适配与深度优化：

▼ 支撑超长上下文：释放长输入Prefill阶段高吞吐优势

GLM-5.2的Solid 1M上下文与长程任务能力，使长Prompt编码、上下文读入与KV Cache生成成为推理链路中的关键环节。长输入请求在进入生成阶段前，需要先完成大规模Prefill计算；这一阶段高度依赖并行矩阵计算、Attention算子效率、显存容量与访存带宽。

MTT S5000凭借硬件级原生FP8加速，单卡稠密算力高达1000 TFLOPS，配备80GB大容量显存与1.6TB/s超高带宽，可在长输入Prefill阶段集中释放高吞吐优势，为百万token级上下文处理提供充足缓存空间和稳定数据吞吐。依托MUSA C++、Triton-MUSA与TileLang-MUSA等工具链，GLM-5.2相关算子结构可快速迁移并针对长序列场景持续优化，帮助降低长上下文请求的首Token等待时间（TTFT），提升AI Coding、RAG和长文档分析等场景的在线推理效率。

▼ 赋能前沿Coding与Agent能力：以算子与调度优化提升推理效率

面向GLM-5.2重点强化的编程、智能体和长程任务场景，摩尔线程基于GLM家族多代模型的适配与优化经验，将模型结构适配、算子优化、框架拉起和部署验证能力快速迁移至GLM-5.2。通过原生算子定制、TileLang-MUSA编程优化和SGLang-MUSA推理框架协同，MTT S5000能够在保障模型精度的前提下提升推理吞吐、降低响应延迟，为客户提供面向AI Coding、Agent工作流和长文档分析的高效推理服务。

从GLM-4.7、GLM-5、GLM-5.1到GLM-5.2，摩尔线程已连续实现对智谱GLM家族前沿大模型的发布当日即时适配，沉淀出高效、可复用的工程底座。面向以GLM-5.2为代表的新一代长程任务模型，摩尔线程不仅提供基础适配，更通过Prefill优化与P/D异构分离方案，提供从单卡性能、多卡扩展、KV Cache传输到集群TCO（总体拥有成本）优化的端到端支撑。

未来，摩尔线程将依托MUSA软件栈强大的生态兼容性，持续第一时间适配前沿模型能力，以高性能、可规模化的国产全功能GPU基础设施，加速大模型应用创新落地。

▼ GLM-5.2 官方开源地址：

GitHub：

https://github.com/zai-org/GLM-5

Hugging Face：

https://huggingface.co/zai-org/GLM-5.2

ModelScope：

https://modelscope.cn/models/ZhipuAI/GLM-5.2

相关报道

最热文章排行查看排行详情

邮件订阅

分享到