6月17日,摩尔线程宣布在AI训推一体全功能GPU智算卡MTT S5000上,完成对智谱新一代开源旗舰模型GLM-5.2的Day-0极速适配。此次适配延续了摩尔线程在GLM-5.1长上下文Prefill与P/D异构分离推理场景中的优化积累,并面向GLM-5.2超长上下文与复杂推理负载,进一步释放MTT S5000在长输入Prefill阶段的高吞吐优势。
摩尔线程技术团队基于高性能SGLang-MUSA推理引擎及TileLang-MUSA算子编程语言,快速完成模型结构适配、关键算子优化、框架拉起与部署验证,在MTT S5000上实现GLM-5.2的高效、高精度推理。这一成果彰显了国产全功能GPU算力基础设施对前沿SOTA模型的快速响应能力,也为软硬协同应对复杂AI推理场景提供了可复制的工程实践。
作为智谱迄今能力最强的开源模型,GLM-5.2专为长程任务(Long Horizon Task)能力而生。它支持真正可用的1M Solid超长上下文,可稳定支撑长达 8 小时的超长生命周期任务。在全球百万用户参与盲测的前端开发评估系统Code Arena上,GLM-5.2取得全球可用模型第一的表现;相比前代GLM-5.1,新模型在前端、后端及长程开发场景下的成功率均有长足提升,能够提供更实用、更具确定性的Coding能力,让复杂系统工程与深度调试更稳、更强。
为充分释放GLM-5.2的长上下文与复杂推理潜能,MTT S5000从硬件算力、软件栈到开源框架进行了全链路适配与深度优化:
▼ 支撑超长上下文:释放长输入Prefill阶段高吞吐优势
GLM-5.2的Solid 1M上下文与长程任务能力,使长Prompt编码、上下文读入与KV Cache生成成为推理链路中的关键环节。长输入请求在进入生成阶段前,需要先完成大规模Prefill计算;这一阶段高度依赖并行矩阵计算、Attention算子效率、显存容量与访存带宽。
MTT S5000凭借硬件级原生FP8加速,单卡稠密算力高达1000 TFLOPS,配备80GB大容量显存与1.6TB/s超高带宽,可在长输入Prefill阶段集中释放高吞吐优势,为百万token级上下文处理提供充足缓存空间和稳定数据吞吐。依托MUSA C++、Triton-MUSA与TileLang-MUSA等工具链,GLM-5.2相关算子结构可快速迁移并针对长序列场景持续优化,帮助降低长上下文请求的首Token等待时间(TTFT),提升AI Coding、RAG和长文档分析等场景的在线推理效率。
▼ 赋能前沿Coding与Agent能力:以算子与调度优化提升推理效率
面向GLM-5.2重点强化的编程、智能体和长程任务场景,摩尔线程基于GLM家族多代模型的适配与优化经验,将模型结构适配、算子优化、框架拉起和部署验证能力快速迁移至GLM-5.2。通过原生算子定制、TileLang-MUSA编程优化和SGLang-MUSA推理框架协同,MTT S5000能够在保障模型精度的前提下提升推理吞吐、降低响应延迟,为客户提供面向AI Coding、Agent工作流和长文档分析的高效推理服务。
从GLM-4.7、GLM-5、GLM-5.1到GLM-5.2,摩尔线程已连续实现对智谱GLM家族前沿大模型的发布当日即时适配,沉淀出高效、可复用的工程底座。面向以GLM-5.2为代表的新一代长程任务模型,摩尔线程不仅提供基础适配,更通过Prefill优化与P/D异构分离方案,提供从单卡性能、多卡扩展、KV Cache传输到集群TCO(总体拥有成本)优化的端到端支撑。
未来,摩尔线程将依托MUSA软件栈强大的生态兼容性,持续第一时间适配前沿模型能力,以高性能、可规模化的国产全功能GPU基础设施,加速大模型应用创新落地。
▼ GLM-5.2 官方开源地址:
GitHub:
https://github.com/zai-org/GLM-5
Hugging Face:
https://huggingface.co/zai-org/GLM-5.2
ModelScope:
https://modelscope.cn/models/ZhipuAI/GLM-5.2


![[MD:Title]](http://img1.mydrivers.com/img/20260617/Scc300b95c87c487999c5e71eb22b6120.jpg)
![[MD:Title]](http://img1.mydrivers.com/img/20260617/Sa814597aaccd4f588102ec3f99e7bcff.jpg)