快科技6月26日消息,据“华为数据存储”公众号消息,在2026 MWC上海展期间,华为与中国移动通信集团湖北有限公司(以下简称“湖北移动”)联合宣布,双方已成功完成全国运营商首个AI推理加速解决方案现网测试。
此次测试基于华为OceanStor A800存储与昇腾A3超节点架构,并搭载UCM(Unified Cache Manager,推理记忆数据管理)能力,在长序列AI推理场景下,实现Token吞吐率最高提升372%的突破性成果,为运营商智算业务的高效部署提供了重要技术支撑。
据介绍,本次测试在湖北移动现网环境中部署vLLM-Ascend框架,面向MiniMax M2.5、GLM-5.1等主流大模型,模拟了8K至190K长序列输入场景。
测试结果显示,在MiniMax M2.5模型场景下,启用UCM后,首Token延迟(TTFT)优化26%至62%,单NPU卡Token输出效率(TPS)也获得明显提升。
其中,在64K序列长度下,TPS提升58%;在128K序列长度下,TPS提升78%。
在GLM-5.1模型场景下,UCM带来的加速效果更加明显,TTFT优化幅度达到51%至93%,TPS提升56%至372%。
具体来看,在64K序列长度下,TPS提升313%;在128K序列环境下,TPS最高提升372%。
华为表示,测试结果表明,随着上下文长度不断增加,AI推理加速方案的优势将持续放大,有效解决了长序列推理中的KV Cache容量瓶颈。
对于运营商而言,这意味着在大模型推理、智能客服、内容生成、行业智能体等长序列AI业务场景中,现网智算资源有望获得更高利用效率,同时降低长上下文推理带来的性能压力。


