人工智能产业的蓬勃发展推动算力规模快速增长、算力结构不断优化,多元化算力发展趋势日益凸显。近日,紫光股份旗下新华三集团在以“ x AI”(乘AI)为主题的2024媒体与分析师沟通会上,重磅发布智算网络解决方案,将充分发挥“算力×联接”的倍增效应,以标准化联接支撑多元算力释放。新华三将通过对算力和联接技术进行最佳的调优与配合,打造一张全面满足异构算力需求的开放性网络,为智算中心不同规模的算力联接提供最优选择。
多元算力成主流 开放网络价值凸显
AI大模型的火热带动各类专用算力芯片需求激增,智能算力占比逐步提升,多元异构计算体系成为主流模式。在实际场景中,算力体系已形成庞大的生态系统,涉及大量计算单元内部的信息交互,网络不仅是连接算力单元的纽带,更决定了算力调度、数据流通的效率与稳定性。对此,新华三集团认为,解决CPU、GPU、网卡、光模块等异构组件间的互联问题,打造开放解耦、灵活扩展的网络联接,是构建多元融合智算体系的关键所在。通过将网络平台和智算平台解耦,可以充分发挥算力生态中各领域的优势,实现资源共享和高效协作,帮助客户享有先进的AI智算平台、优秀的网络设备和高品质的联接介质。此外,用户可利用以太网开放标准特质,逐步构建大规模智算集群,实现与现有设施的无缝互通,并根据业务需求灵活扩展升级。
智算网络解决方案 探索打通异构算力的开放网络
为满足更加严苛的智算需求,新华三集团探索全新智算网络解决方案,以灵活多样的组网方式、以及全场景网络调优技术满足不同场景、不同规模的智算中心网络建设需求,全面增强网络对于多元异构算力的承载能力。
●业界最全产品布局支持全模型组网:智算网络建设重视开放性、可部署性和扩展性,要求产品形态多样且支持开放协议。新华三拥有支持200G/400G/800G不同端口密度且形态丰富的交换机产品,支持单框单层、盒-盒两层、框-盒两层等多种灵活组网架构,提供了开放性、兼容性、扩展性、稳定性极强的网络环境和端到端异构互联保障。
●全局负载均衡带来极致带宽利用率:传统负载均衡技术难以适应AIGC集群训练中通信流量拥塞敏感性高、低时延、高吞吐等需求,易导致负载分担不均、整网吞吐下降等问题,影响训练效率。新华三提出SprayLink端网融合、LBN&DLB、FGLB全局负载均衡、分布式解耦机框DDC架构等在内的负载均衡技术组合,可提高网络带宽利用率至95%,实现全场景智算网络调优。
●数据面自愈技术实现微秒级故障收敛:网络设备通常是转控分离的,在发生故障时,通过控制面进行表项刷新、路径重算后下发到数据面,实现故障收敛。而这种处理方式所消耗的时间,在智算场景下影响巨大。针对智算场景中远端链路负载和故障检测以及流量实时调整需求,新华三推出DPSH数据面自愈技术,支持本地或远端链路Down后的流量快速切换,整个流量切换周期从毫秒级降低至微秒级,用户侧对链路故障无感知。
为AI算力场景而生 算力集群交换机提升智算网络整体可用性
为进一步提升智算网络整体可用性,新华三集团同步推出基于DDC架构(Disaggregated Distributed Chassis分布式解耦机框)的算力集群核心交换机H3C S12500 AI系列,旨在为用户提供更具扩展性、更易运维管理、更具成本效益的分布式解耦机框方案。
作为专为AI算力场景设计的产品,H3C S12500 AI系列具备信元级负载均衡、原生无损、超大规模的优势。其基于信元交换实现GPU解耦,对任意流量模型均能达到最佳负载均衡效果,确保100%无损传输,且最大可支持32K(400G)GPU卡,摆脱了传统框式设备端口容量上限。依托强大的生态解耦能力和优秀的算力网络性能,H3C S12500 AI系列可为用户构建天然零丢包的无损网络,提供自动化部署以及NCF与NCP的自组网能力,新增网元上线即可用,并且在网元失效时实现微秒级的拓扑收敛速度,是异构GPU互联的最佳选择。
此外,在异构算力网络的构建过程中,新华三将持续推进服务器内、外部GPU联接的标准化,实现异构GPU的智算集群,降低算力部署和应用的成本,并通过软件生态的标准化,打通智算孤岛,促进资源共享与产业共同繁荣。
网络是数字经济的载体,算力是数字经济的引擎,网络与算力的相互协同,将更好的推动数字经济蓬勃发展。面向AIGC时代的算力需求与挑战,新华三集团将秉持“精耕务实,为时代赋智慧”的理念,全力打造超高带宽、超低时延、超高可靠的高品质智算网络,为百行百业的数智发展注入强劲动能。