青云科技AI智算平台融合云、边、AI与网络 -快科技-科技改变生活

当前 AI 大模型正成为技术力量新的爆发点，以 ChatGPT 为代表的 AIGC 应用风起云涌，持续演进的 AI 对网络的需求指数级增长：一方面，AIGC 带来的巨大流量和交互 AI 应用对网络的带宽和实时性提出了更高要求；另一方面，AI 大模型训练需要海量算力支撑，大规模、分布式 AI 集群使智算节点间通信面临着越来越大的挑战。

全球范围内的 AI 经济价值预计将达到数万亿美元，网络与算力作为数字基础设施，在 AI 加持下，必将进一步推动实体经济和数字经济新一轮高质量发展，寻求提供极致高性能网络已成为 AI 重要研究方向之一。

青云科技作为云服务厂商，在服务于 AI 科技行业客户过程中，遇到很多机遇和挑战。

一： AI 场景下多样数据采集瓶颈

在服务 AI 客户过程中，青云发现在这四种场景： NLP 自然语言处理，CV 计算机视觉领域，GIS 地理空间和卫星遥感数据， ASR 云合成方向，存在着数据采集的问题，即随着多场景、多样化的数据不断积累，各种边缘侧的数据该如何高效、快捷、安全、及时地传输到数据中心，从而保障数据加密过程中的诸多问题。

二：边缘场景不确定因素挑战

边缘网络的不确定因素也带来不小挑战，比如边缘设备的弱网、断电、通信异常导致数据传输不及时，无法保障数据传输过程中的数据安全隐私性；还有目前物联网设备、硬件设备多元化发展的情况下，边缘设备以及物联网网络多样环境下暴露出来的制约；芯片层、操作系统层不同接口协议兼容性的差异等。

三：容器平台多场景业务整合瓶颈

面向 AI 快速的发展，在 AI 训练以及推理高性能计算、容器云平台计算面临了多场景业务整合的瓶颈：随着 AI 大模型的不断发展，如何更好得管理、部署好模型的应用，以及升级及应用模型？

青云边缘侧自主研发的 EdgeWize 平台平台适配多种硬件、多种操作系统，以便于用户整合边缘端多侧设备；同时平台预留支持计算、边缘计算的能力，依托 SD-WAN 高可用链路进行传输，基于拓扑网的自动选择路径能力，保证数据传输的可靠性和安全性。对于边端的加密数据，青云科技推出多种加密协议保障边缘数据向数据中心的传输安全性，并依托云上多 Region、广域网络环网进行平台建设，构建云服务上的基石，保障用户的连续性和可靠性。

随着 AI 容器的业务普及发展和应用，青云科技也在积极探索容器化应用场景解决方案。

首先，青云科技在 QKE 容器引擎上支持一键式部署，能为用户提供操作便捷、简单易用的界面，从而保障集群上服务易用的能力。

同时，青云科技在 SD-WAN 网络组件上的容器化适配，缩短了边缘应用网络访问的路径，从而满足边缘应用多样性的网络需求。

最后，从边缘侧到 IaaS 层 K8s 管理业务集群，再到上层 PaaS 平台配套服务以及相应的管理服务，青云科技都能依托高效的网络能力，在运维监控以及可视化界面上为用户提供全方位的服务保障。

青云科技发布了 AI智算平台并提出一个概念：算力中心建设新模式，像管理本地资源一样管理 AI 基础设施。

在云边协同的场景下，不仅大量数据会被采集到云端，还有海量业务数据会被进行清洗、分析和相应的训练，而这些都离不开底层多元化算力的支持。基于此，青云 AI智算平台以解决多样化算力需求、智能化算力调度管理，以及智简化运维管理为核心目标。

青云科技提出跨区域混合组网架构。从图中可以看到在数据中心网络建设中，青云科技会将计算管理节点、存储网络和专有 GPU 网络集群做详细划分。尤其在目前大模型训练场景下，青云科技服务客户过程中，在高性能并行空间存储集群以及 GPU 计算集群，会规划满足客户专用的 IB 网络，通过 SDN 网络技术手段进行计算资源、存储资源、对象存储，比如 U10000 节点进行网络管理，再采用运营商提供的 UFM REST API 接口，实现多地跨区域、高速互联，以此满足网络层面相应的控制。

通过跨区域混合组网的搭建方式，青云AI智算平台在搭建和服务用户过程中，提供多个层面的产品类型。从底层物理节点层到上层逻辑服务层和相应的云服务层，都依托底层高速的 IB 交换机网络和业务的管理交换机网络，在 GPU 计算节点、并行文件存储节点和纳管 GPU 的裸金属节点上，都可以为客户提供配套的 PaaS 产品服务。依托数据中心多层服务能力，在不同的区域、不同的 Region 都可以为用户提供全局的训练、推理、业务模型和资源管理调度服务。同时基于青云科技多年公有云服务相应经验，还可以为客户提供整套运营运维管理的配套组件。

基于“解决 AI 场景下最首要的挑战”的目的，青云科技 AI智算平台具有多项优势：

支持数万张 GPU 卡的资源管理。

通信链路的网络优化，做到让数据不绕路，大大缩短数据到数据中心的传输路径。

支持多卡多芯的异构云平台，加速国产 GPU 芯片替代。

提高单卡使用调度的利用率，实现最大系统利用率。

广泛的调蓄选项，预留、恢复和关键作业的抢占式调度服务方式。

动态灵活、弹性地分配 GPU 资源。

为解决当今 AI 快速发展、海量数据增长的情况，青云科技除了提供高效的组网，完善的基础设施服务，也提供多样的存储支持。青云具备自研的 U10000 对象存储，可以降低用户存储成本，帮助用户提供完善的生命周期分层策略，同时提供满足大模型和高性能计算场景下并行文件存储的 EPFS，它支持高达百 GB 的访问带宽。在数据存储上也为用户提供多样化的，符合业务要求的各种类型的数据库和非关系型数据库。

在网络侧，青云科技为用户提供三种方式，即用户公网加密链器、采用自研 SD-WAN 互联网网络以及专线网络接入，可以灵活地接入青云 AI 算力调度云平台，也可以基于容器化 K8s、QKE 集群的 AI 算力调度平台接入。

通过上层 MaaS 产品服务，用多种算力配备高速的 IB 网络，可支撑用户在青云云平台上快速上线其预训练模型、通用模型以及行业应用模型，从而助力其快速开展自身训练推理的应用。随着 AIGC 的不断发展，青云也在不断地探索和迭代 MaaS 模型的产品服务。

在底层 AppCenter，青云可以支持不同的 VM、BM 以及 GM 管理集群，并且适配多种操作系统、芯片以及模型训练基础服务镜像。在上层可以采用 Slurm 调度系统以及 QKE K8s 调度系统，满足客户在模型训练以及模型层、数据层、AI 层、AIGC 应用层的发布。青云也支持从数据的管理、模型的训练以及测试发布整体的全生命周期的管理，会协助 AIGC 行业为用户提供更便捷、更快速的 AI 自助式服务。在模型生态上接入了很多商业化模型，给用户提供垂直领域行业以及互联网应用行业模型的能力。

未来，青云希望可以一键式交付整体环境，同时支持挂载高性能存储，我们也会不断融合市场更多的模型提供商，帮助用户在模型仓库中得到更选择，并且在垂直行业领域以及行业模型上做更多的尝试和探索。青云一直秉承“持续创新、合作、开放、共赢”的态度，希望与行业合作伙伴及客户，共筑数字世界的新未来。

相关报道

最热文章排行查看排行详情

邮件订阅

分享到