无论是Intel Xeon Phi还是NVIDIA Tesla,都在高性能计算、人工智能、深度学习等领域斩获颇丰,AMD也在2016年12月宣布了自己的加速卡计划——Radeon Instinct。
如今,Radeon Instinct加速卡产品终于诞生了,而且首发了全新的Vega GPU架构。
Radeon Instinct加速卡首发一共有三款产品,其中旗舰级的Radeon Instinct MI25就采用了Vega架构,14nm FinFET工艺制造,內建64个计算单元(4096个流处理器),可提供24.6TFlops半精度、12.3TFlops单精度的超高性能,搭配16GB HBM2 ECC显存,带宽484GB/s,整卡功耗300W。
AMD称这是世界上最快的训练加速器,针对大规模并行应用进行优化,满足大型数据集机器智能和HPC级系统工作负载需求。
Radeon Instinct MI8架构基于上代Fiji(斐济),基本就是R9 290X的翻版,也是4096个流处理器,峰值半精度/单精度性能8.2TFlops,功耗175W,每瓦特性能达到了47GFlops,搭配4GB HBM显存,带宽512GB/s。
Radeon Instinct MI6的架构是Polaris(北极星),RX 480的专业版,2304个流处理器,峰值半精度/单精度性能5.7TFlops,功耗150W,每瓦特性能38GFlops,搭配16GB GDDR5显存,带宽224GB/s。
他们还都拥有增强的GPU间低延迟通信,支持多用户MxGPU、硬件SR-IOV。
三款卡都采用了被动散热方式,MI25、MI8为双插槽,MI6为单插槽,需要结合服务器整体散热。
另外,同样基于Vega架构的新款Radeon Vega Frontier Edition也非常适合人工智能、科学运算,规格和Radeon Instinct MI25类似。
AMD宣称,Radeon Vega Frontier Edition在百度DeepBench测试中,性能要优于NVIDIA Tesla P100足足34%。
Radeon Instinct系列计算卡将在第三季度出货给合作伙伴,包括Boxx、olfax、xxact Corporation、技嘉、英业达(Inventec)、超威,相关的深度学习和HPC解决方案也会很快上市。
其中,超威的YS-4028GR-TR(T)/-TR(TT2) 4U SuperServer服务器采用AMD EPYC服务器,支持多达八块Radeon Instinct MI25加速卡,而且因为EPYC平台能提供足够多的PCI-E 3.0总线,所有加速卡均为直连CPU,无需桥接。
软件方面,AMD也推出了新的开源开发平台ROCm 1.6,支持MIOpen 1.0 GPU加速库、机器智能框架,可大大提高性能、效率并且易于实施,从而加速深度学习推理,加速训练机器智能,未来还会支持Caffe、TensorFlow、Torch等计算技术。
ROCm软件平台由开源Linux驱动程序组成,为可扩展多GPU计算优化,提供多种编程模式,HIP CUDA转换工具,并使用异构计算编译器(HCC)支持GPU加速。