AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA
  • 上方文Q
  • 2023年12月07日 04:21
  • 0

Instinct MI300X:1920亿晶体管怪兽 完胜NVIDIA H100

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

Instinct MI300X属于传统的GPU加速器方案,纯粹的GPU设计,基于最新一代CDNA3计算架构。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

它集成了八个XCD加速计算模块(Accelerator Compute Die),每一个XCD拥有38个CU计算单元,总计304个单元。

每两个XCD为一组,在它们底部放置一个IOD模块,负责输入输出与通信连接,总共四个IOD提供了多达七条满血的第四代Infinity Fabric连接通道,总带宽最高896GB/s,还有多达256MB Infinity Cache无限缓存。

XCD、IOD外围则是八颗HBM3高带宽内存,总容量多达192GB,可提供约5.3TB/s的超高带宽。

AI/HPC时代,HBM无疑是提供高速支撑的最佳内存方案,AMD也是最早推动HBM应用和普及的。

以上所有模块,都通过2.5D硅中介层、3D混合键合等技术,整合封装在一起,AMD称之为3.5D封装技术。

总计晶体管数量多达1530亿个,其中XCD计算核心部分是5nm工艺,IOD部分则是6nm工艺。

顺带一提,结构示意图中位于HBM内存之间的小号硅片,一共八颗,并无实际运算和传输作用,而是用于机械支撑、保证整体结构稳定。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

MI300X的各项性能指标都可以胜出NVIDIA H100(H200已宣布但要到明年二季度才会上市所以暂时无法对比),还有独特的优势。

HPC方面,MI300X FP64双精度浮点矩阵、矢量性能分别高达163.4TFlops(每秒163.4万亿次计算)、81.7TFlops,FP32单精度浮点性能则都是163.4TFlops,分别是H100的2.4倍、无限倍、2.4倍、2.4倍——H100并不支持FP32矩阵运算。

AI方面,MI300X TF32浮点性能为653.7TFlops,FP16半精度浮点、BF16浮点性能可达1307.4TFlops,FP8浮点、INT8整数性能可达2614.9TFlops,它们全都是H100的1.3倍。

TF32即Tensor Float 32,一种新的浮点精度标准,一方面保持与FP16同样的精度,尾数位都是10位,另一方面保持与FP32同样的动态范围(指数位都是8位)。

BF16即Bloat Float 16,专为深度学习而优化的浮点格式。

另外,同样适用HBM3高带宽内存,MI300X无论容量还是带宽都完胜H100,而整体功耗控制在750W,相比H100 700W高了一点点。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

更进一步,AMD还打造了MI300X平台,由八块MI300X并联组成,兼容任何OCP开放计算标准平台。

这样一来,在单个服务器空间内,就总共拥有2432个计算单元、1.5TB HBM3内存、42.4TB/s内存带宽。

性能更是直接飞升,BF16/FP16浮点性能甚至突破了10PFlops,也就是超过1亿亿次计算每秒,堪比中等规模的超级计算机。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

对比同样八颗H100组成的计算平台H100 HXG,它在计算性能、HBM3容量上也有不少的优势,而在带宽、网络方面处于相当的水平。

尤其是每颗GPU可运行的大模型规模直接翻倍,可以大大提升计算效率、降低部署成本。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

实际应用性能表现方面,看看AMD官方提供的一些数据,对比对象都是H100。

通用大语言模型,无论是中等还是大型内核,都可以领先10-20%。

推理性能,都是八路并联的整套服务器,1760亿参数模型Bloom的算力可领先多达60%,700亿参数模型Llama 2的延迟可领先40%。

训练性能,同样是八路服务器,300亿参数MPT模型的算力不相上下。

总的来说,无论是AI推理还是AI训练,MI300X平台都有着比H100平台更好的性能,很多情况下可以轻松翻倍。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

产品强大也离不开合作伙伴的支持,MI300X已经赢得了多家OEM厂商和解决方案厂商的支持,包括大家耳熟能详的慧与(HPE)、戴尔、联想、超微、技嘉、鸿佰(鸿海旗下/富士康同门)、英业达、广达、纬创、纬颖

其中,戴尔的PowerEdge XE9680服务器拥有八块MI300X,联想的产品2024年上半年登场,超微的H13加速器采用第四代EPYC处理器、MI300X加速器的组合。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

在基础架构中引入MI300X的合作伙伴也相当不少,包括:Aligned、Arkon Engergy、Cirrascale、Crusoe、Denvr Dataworks、TensorWare,等等。

客户方案方面,比如微软的Azure ND MI300X v5系列虚拟机,比如甲骨文云的bare metal(裸金属) AI实例,比如Meta(Facebook)数据中心引入以及对于ROCm 6 Llama 2大模型优化的高度认可,等等。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA


文章纠错

  • 好文点赞
  • 水文反对

此文章为快科技原创文章,快科技网站保留文章图片及文字内容版权,如需转载此文章请注明出处:快科技

观点发布 网站评论、账号管理说明
热门评论
查看全部评论
相关报道

最热文章排行查看排行详情

邮件订阅

评论0 | 点赞0| 分享0 | 收藏0