AMD MI300加速器深度揭秘：八路并行破亿亿次！全面超越NVIDIA-快科技-科技改变生活

软件生态：ROCm 6全面进化软硬结合提速8倍

好马配好鞍，一如游戏显卡必须有驱动程序配合才能释放性能潜力，AI/HPC加速器的发挥也离不开开发平台和工具的全力辅佐。

AMD ROCm就是这样的一套开放软件平台，如今来到了全新一代ROCm 6。

它重点针对大语言模型额和生成式AI进行优化和提升，以及强化支持开放开源、拓展生态支持、加入更多AI库等等。

比如在大语言模型优化方面，支持开源大模型推理加速框架vLLM，并优化推理库，延迟性能提升可达2.6倍；

支持的高性能图形分析与学习框架HIP Graph，优化运行时，延迟性能可提升1.4倍；

支持高效内存的注意力算法Flash Attention，优化内核，延迟性能可提升1.3倍。

新一代硬件加新一代开发平台的威力是相当猛的，比如MI300X、ROCm 6的组合相比于MI250X、ROCm 5，运行270亿参数Llama 2大模型推理，延迟性能可改善多达8倍！

当然，ROCm 6平台也会陆续支持老平台硬件，进一步挖掘潜力。

而对标竞品，比如130亿参数的Llama 2大模型，MI300X的延迟性能相比H100可以领先20％。

生态支持方面，ROCm 6也在快速拓展，尤其是基于AMD一贯以来的开放开源路线，一方面积极为开源社区贡献自己的开发库，另一方面可以充分利用各种开放开源的AI模型、算法和框架，包括Hugging Face、PyTorch、TensorFlow、Jax、OAI Triton、ONNX，等等。

其中，OpenAI会在即将发布的Triton 3.0版本中正式支持AMD GPU，未来和你对话的ChatGPT背后可能就是AMD Instinct在驱动。

总的来看，AMD新一代Instinct MI300X/MI300A加速器在硬件上有着艺术级的精妙设计和世界领先的计算性能、能效，尤其是真正融合的APU走在了行业的最前列，开拓了全新的可能。

再加上EPYC CPU处理器、网络方案的配合，为生成式AI推理、训练和应用提供了强大的算力平台基础。

在软件开发、生态合作上，AMD同样积极与时俱进，开放拥抱社区、拥抱产业，简化开发与应用流程，大大增强了自身竞争力，前途无量，值得期待。

PS：

至于MI300系列是否会有“中国特供版”，AMD的官方回复如下：

“中国市场对AMD很重要。我们今天没有宣布专门针对中国市场的特别产品。 ”