软件生态:ROCm 6全面进化 软硬结合提速8倍
好马配好鞍,一如游戏显卡必须有驱动程序配合才能释放性能潜力,AI/HPC加速器的发挥也离不开开发平台和工具的全力辅佐。
AMD ROCm就是这样的一套开放软件平台,如今来到了全新一代ROCm 6。
它重点针对大语言模型额和生成式AI进行优化和提升,以及强化支持开放开源、拓展生态支持、加入更多AI库等等。
比如在大语言模型优化方面,支持开源大模型推理加速框架vLLM,并优化推理库,延迟性能提升可达2.6倍;
支持的高性能图形分析与学习框架HIP Graph,优化运行时,延迟性能可提升1.4倍;
支持高效内存的注意力算法Flash Attention,优化内核,延迟性能可提升1.3倍。
新一代硬件加新一代开发平台的威力是相当猛的,比如MI300X、ROCm 6的组合相比于MI250X、ROCm 5,运行270亿参数Llama 2大模型推理,延迟性能可改善多达8倍!
当然,ROCm 6平台也会陆续支持老平台硬件,进一步挖掘潜力。
而对标竞品,比如130亿参数的Llama 2大模型,MI300X的延迟性能相比H100可以领先20%。
生态支持方面,ROCm 6也在快速拓展,尤其是基于AMD一贯以来的开放开源路线,一方面积极为开源社区贡献自己的开发库,另一方面可以充分利用各种开放开源的AI模型、算法和框架,包括Hugging Face、PyTorch、TensorFlow、Jax、OAI Triton、ONNX,等等。
其中,OpenAI会在即将发布的Triton 3.0版本中正式支持AMD GPU,未来和你对话的ChatGPT背后可能就是AMD Instinct在驱动。
总的来看,AMD新一代Instinct MI300X/MI300A加速器在硬件上有着艺术级的精妙设计和世界领先的计算性能、能效,尤其是真正融合的APU走在了行业的最前列,开拓了全新的可能。
再加上EPYC CPU处理器、网络方案的配合,为生成式AI推理、训练和应用提供了强大的算力平台基础。
在软件开发、生态合作上,AMD同样积极与时俱进,开放拥抱社区、拥抱产业,简化开发与应用流程,大大增强了自身竞争力,前途无量,值得期待。
PS:
至于MI300系列是否会有“中国特供版”,AMD的官方回复如下:
“中国市场对AMD很重要。我们今天没有宣布专门针对中国市场的特别产品。 ”