AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA
  • 上方文Q
  • 2023年12月07日 04:21
  • 0

软件生态:ROCm 6全面进化 软硬结合提速8倍

好马配好鞍,一如游戏显卡必须有驱动程序配合才能释放性能潜力,AI/HPC加速器的发挥也离不开开发平台和工具的全力辅佐。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

AMD ROCm就是这样的一套开放软件平台,如今来到了全新一代ROCm 6。

它重点针对大语言模型额和生成式AI进行优化和提升,以及强化支持开放开源、拓展生态支持、加入更多AI库等等。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

比如在大语言模型优化方面,支持开源大模型推理加速框架vLLM,并优化推理库,延迟性能提升可达2.6倍;

支持的高性能图形分析与学习框架HIP Graph,优化运行时,延迟性能可提升1.4倍;

支持高效内存的注意力算法Flash Attention,优化内核,延迟性能可提升1.3倍。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

新一代硬件加新一代开发平台的威力是相当猛的,比如MI300X、ROCm 6的组合相比于MI250X、ROCm 5,运行270亿参数Llama 2大模型推理,延迟性能可改善多达8倍!

当然,ROCm 6平台也会陆续支持老平台硬件,进一步挖掘潜力。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

而对标竞品,比如130亿参数的Llama 2大模型,MI300X的延迟性能相比H100可以领先20%。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

生态支持方面,ROCm 6也在快速拓展,尤其是基于AMD一贯以来的开放开源路线,一方面积极为开源社区贡献自己的开发库,另一方面可以充分利用各种开放开源的AI模型、算法和框架,包括Hugging Face、PyTorch、TensorFlow、Jax、OAI Triton、ONNX,等等。

其中,OpenAI会在即将发布的Triton 3.0版本中正式支持AMD GPU,未来和你对话的ChatGPT背后可能就是AMD Instinct在驱动。

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA

总的来看,AMD新一代Instinct MI300X/MI300A加速器在硬件上有着艺术级的精妙设计和世界领先的计算性能、能效,尤其是真正融合的APU走在了行业的最前列,开拓了全新的可能。

再加上EPYC CPU处理器、网络方案的配合,为生成式AI推理、训练和应用提供了强大的算力平台基础。

在软件开发、生态合作上,AMD同样积极与时俱进,开放拥抱社区、拥抱产业,简化开发与应用流程,大大增强了自身竞争力,前途无量,值得期待。

PS:

至于MI300系列是否会有“中国特供版”,AMD的官方回复如下:

“中国市场对AMD很重要。我们今天没有宣布专门针对中国市场的特别产品。 ”

AMD MI300加速器深度揭秘:八路并行破亿亿次!全面超越NVIDIA


文章纠错

  • 好文点赞
  • 水文反对

此文章为快科技原创文章,快科技网站保留文章图片及文字内容版权,如需转载此文章请注明出处:快科技

观点发布 网站评论、账号管理说明
热门评论
查看全部评论
相关报道

最热文章排行查看排行详情

邮件订阅

评论0 | 点赞0| 分享0 | 收藏0