唯一可靠替代NVIDIA！Intel至强CPU、Gaudi2加速器AI组合做到了-快科技-科技改变生活

快科技6月28日消息，今天，机器学习与人工智能开放产业联盟MLCommons公布了AI性能基准测试MLPerf Training 3.0的结果，Intel旗下的Habana Gaudi2深度学习加速器、第四代至强可扩展处理器联合，展现出了优秀的性能。

可以说，Intel这套组合已经成为唯一能够可靠取代NVIDIA GPU的方案。

MLPerf是目前最具信服力的AI性能测试基准，能够在各种解决方案之间进行公平、可重复的性能比较。

目前，Intel已经拥有超过100次的MLPerf性能测试结果，而且是唯一一个使用行业标准的深度学习生态系统软件，并公开提交CPU结果的厂商。

根据业内当前的普遍观点，生成式AI和大语言模型(LLM)只适合在高性能GPU上运行，但最新数据显示，基于Intel CPU、加速器的组合方案，同样有着极高的效率，而且是开放生态环境，效率与规模不受限制，从而为客户提供极具竞争力的选择。

其中，第四代可扩展至强内置的各种加速器，使其成为在通用CPU处理器上运行大量AI工作负载的理想解决方案，Gaudi则在生成式AI、LLM方面有着优秀的性能，此外Intel还提供了经过优化的、易于编程的开放软件，降低AI部署门槛。

Habana Gaudi2夹层卡

最新的MLPerf 3.0测试结果显示，面对要求极为苛刻的、1750亿参数的GPT-3模型，Habana Gaudi2的性能非常出色，可扩展性也非常灵活：

1、384个加速器上的训练时间仅为311.9分钟——512个NVIDIA H100加速器需要64.3分钟。

2、256个加速器到384个加速器，性能扩展95％，接近线性提升。

3、在计算机视觉模型ResNet-50（8个加速器）和Unet3D（8个加速器），以及自然语言处理模型BERT（8个和64个加速器）上，都取得了优异的训练结果。

4、与去年11月提交的数据相比，BERT和ResNet模型的性能分别提高了10％、4％。

5、支持“开箱即用”，客户在本地或在云端使用Gaudi2时，可以获得与本次测试相当的性能结果。

值得一提的是，Gaudi2是仅有的两个向GPT-3大模型训练基准提交性能结果的解决方案之一。

软件层面，本次提交的GPT-3模型基于PyTorch，并采用了当前流行的、隶属微软大规模AI的DeepSpeed优化库，而非定制软件。

DeepSpeed能够同时支持Data、Tensor、Pipeline的三维并行，进一步优化了大语言模型的扩展性能效率。

本次MLPerf 3.0的Gaudi2结果以BF16数据类型提交，在四种不同模型上的性能均优于NVIDIA A100，价格更便宜。

第三季度还会发布对FP8数据类型的软件支持与新功能，预计届时Gaudi2的性能将有明显飞跃，预计性价比将超越NVIDIA H100。

Intel可扩展至强则是向MLPerf 3.0提交的众多解决方案中，唯一基于CPU通用处理器的，也支持“开箱即用”，即在通用系统上部署AI。

MLPerf 3.0四代可扩展至强测试的亮点有：

1、在封闭区，47.93分钟的训练时间即可完成BERT模型，88.17分钟即可完成ResNet-50模型。

2、多节点扩展可以实现几乎线性的性能提升，可达97-100％。

3、BERT模型的开放区扩展至16个节点时，31.06分钟即可完成模型训练。

4、对于较大的RetinaNet模型，16个节点上的训练时间仅为232分钟。

5、基于Intel AMX高级矩阵扩展，可提供显著的“开箱即用”性能提升，覆盖多个框架、端到端数据科学工具，以及广泛的智能解决方案生态系统。

Intel还对比了至强铂金8480+、NVIDIA A100使用不同数据集完成HuggingFace Distilbert模型的结果，分别只需3.61分钟、0.7分钟。

虽然相比对手的1.49分钟、0.45分钟还有差距，但速度已经相当快，尤其是作为通用CPU对比专用GPU达到如此程度，实属不易，这都得益于Intel良好、深入的系统优化。