今年6月,全球第一台百亿亿次超算“Frontier”公开亮相,采用AMD Trento EPYC 7A53处理器、AMD Instinct MI250X GPU加速卡的组合,这也是AMD时隔十年重返超算之巅,性能相当于其后第二到第七名的总和。
Frontier超算部署在美国能源部橡树岭国家实验室,最初计划2022年内全面投入运行,后推迟到2023年1月1日,但现在却被曝出自上线之初就存在严重的问题,每天都故障不断。
据称,Frontier超算规划的FP64双精度浮点性能为1.685EFlops(168.5亿亿次计算每秒),但目前只能勉强跑到1EFlops,也就是只能达到设计目标的60%。
具体原因不详,有一种说法是HPE Cray机柜使用的Slingshot网络互连系统与HPE集群存在冲突,另一种说法是Slingshot互连系统与AMD计算平台存在冲突,但究竟怎么回事儿不得而知。
美国能源部百亿亿次计算项目的一位对外联络发负责人Mike Bernhardt发布了一则简单声明,称感谢HPE、AMD的努力,Frontier系统今年秋天提前交付,目前正在进行安装和集成,这是一项繁重、复杂的任务,但目前进展顺利,将在明年按期想科学界开放。
为了冲击百亿亿次超算,美国规划了三条路线。
Intel Sapphire Rapids四代可扩展至强、Ponte Vecchio加速卡打造的“Aurora”进展也很不顺,一直在推迟,主要是Intel的两个新品迟迟无法规模交付。
AMD处理器、NVIDIA加速卡组成的“Polaris”消息非常少,不清楚目前具体进展如何。