一、前言:无敌是一种寂寞 现在更寂寞了
如果说锐龙的诞生,让AMD回到了主流战场,那么锐龙线程撕裂者的出现,就让AMD一举站在了世界之巅。
最为不可思议的是,自从2017年诞生以来,线程撕裂者一直都是无敌寂寞的状态,让对手连尾灯都看不见、直接“放弃治疗”,而且在可预见的未来很长一段时间内,依然都会如此。
举个例子,同样是旗舰产品,64核心的线程撕裂者PRO 5995WX面对56核心的至强W9-3495X,在专业应用中,Maya性能可领先多达37%,V-Ray性能可领先28%,差距之大都不像是同一代产品。
在整个x86处理器历史上,这都是绝无仅有的。
更感人的是,即便在没有任何挑战的情况下,AMD依然没有躺平挤牙膏。
每一代线程撕裂者,都在拔高上限,无论是核心数量,还是绝对性能,抑或扩展性能,都在以令人瞠目结舌的速度一路狂飙。
以V-Ray基准性能测试为例,2017年的初代线程撕裂者成绩还不到1万分,今年将会接近11万分,仅仅6年的时间就提升多达11倍!
这种不要命的玩法,无疑会让任何对手都感到深深的绝望。
如今,Zen 4架构正在各个领域普及,我们也终于迎来了全新一代的线程撕裂者7000系列。
不同于上代Zen 3架构的时候,只有面向工作站的线程撕裂者PRO,让不少发烧友玩家“饥渴难耐”,这一次AMD不但拿出了专业的撕裂者PRO 7000WX系列,还奉上了用于HEDT高端桌面平台的线程撕裂者7000X系列,双管齐下,不同的用户群可以各取所需。
上周,文Q代表快科技和中国媒体,前往位于美国德州奥斯汀总部的AMD公司总部,聆听了各位专家对新一代线程撕裂者的介绍,现在就分享给大家!
二、系统架构、技术特性:你想要的 Zen 4都完美给到
在历史上,每一代线程撕裂者都是从面向服务器与数据中心市场的霄龙(EPYC)衍生而来的,这一次也不例外。
线程撕裂者7000系列来自霄龙9004系列,继承了同样的制造工艺(5nm CCD/6nm IOD)、底层架构(Zen 4)、封装接口、高级特性,毫不吝啬几乎全部下放,并面向工作站、高端桌面应用做了针对性的调整和优化,比如频率更高。
相比于上代Zen 3架构的线程撕裂者5000系列,核心数量从最多64个增加一半来到最多96个(12个CCD加1个IOD),二/三级缓存从64/256MB扩容到96/384MB,最高加速频率更是从4.5GHz大幅提高到5.3GHz,无论单核性能还是多核性能,抑或综合能效,都有了质的飞跃。
与此同时,DDR4、DDR5内存的换代,PCIe 4.0、PCIe 5.0总线的换代,更是将系统性能、扩展性提高到了新的层次。
至于为什么不用Zen 4c架构做成更大规模的128核心256线程,主要因为Zen 4c是为高密度计算而生的,而非追求高性能,不适合工作站、HEDT这种偏向极致性能的平台。
那为什么不加入威力强大的3D V-Cache堆叠缓存呢?原因在于3D V-Cache成本较高,而且在多数工作站和专业应用中的效果并不是特别明显,投入产出比较低,但如果未来应用优化逐步到位,不排除这么干。
细一点来说,在计算方面,除了架构、核心数量、缓存、频率的升级,不能不提ISA指令集的增强,新加入了AVX-512指令(256位数据宽度)、VNNI指令、BF16数据格式,无论是HPC高性能计算还是AI人工智能,都能获得更强劲的推动力。
RAS特性的更新,则可以更好地保证系统稳定性、持续性、安全性,对于工作站应用来说至关重要。
安全方面大家可能不太在意,这次随同架构升级重点增加了AES-256-XTS,是行业标准的硬件加密算法。
值得一提的是,封装接口其实和霄龙9004系列的SP5(LGA6096)一样的,不过改名为sTR5,相比于线程撕裂者5000系列的sRWX8(LGA4094),不但支持新架构、新的DDR5内存与PCIe 5.0扩展,还强化了供电能力,满足更高功耗。
内存还是8个通道、每通道1条,但是从DDR4-3200来到了DDR5-5200,带宽更高(理论峰值266GB/s),能效也更高,当然还是RDIMM类型为主,ECC也必不可少。
统最大内存容量方面,PRO 7000WX系列工作站上可达2TB(需要单条256GB),而在7000X系列发烧桌面平台上支持到1TB(需要单条128GB)。
当然,8通道是默认的完全体,用不到的话也可以自由使用2/4/6通道模式。
通道少了,带宽、容量自然会有损失,但是延迟也会更低,可以根据实际需求来取舍,就看用户和应用对哪个更敏感了。
对于1个IOD、最多12个CDD这样的超高复杂度Chiplet晶粒设计而言,IO扩展能力是极为关键的。
AMD特别改进了不同Die之间的互连通道与接口,将多达13个Die有机地连为一体,带宽最高达36Gbps,与内部FCLK基准时钟频率形成20:1的关系。
PCIe方面还是128条通道,但是从PCIe 4.0来到了PCIe 5.0,单路最高带宽翻倍至32Gbps,峰值总带宽比上代提升了超过90%。
如此众多的PCIe通道,可以按照需求拆分组合,x16、x8、x4、x2、x1都随意,再多的扩展卡、存储设备都不会有任何瓶颈,比如每一组x16通道都可以支持最多9个设备(包括1个x8和8个x1)。
如果需要大量的SATA存储,可以配置分到最多32条通道,支持32块SATA硬盘。
这就是完整的平台图,密密麻麻的各种扩展设备,是不是看着相当爽?
其中,处理器可以支持8条DDR5内存插槽、7条PCIe 5.0 x16扩展卡插槽、四个USB 3.2 Gen2接口、4个SATA硬盘接口、两个PCIe 5.0 x4 M.2 SSD、两个PCIe 5.0 x4/SATA M.2 SSD,事实上还有额外的8条PCIe 3.0通道,可以再扩展出两个x4 M.2 SSD插槽。
芯片组方面,PRO 7000WX系列搭配的是WRX90,同样有着丰富的扩展。
其中,PCIe扩展包括:1条PCIe 4.0 x4用于万兆网卡、1条PCIe 4.0 x1用于2.5千兆网卡、一条PCIe 4.0 x2用于Wi-Fi无线网卡(蓝牙)、一条PCIe 4.0 x1备用。
USB扩展包括:1个USB 3.2 Gen2x2 20Gbps(C口)、4个USB-C 3.2 Gen2 10Gbps(C口/A口/俩插针)、5个USB 2.0(俩口/俩插针/一个无线网卡)。
以及,4个SATA硬盘接口。
以上说的都是工作站用的PRO 7000系列的顶级特性,而面向发烧桌面平台的7000X系列做了一些精简。
核心数最多降为64个(CCD最多8个),也就是和Zen 2架构的线程撕裂者3000X系列一样,但毕竟架构完全不同。
值得一提的是,除了96核心型号用的是12个CCD,64核心及以下型号都是8个CCD,所以有两种布局。
同时,DDR5内存通道减半为4条,PCIe 5.0通道也降至48条,额外的8条PCIe 3.0则增强为32条PCIe 4.0,对于桌面应用来说,这些也是绰绰有余了。
芯片组也改为TRX50,其实和工作站上的WRX90硬件上是一样的,只是规格做了精简。
如果对比竞品至强W-3400系列,那简直就是欺负人了,无论核心数、频率、内存、PCIe 5.0,都是绝对的碾压。
三、型号规格、官方性能:96/64核心大杀四方
线程撕裂者PRO 7000WX系列一共有六款型号,对比上代增加了顶级的96核心7995WX,基准频率2.5GHz,最高加速频率5.1GHz,还有384MB三级缓存。
次旗舰是64核心的7985WX,频率3.2-5.1GHz,对比同样64核心的5995WX分别提高500MHz、600MHz之多。
接下来的32核心7975WX、24核心7965WX、16核心7955WX、12核心7945WX,最高加速频率全部从4.5GHz增加到5.3GHz,基础频率也增加了400-600MHz不等,全部跨过了4GHz的门槛。
热设计功耗一律从280W升至350W,但平均到每个核心上,反而是降低了的,在核心数、频率大增的情况下这点功耗代价是相当值得的。
你可能会问了,如此高端的平台还保留12/16核心?毕竟主流的锐龙9系列都可以做到,而且频率更高。
原因很简单,线程撕裂者的扩展性是锐龙无法媲美的,12/16核心型号针对的就是那些不需要太强计算性能但对扩展要求极高的用户。
PRO 7000WX系列主要用于OEM工作站整机预装,但也会有一些零售版。
PRO 5000WX的时候首发工作站只有联想一家,后来才加入戴尔、超微。
PRO 7000WX会同步有联想、惠普、戴尔的新工作站登场,超微则会稍后跟进,还有大量的各个国家和地区的区域性整机合作伙伴。
再看线程撕裂者7000X系列,将于11月21日零售上市,只有3款型号。
旗舰是64核心的线程撕裂者7980X,规格对应PRO 7985WX。
32核心的7970X、24核心的7960X,则分别对应7975WX、7965WX。
16核心、12核心就没了,否则就和锐龙9系列冲突了。
PRO、HEDT两大平台的区别,就是专业级与消费级的不同,后者除了精简内存、PCIe 5.0规格,还去掉了AMD PRO管理特性。
有趣的是,两大平台其实都开放超频,但是在PRO系列上,OEM系统是不会支持的。如果你能搞到单独的处理器可以试试。
另外,PRO处理器是能安装在HEDT平台TRX50主板上的,HEDT处理器则不能安装在PRO平台WRX90主板上。
说了半天,性能怎么样?这个要下个月才解禁,先来看看官方宣传指标。
首先是代际对比,同样64核心的PRO 7985WX、PRO 5995WX,更强的架构、更高的频率、更广的扩展带来了性能的全面飞跃,最高可以近乎50%。
64核心的PRO 7985WX对比56核心的至强W9-3495WX,轻松领先多达50%。
96核心的PRO 7995WX就是秒杀对手了,V-Ray渲染性能可以领先不可思议的223%。
32核心的PRO 7975WX对比36核心的至强W9-3475X,也是各种遥遥领先。
全线拉出来溜溜,直接把至强W-3400系列全家虐了个遍(除了96核心的Chrome编译性能差点意思)。
还有64核心的7980X,对比56核心的至强W9-3495X也是不遑多让。
性能之外,能效也是线程撕裂者的拿手好戏,平均每核心功耗比竞品低了多达73%,再算上性能的领先,能效可以领先对手2.2倍之多。
AMD说,时间是很宝贵的,在每小时的创作应用中,线程撕裂者可以为你节省多达27分钟,几乎是效率翻倍,所以还有什么理由不选它呢?
四、应用生态优化:35倍性能提升你信吗?
刚才说的各种夸张性能,除了各种基准跑分炫技,更关键的是在实际商用场景中落地。
当然了,对于如此强劲的产品,没有谁可以拒绝,线程撕裂者已经累计拿到了1000多个客户设计,还在快速增长。
客户名单中,也可以看到一些如雷贯耳的大名:阿斯顿马丁、梦工厂、EA、Epic Games、福克斯体育、高盛、工业光魔等等。
在专业领域,要想真正释放硬件的性能潜力,软件的优化、认证是至关重要的。
AMD在这方面也是花费了大量的心思,面对上百款专业级的媒体与娱乐、设计与制造、科学与研究软件,都在大力推进优化与认证,当然还有很多很多的工作要做,提升的空间非常大。
AMD指出,对于线程撕裂者PRO 7000WX系列,应用优化有四大难点,也就是如何高效利用所有核心、Zen 4核心架构与指令集、SoC架构、AVX-512指令。
经过长时间的准备与深入的行业合作,AMD在这几个方面都取得了不俗的成果。接下来就举几个例子。
96个核心192个线程看起来固然威猛,如何高效利用是个难题,关键就是把工作负载并行分布在尽可能多的核心和线程上,也就是采用高度并行化的算法。
比如CAD中常见的3D物体轮廓线绘制,处理500万表面、700万边缘的模型,算法未经优化只能用到16个线程,而在优化后可以用满192线程,效率提升最多达惊人的35倍。
针对Zen架构的设计,AOCC、CLANG/LLVM、VC++编译器,AOCL库、AVX指令经过优化后,都可以获得立竿见影的效果。
其中,AOCL库就有多达12个不同的行业标准数学库优化,可以大大提高科学与高性能计算应用性能。
举例来说,Ansys HFSS电磁模拟性能优化后可提升最多51%,Ansys Mechanical机械分析性能优化后可提升最多达2.8倍。
针对线程撕裂者的SoC架构,包括Chiplet布局、三级缓存体系、内存控制器通道等等,只要适当优化,同样可以获得性能的显著提升。
在这方面,Solidworks Plastics塑料仿真软件、Ansys Fluent计算流体动力学软件、Ansys CFX流体仿真软件都是比较典型的代表,可以额外释放8-13%不等的性能。
五、超频高能预告!夸张的新世界纪录
沟通会后,AMD现场展示了新一代线程撕裂者7000系列惊人的超频潜力。
超频平台有三个,分别是风冷、水冷、液氮,处理器有64核心、96核心,结果各种轻松破纪录,成绩非常夸张。
不过,现在还不能和大家分享具体数据,耐心等等哦。
经过六年四代的演进,随着Zen 4架构的7000系列的诞生,AMD线程撕裂者又达到了全新的层次,无论哪个角度的规格参数都令人目眩,无论哪个角度的应用性能都遥遥领先。
PRO系列几乎就相当于把一台顶级服务器搬到了工作站中:Zen 4 64核心192线程、480MB海量缓存、5.3GHz超高频率、8通道DDR5-5200内存、128通道PCIe 5.0总线……
再苛刻的专业应用在它面前也得臣服,而且合作伙伴、整机产品、优化与认证软件都日渐丰富,令人难以抗拒。
同时,经历了上一代的缺失后,HEDT顶级桌面平台的回归,顺应用户反馈,也给发烧友玩家、专业设计师带来了新的玩具。
后边还有Zen 5、Zen 6架构,真不敢想象又会提升到什么样的高度,更不敢想象什么时候才会被追上。
当然,今天的介绍都停留纸面上。线程撕裂者7000系列的实际表现到底如何,一个多月后见大家就会知道了,快科技会同步放出64核心7980X、32核心7970X的首发评测!