其实,Lunar Lake即酷睿Ultra 200V系列处理器中已经率先应用Xe2架构的核显,也就是锐炫140V、锐炫130V,如今终于来到了桌面独立显卡,未来还会陆续进入笔记本独立显卡、车载方案、嵌入式方案等。
Intel表示,Xe2架构相对于初代,重点就是提升各方面的效率,包括更高的利用率、更好的负载分配、更好的软件开销等等。
同时,Xe架构诞生两年多来,Intel一直在努力完善驱动、游戏的生态支持,先后迭代了50多个版本的驱动,新游戏0日支持超过120款,游戏适配优化数量也比当初增加了2.5倍。
这就是Xe2的整体架构图,主体依然是渲染切片,这是整个SoC芯片的基本结构,配合指令前端、二级缓存构成一个整体,和第一代如出一辙,基本没啥变化。
每个渲染切片内包含4个Xe核心(计算引擎)、4个光追单元,以及4个采样器、几何单元、光栅单元、HiZ单元(层次Z)、两个像素后端等模块。
各个部分的具体变化,下边拆开来讲。
二代Xe2核心除了继续原生支持SIMD16指令,还增加了对SIMD32的支持,虽然不是原生,但执行SIMD32指令是没问题的,从而能够更好地分配计算资源,还支持64位原子操作。
每个Xe核心内部,包含8个512位的矢量引擎(XVE)、8个2048位的XMX引擎,比上代减少了足足一半,可能调度效率会更高、更灵活。
这一次,Intel为每个Xe核心加入了多达256KB容量的一级缓存、本地共享缓存(SLM),大大减轻了对二级缓存的依赖。
XVE矢量引擎除了支持SIMD16/SIMD32,还支持矩阵扩展,包括INT2、INT4、INT8、FP16、BF16、TF32等数据类型,其中TF32是针对AI优化的数据格式还扩展了Math、FP64支持。
另外,它还支持三路并发,包括FP、INT/EM、XMX,指令调度和执行效率更高。
对比初代,XVE引擎现在更小巧(基本可以视为砍半),应该也会更灵活。
光追部分,Intel也做了大刀阔斧地改进,整体结构没太大变化,但是规模和性能高得多,比如遍历流水线从2条增至3条、方盒相交增大1.5倍、三角形相交增大2倍、BVH(包围盒层次结构)缓存增大2倍来到16KB。
这样的规模当然远远没法和NVIDIA相比,甚至不如AMD,但提升也是相当明显的,应该能够达到基本可用的水平,当然更有赖于游戏的适配和优化。
媒体引擎包含两个相同的多媒体解码器(MFX),但注意它和Lunar Lake里集成的核显媒体引擎略有不同,没有XMX硬件编解码单元,因此不支持VVC(H.266)硬解码。
这就是BMG-G21,二代锐炫显卡首发的GPU核心芯片。
它总共有5个渲染切片、20个Xe2核心、20个光追单元、160个XMX引擎、20个纹理采样器、10个像素后端,以及2个多格式X编解码器,还有多达18MB二级缓存、192位显存。
各家的GPU架构设计不同,所以核心规模不具备直接可比性,但如果将这些与NVIDIA GPU类比,那就相当于80个ROP光栅单元、160个TMU纹理单元。
这是因为,纹理采样器转换为TMU的比例是1:8,像素后端与ROP的转换比例同样是1:8。
按照Intel的首发,经过优化的第二代Xe核心,性能提高了70%,能效提高了50%。
而在一组微基准测试中,性能提升幅度最高可达惊人的12.5倍。
比如在《堡垒之夜》中,上图白线代表锐炫A系列,蓝线代表锐炫B系列,单位是毫秒,时间则越短越好。
锐炫A系列执行一帧渲染的时间为19.33毫秒,锐炫B系列则缩短到了13.01毫秒。
关键是,每一个渲染环节的效率都更高了,比如直接执行节省了1.1毫秒,间接执行节省了1.5毫秒等。
这也就证明,锐炫B系列的每一个地方都做了微架构优化,都可以节省渲染时间,从而提升渲染效率和性能。