极致性价比！Intel锐炫B580/B570显卡正式发布：性能飙升12.5倍-快科技-科技改变生活

其实，Lunar Lake即酷睿Ultra 200V系列处理器中已经率先应用Xe2架构的核显，也就是锐炫140V、锐炫130V，如今终于来到了桌面独立显卡，未来还会陆续进入笔记本独立显卡、车载方案、嵌入式方案等。

Intel表示，Xe2架构相对于初代，重点就是提升各方面的效率，包括更高的利用率、更好的负载分配、更好的软件开销等等。

同时，Xe架构诞生两年多来，Intel一直在努力完善驱动、游戏的生态支持，先后迭代了50多个版本的驱动，新游戏0日支持超过120款，游戏适配优化数量也比当初增加了2.5倍。

这就是Xe2的整体架构图，主体依然是渲染切片，这是整个SoC芯片的基本结构，配合指令前端、二级缓存构成一个整体，和第一代如出一辙，基本没啥变化。

每个渲染切片内包含4个Xe核心(计算引擎)、4个光追单元，以及4个采样器、几何单元、光栅单元、HiZ单元(层次Z)、两个像素后端等模块。

各个部分的具体变化，下边拆开来讲。

二代Xe2核心除了继续原生支持SIMD16指令，还增加了对SIMD32的支持，虽然不是原生，但执行SIMD32指令是没问题的，从而能够更好地分配计算资源，还支持64位原子操作。

每个Xe核心内部，包含8个512位的矢量引擎(XVE)、8个2048位的XMX引擎，比上代减少了足足一半，可能调度效率会更高、更灵活。

这一次，Intel为每个Xe核心加入了多达256KB容量的一级缓存、本地共享缓存(SLM)，大大减轻了对二级缓存的依赖。

XVE矢量引擎除了支持SIMD16/SIMD32，还支持矩阵扩展，包括INT2、INT4、INT8、FP16、BF16、TF32等数据类型，其中TF32是针对AI优化的数据格式还扩展了Math、FP64支持。

另外，它还支持三路并发，包括FP、INT/EM、XMX，指令调度和执行效率更高。

对比初代，XVE引擎现在更小巧(基本可以视为砍半)，应该也会更灵活。

光追部分，Intel也做了大刀阔斧地改进，整体结构没太大变化，但是规模和性能高得多，比如遍历流水线从2条增至3条、方盒相交增大1.5倍、三角形相交增大2倍、BVH(包围盒层次结构)缓存增大2倍来到16KB。

这样的规模当然远远没法和NVIDIA相比，甚至不如AMD，但提升也是相当明显的，应该能够达到基本可用的水平，当然更有赖于游戏的适配和优化。

媒体引擎包含两个相同的多媒体解码器(MFX)，但注意它和Lunar Lake里集成的核显媒体引擎略有不同，没有XMX硬件编解码单元，因此不支持VVC(H.266)硬解码。

这就是BMG-G21，二代锐炫显卡首发的GPU核心芯片。

它总共有5个渲染切片、20个Xe2核心、20个光追单元、160个XMX引擎、20个纹理采样器、10个像素后端，以及2个多格式X编解码器，还有多达18MB二级缓存、192位显存。

各家的GPU架构设计不同，所以核心规模不具备直接可比性，但如果将这些与NVIDIA GPU类比，那就相当于80个ROP光栅单元、160个TMU纹理单元。

这是因为，纹理采样器转换为TMU的比例是1:8，像素后端与ROP的转换比例同样是1:8。

按照Intel的首发，经过优化的第二代Xe核心，性能提高了70％，能效提高了50％。

而在一组微基准测试中，性能提升幅度最高可达惊人的12.5倍。

比如在《堡垒之夜》中，上图白线代表锐炫A系列，蓝线代表锐炫B系列，单位是毫秒，时间则越短越好。

锐炫A系列执行一帧渲染的时间为19.33毫秒，锐炫B系列则缩短到了13.01毫秒。

关键是，每一个渲染环节的效率都更高了，比如直接执行节省了1.1毫秒，间接执行节省了1.5毫秒等。

这也就证明，锐炫B系列的每一个地方都做了微架构优化，都可以节省渲染时间，从而提升渲染效率和性能。