二、安培构架带来了哪些改进
相较上一代图灵构架的GeForce RTX 20系列显卡,安培构架主要带来的如下改进:
1、8nm制程工艺
图灵构架使用的三星12FFN工艺,在754mm2的面积内集成了186亿只晶体管。安培构架使用的是三星8N工艺,在628mm2的芯片内部集成了280亿只晶体管。算下来晶体管密度提升了83%之多。
2、整合INT32与FP32单元
图灵的INT32单元只能做整数运算,闲置率很高。
为了解决这个问题,提升INT32单元的利用率,NVIDIA改进了INT32单元,使之不仅可以运行整数运算,也能进行单精度浮点运算,相当于整合了INT32和FP32单元,因而使得以FP32单元计数的GPU流处理器数量直接翻倍,单精度浮点性能也同样翻倍。
3、将ROP单元从内存控制器中分离
传统的ROP单元被集成在内存控制器中,阉割GPU位宽会降低ROP单元数量。而NVIDIA安培构架将ROP单元变成了GPC的一部分,每个GPC含有16个ROP单元,只要GPC数量不被阉割,ROP单元数量就不会减少。
比如GeForce RTX 3070与GeForce RTX 3080一样都有6组GPC,ROP单元数量同样都是96个。
4、第二代RT Core
NVIDIA通过提升插值算法,提升了光线追踪技术在动态模糊效果下的精确度,使得NVIDIA安培构架的光追性能得到了翻倍提升。第一代RT Core可以提供10Giga Rays/s的性能,第二代RT Core可以达到20Giga Rays/s。
5、第三代Tensor Core
第三代Tensor Core的效率是第二代的4倍,即便安培构架将每个SM多单元流处理器中的Tensor Core减半,它依然能达到图灵2倍的效能。
6、RTX IO技术
这项技术可以让游戏在加载时完全规避CPU,直接将游戏数据包从SSD写入到GPU的显存中,由GPU替代CPU进行数据解包。GPU的整数/浮点性能数十倍于CPU,可以瞬间完成数据的解包工作。
不过这项技术需要微软DirectStorage API的支持,预计2022年会正式开始应用。
除了以上技术之外,NVIDIA安培构架还支持PCIe 4.0、NVIDIA Reflex等技术,就不再一一叙述了。