二、图灵构架解析:没有了DLSS和光追 图灵到底还有哪些改进?
尽管砍掉了RT核心和Tensor核心,但是核心代号为TU116-400-A1的GTX 1660 Ti依旧隶属于Turing构架,下面让我们来看看Turing构架与Pascal之间的区别:
1、加入整数运算单元
Turing的核心构架完全不同于以往的产品,从Kepler到Maxwell到再到Pascal,每一个CUDA核心都就是由FP32单元构成。
而Turing每一个CUDA核心除了有一个FP32的单精度浮点单元之外,还有对应有一个INT32的单精度整数单元。
在现代游戏(例如古墓丽影:暗影)中,每100条指令操作中有62条是浮点指令操作,38条是整数指令操作。以往GPU在只能单独、交替的执行浮点和整数运算,图灵构架加入了整数运算单元之后,可以与浮点单元一起并发执行,极大的提升了流处理器的执行效率。
2、自适应渲染技术
自适应渲染技术( Adaptive Shading)就是通过对画面非主要元素(比如赛车中快速移动的侧景)进行像素合并,从而减少流处理器的渲染工作量量,以便部分提高帧数。
例如上图,可以在减少40%的像素着色的情况下,获得相同的画质。
此外,在运行游戏时,很多时候相邻的帧与帧之间的画面存在着巨大的重复,这种现象在偏向静态的游戏中尤为明显。图灵GPU可以识别这些相似的画面,并在渲染下一帧时直接调用前一帧渲染成果,以此节省大量GPU资源。
在支持自适应渲染技术的《德军总部2》中,GTX 1660 Ti达到GTX 1060 6GB 1.5倍的性能表现。
3、统一缓存构架
GTX 1660 Ti拥有24组TPC,每组TPC包含2个SM阵列,每个SM阵列配备64KB一级缓存,一共是1536KB L1 Cache,三倍于GTX 1060 6GB。
图灵整合了L1缓存与共享缓存(shared Memory),可以分配32K给L1 Cache,64K给共享缓存,也能随着需求的变化分配64K为L1 Cache,32K为共享缓存。
相比于Pascal的每组TPC对于L1 Cache进行单路16Bit读写,Turing则增加到双路32Bit,L1缓存的带宽达到了帕斯卡构架的4倍,同时延迟也大大降低。
4、专用的FP16核心
在Pascal年代,除了P100之外,其他所有型号的GPU都砍掉了半精度浮点单元(FP16核心),要进行FP16运算只能使用FP32核心进行模拟,因此它的FP16浮点性能与FP32是相同的,而且还需要与FP32分享浮点性能。
而在TU116构架中,专用的FP16又重新回归,浮点运算性能达到了FP32二倍,比如GTX 1660 Ti拥有11TFLOPs的FP16运算性能,二倍于FP32。
NVIDIA此举是意识到现代的游戏中,越来越多的场景并不一定需要高精度浮点单元,比如《孤岛惊魂5》中的水面效果,使用FP16就能搞定(RTX显卡则是使用Tensor核心来完成此项任务)。