一、前言:它的使命就是干掉RX 6900 XT!
RTX 3080 Ti诞生所经历的曲折可谓一言难尽!在NVIDIA最初的计划中,RTX 3080 Ti拥有20GB的GDDR6X显存,显存位宽和带宽与RTX 3080相同。不过谁也不曾料到AMD RDNA2构架的强悍远超出NVIDIA以及所有玩家的事先预料。
特别是RX 6900 XT的性能与NVIDIA顶级的RTX 3090相差无几,但是售价仅有7999元,而后者则是11999元。
很显然,按照原定计划,显存带宽被大幅阉割的RTX 3080 Ti对上RX 6900 XT时并无必胜的把握。为此,NVIDIA重新设计了RTX 3080 Ti核心,虽然显存容量减少到了12GB,但是完整的384Bit位宽得到了保留,显存带宽远超RTX 3080。
NVIDIA赋予RTX 3080 Ti的使命就是干掉RX 6900 XT!
完整的GA102共有7组GPC,每组GPC有6组TPC加16组ROP单元,总计是42组TPC、共计10752个流处理器、112个ROP单元、
同样的完整的GA102核心的每个TPC有2组SM单元、2个RT Core、8个Tensor Core、8个纹理单元。
而RTX 3080 Ti所使用的GA102-225-A1核心依旧保持了7组GPC,112个ROP得以全部保留。不过NVIDIA在其中的2组GPC中分别屏蔽掉了一组TPC。
因此它只有40组TPC、算下来就是10240个流处理器、320个纹理单元、320个Tensor Core。
RTX 3080 Ti GPU-Z参数
RTX 3080 Ti的详细规格如下:
关于安培GPU的构架此前我们已经有过详细的介绍,在这里我们化繁为简,将其做了简单的归纳如下:
1、整合INT32与FP32单元
图灵的INT32单元只能做整数运算,闲置率很高。为了解决这个问题,提升INT32单元的利用率,NVIDIA改进了INT32单元,使之不仅可以运行整数运算,也能进行单精度浮点运算,相当于整合了INT32和FP32单元,因而使得以FP32单元计数的GPU流处理器数量直接翻倍,单精度浮点性能也同样翻倍。
2、RTX IO技术
这项技术可以让游戏在加载时完全规避CPU,直接将游戏数据包从SSD写入到GPU的显存中,由GPU替代CPU进行数据解包。GPU的整数/浮点性能数十倍于CPU,可以瞬间完成数据的解包工作。
不过这项技术需要微软DirectStorage API的支持,预计2022年会正式开始应用。
3、NVIDIA DLSS:
从游戏内的物理和动画模拟到实时渲染和AI增强的直播功能,AI正在引发一场游戏革命。借助GeForce RTX GPU的专用AI处理器Tensor Cores,NVIDIA DLSS在提升帧率的同时,生成精美、清晰的游戏图像,为玩家提供更大的性能空间,以最大限度地提高光线追踪设置并提高输出分辨率。现在已有超25款游戏支持DLSS,并且数量还在逐月递增。
4、NVIDIA Reflex:降低输入延迟
NVIDIA Reflex技术可以降低系统延迟(或称输入延迟),使游戏的响应速度更快,使玩家在多人竞技游戏中占据优势。
在传统的PC体系中,虽然强力的显卡可以轻松渲染出足够高的帧率,但这些游戏画面都需要CPU进行调度分配,不合理的调度会使得CPU手忙脚乱,玩家鼠标发出的指令其实无法第一时间到达游戏世界,这个过程我们称之为延迟。
为了降低系统延迟,帮助GPU渲染的图像能够第一时间迅速呈现在屏幕,NVIDIA Reflex技术也随着RTX 30系列的发布而登场。NVIDIA Re flex SDK被直接植入到了游戏,
NVIDIA Reflex SDK能够更好的控制CPU的运行速度,允许及时向GPU提交例如点击鼠标的关键动作,同时还确保GPU没有间断运行,保证画面的流畅输出。
而最新发布的360Hz刷新率的电竞G-Sync显示器还内建了延迟分析器,可以让你更系统化的量化电竞游戏中的延迟数据。 NVIDIA Reflex技术是职业电竞选手和精英玩家唯一专业的选择。
5、第二代RT Core
光线追踪是一种在计算机世界中完美再现真实世界的渲染技术,它的算法符合物理规律,不会像传统光栅化渲染那样容易产生各种问题。比如一个典型的例子就是光栅化算法无法正确处理焦散这种光学现象,炎热的夏天阳光透过游泳池在水底投射得斑纹光影就是典型焦散,传统光栅化算法使用的是动态贴图,看起来虽然也像那么回事,但是无法和玩家互动,例如当角色进入泳池游泳就无法进行正确处理渲染,画面往往出现不合理渲染效果,或者游戏中的阳光位置变化,天气变化对泳池光影的影响也无法正确表现。而光线追踪技术可以实时自动的演算焦散效果,让画面更加真实。
但是光线追踪最大的问题是需要消耗巨大的计算资源,显示器就像一块窗子,虚拟的每一条光线都会穿过屏幕像素直达场景,并从存储器中查找会被击中的三角形,而且每条射线都要做这个动作,如果希望效果好的话,每像素可能还需要若干条甚至上万条射线。
如果场景里有几千万个三角形,逐个三角形做遍历求交,就需要消耗大量的高速缓存和总线带宽,计算单元需要浪费大量时间等待三角形数据传输。
RTX 30系列显卡基于新一代NVIDIA Ampere架构,拥有第二代光线追踪计算核心,相比于第一代光线追踪计算核心,RTX 30系列的光线追踪核心性能足足提高了1.7倍。而且硬件上特别支持对运动模糊场景的光追效果计算。从而带给玩家更流畅的光线追踪游戏视觉体验。
特别是体验《赛博朋克2077 》这样支持光线追踪技术的新一代游戏,RTX 30系列能够轻松驾驭赛博朋克的颓废风格,流畅渲染都市夜晚霓虹灯下,大量的赛车,追逐,打斗等运动场景。为玩家带来最极致的视觉体验。
6、第三代Tensor Core
NVIDIA 自 Volta架构开始,在GPU中增加了针对深度学习加速设计的矩阵运算单元,并称之为 Tensor Core(张量计算核心)。
在图灵架构里,NVIDIA 引入了第二代 Tensor Core,而到了RTX 30系列所采用的Ampere架构,则进化到了第三代Tensor Core。
深度学习技术在图形图像各个领域都有着价值巨大的应用,而在游戏体验中则是被称为深度学习超采样的DLSS 技术。最新一代的DLSS 能够使得游戏画质极大提升,细节和锐度媲美、甚至超越原生分辨率。
DLSS 本质是一种图像重建算法,其加原理其实也很简单。开启DLSS后,游戏引擎中的诸如动态光源、阴影的计算,封闭空间环境遮挡(SSAO)、屏幕空间反射(SSR),甚至实时光线追踪。都会被降低到1/2甚至1/4像素的低分辨率下运行,GPU的负担大幅度减轻。渲染得出的最终场景会通过Tensor Core结合DLSS进行高分辨率重建,从而用较低的GPU负载获得流畅且画质极佳的游戏体验效果。
和图灵相比,安培的张量性能可以最高达到 2.7 倍。这使得RTX 30系列可以轻松使用DLSS技术在4K 甚至8K分辨率下,依然带给玩家最极致的光线追踪游戏体验效果。
7、GeForce Experience功能
所有NVIDIA GeForce GPU都能从GeForce Experience中获益,数以千万计的玩家都在使用该工具来优化游戏设置、记录和上传游戏、直播游戏、拍摄屏幕截图,以及下载和安装Game Ready驱动。
8、一键自动式GPU调校
GeForce Experience现已支持GPU调校,它能使用高级扫描算法自动创建GPU超频配置文件。
9、增强型游戏内监控悬浮窗
GeForce Experience强大的游戏内悬浮窗功能现已能让玩家查看更多详细的性能统计信息、温度和延迟指标,包括 NVIDIA Reflex的延迟分析器统计信息。