一、前言:RTX 3080的到来 和说好的完全不一样
3D图形卡领域的第一次革命是1999年NVIDIA公司推出的GeForce 256,它集成了T&L技术(硬件光影转换),将光影处理从CPU中接手过来,解放了CPU的同时也极大的提高了游戏的性能以及画面的真实性。
T&L技术之后3D图形技术的另一次飞跃则是2006年的基于统一渲染构架的DX10。它将此前的Vertex Shader(顶点着色器)和Pixel Shader(像素着色器)统一为streaming processor(流处理器),自此之后设计的GPU都不会再开辟独立的管线,而是所有的流处理器运算单元都可以任意处理任何一种Shader运算,使得GPU的运算效率得到了成倍的提升。
尔后10年,GPU领域没有突破性的技术出现,DX12属于雷声大雨点小,对性能的提升并没有想象中的那么美好,Physx则是曲高和寡。
直到2018年8月,实时光线追踪技术的出现,将3D游戏的画面推向了一个新的高度,玩家第一次在游戏中见到了如同科幻电影般的光影世界。
图灵GPU发布之后,NVIDIA的市值一路飙升,甚至超越了Intel。财大气粗的老黄没有让我们等太久,仅仅二年的时间,NVIDIA再一次革新了GPU构架。
2020年9月4日发布的基于新一代Ampere安培架构的GeForce RTX 30系列显卡统一了INT32与FP32单元,原本只能做整数运算的INT32单元现在既能做整数运算,也能做单精度浮点运算。
这一项技术革新将传统意义上的流处理器数量直接翻倍,同时GPU的浮点运算能力也提升了一倍。于是我们就看到了RTX 3080的流处理器数量直接从RTX 2080的2954个暴增到了8704个,恍然间仿佛又回到了8800GTX时代。
完整的GA102共有7组GPC,每组GPC有12组SM单元外加16组ROP单元,总计是84组SM单元与112个ROP单元。
RTX 30系列显卡视乎规格不同启用的SM单元总数不同,RTX 3090是7组TPC、24组SM单元与112个ROP单元,RTX 3080是6组TPC、68组SM单元与96个ROP,RTX 3070是6组TPC、46组以及96个ROP。
这是GA102核心的SM单元构架,每个SM单元有64个INT32整数核心、64个FP32单精度浮点核心、2个FP64单元(未标示出来)、4个第三代TENSOR COREs以及以及1个第二代RT CORE。
这里的INT32单元可以根据需求进行单精度整数或者浮点运算,也就是说理论上一个SM单元可以拥有高达128个FP32单元。
融合了一级缓存与共享缓存,每SM单元中缓存总容量为128KB,可以按需灵活分配给一级缓存与共享缓存(Shared Memory),可以是64KB+64KB的组合,也可以是32KB+96KB的组合。
此次NVIDIA一共发布了3款GA10X核心的显卡型号。
RTX 3090:拥有7组GPC,82组SM单元共计10496个流处理器、112个ROP、328个纹理单元、328个第三代Tensor Cores、82个第二代RT Cores。搭配24GB GDDR6X显存,显存频率19.5GHz、
位宽384Bit,带宽936GB/s。相比于Titan RTX快了50%,9月24日上市,售价11999元。
RTX 3080:拥有6组GPC,68组SM单元共计8704个流处理器、96个ROP、272个纹理单元、272个第三代Tensor Cores、68个第二代RT Cores。搭配10GB GDDR6X显存,显存频率19GHz、
位宽320Bit,带宽760GB/s。综合性能是RTX 2080的二倍,9月17日上市,售价5499元。
RTX 3070:GA104核心,拥有6组GPC,46组SM单元共计5888个流处理器、96个ROP、184个纹理单元、184个第三代Tensor Cores、46个第二代RT Cores。搭配8GB GDDR6显存,显存频率14GHz、位宽256Bit,带宽448GB/s。综合性能与RTX 2080 Ti但价格只有一半,10月份上市,售价3899元。
RTX 3080的详细规格如下:
二、安培构架解析:流处理器数量翻倍是否言过其实?
在图灵诞生之前,GPU核心中并没有单独的INT32单元,从Kepler到Maxwell到再到Pascal,每一个CUDA核心都就是由FP32单元构成。
而Turing每一个CUDA核心除了有一个FP32的单精度浮点单元之外,还有对应有一个INT32的单精度整数单元。
在现代游戏(例如古墓丽影:暗影)中,每100条指令操作中有62条是浮点指令操作,38条是整数指令操作。以往GPU在只能单独、交替的执行浮点和整数运算,图灵构架加入了整数运算单元之后,可以与浮点单元一起并发执行,可以将流处理器的执行效率提升36%。
不过在游戏中整数运算量远远低于浮点运算量(38:62),因此经常会有大量的INT32单元被闲置。为了解决这个问题,提升INT32单元的利用率,NVIDIA改进了INT32单元,使之不仅可以运行整数运算,也能进行单精度浮点运算。
如上图所示,在安培构架中,每个SM单元中的64个FP32单元依旧保留,而INT32单元则被赋予了更多的使命,它不仅能进行整数运算,但是在不需要进行整数运算的情况下,它也能和FP32一样进行单精度浮点运算。
也就是说,每个SM单元可以同时执行4x(16FP32+16FP32)=128个FP32运算,或者4x(16FP32+16INT32)=64个FP32+64个INT32运算。
在理想的情况将下,一个SM单元中的64个INT单元全部都做单精度浮点运算的话,那么流处理器(FP32单元)数量将会直接变成128个。相对而言,图灵构架一个SM单元只有固定的64个流处理器。
RTX 3080拥有68个SM单元,理论上能达到8704个流处理器的规模。很多同学可能怀疑NVIDIA在骗我们,这些流处理器是否能够同时工作还是个问号。
下面我们使用AIDA64 GPGPU进行验证,看看RTX 3080的8704个流处理器是否言过其实。
如果依据1710MHz的频率和8704个FP32单元来计算RTX 3080的理论浮点性能应当是29767GFLOPS。
实测RTX 3080的单精度浮点运算性能是29117GFLOPS,略低于理论值。这是因为320W TDP的限制,RTX 3080在进行GPGPU单精度浮点测试时,GPU核心的满载频率只有1672MHz并没有达到默频的1710MHz。
不过从这里可以看出,RTX 3080的的确确拥有8704个流处理器(FP32单元),现在已经没有什么好质疑的了。
实测RTX 2080 Ti的单精度浮点运算性能是16626GFLOPS,接近RTX 3080的6成。
实际上,在进行GPGPU测试时,RTX 2080 Ti的运行频率达到了1910MHz,所以虽然流处理器数量只有一半,但是浮点性能却能达到6成。
RTX 2080在进行GPGPU测试时,运行频率更是高达1938MHz,单精度浮点运算性能达到了11416GFLOPS,约为RTX 3080的40%。要知道RTX 2080 2944个流处理器只相当于RTX 3080 8704个流处理器的1/3。
所以现在大家应该知道了RTX 3080 TDP如此之高的原因!即便是320W的TDP,也难以满足让8704个流处理器以较高的频率运行的功耗需求。
三、安培构架解析:RTX IO技术实现“秒进游戏”
多年以前,当笔者还在用机械硬盘的时候,想象着如果硬盘能像内存一样快,就可以秒进游戏,不用再等待漫长的加载了!
但实际上,可能很多同学已经发现了,从HDD升级到SSD之后,游戏的载入速度会有显著的提升。但是达到一个程度之后,无论是多快的SSD,都难以继续提升载入速度了。
这是因为游戏加载速度不仅仅只与SSD的读写速度有关,CPU的性能同样也是非常重要的影响因素。
索尼新一代的次世代主机PS5有一个卖点,凭借着读取速度高达5.5GB/s的高性能SSD,可以实现“秒进游戏功能”。
不过事实上,这里的秒进游戏是有限制的,它只是进入了游戏的菜单界面,并没有进入能够控制人物行动的游戏画面。并且实际上即便PS5的SSD读取速度再翻倍增长到10GB/s,也难以实现秒进游戏画面。
那么这是为什么呢?
传统的游戏数据,首先要从磁盘读取到内存。然而从硬盘复制过来的游戏数据包是无法直接使用的,需要CPU先将数据解包。特别是GPU要使用的时候,数据通过CPU解包之后再经由PCIe总线传递给显存。
当SSD速度足够快的时候,CPU解包速度就决定了游戏加载时间的长短。然而CPU只是一块通用处理器,进行专业计算时其运算性能极其有限。比如市面上常见的MMORPG以及电子竞技游戏,最强的i9-10900K处理器大概要经过10秒的运算才能完成全部的解包工作。
也就是说,即便使用超大容量DDR4内存做成虚拟硬盘,将整个游戏放入读写速度超过50GB/s的内存盘中进行读取,也需要10秒左右的时间才能完全进去游戏。
NVIDIA的RTX IO技术,可以让游戏在加载时完全规避CPU,数据包直接从SSD写入到GPU的显存中,由GPU替代CPU进行数据解包。GPU的整数/浮点性能数十倍于CPU,可以瞬间完成数据的解包工作。
此时若你当你配备了足够快速的SSD(比如Intel 905P),就能实现秒进游戏的功能,从此不用再等待漫长的游戏加载过程。
RTX IO技术需要DirectStorage API的支持。根据微软的计划,DirectStorage在2021年会向游戏开发商递交开发预览,正式开始应用可能需要等到2022年。
四、安培构架解析:新的ROP单元、NVIDIA Reflex 、NVIDIA Broadcast
1、ROP单元的改变
也许很多同学不知道,以往的NVDIA GPU,ROP单元一直都是被集成在内存控制器中!
也就是说同样一颗GPU,如果位宽不变,只是阉割流处理器的话,它的ROP数量是不会变的。例如GTX 1080与GTX 1070同为GP104核心,位宽都是256Bit,所以他们的ROP数量都是64个。即便是GTX 1080有2560个流处理器,GTX 1070被阉割到了1920个也不会对ROP数量产生影响。
而同一颗GPU核心,如果阉割位宽的话,那么它的ROP数量相应地变少!例如GTX 1080 Ti与TITAN X Pascal同为GP102核心,TITAN X Pascal拥有完整的384Bit位宽,因而它的ROP数量也是完整的96个。而GTX 1080 Ti由于显存位宽被阉割到了352Bit,ROP数量也就减少到了88个。
从GA10x GPU开始,ROP单元正式成为了GPC的一部分,用于匹配流处理器,以改善抗锯齿性能。完整的GA102核心有7个GPC,每个GPC内置16个GPC,共112个ROP。
2、NVIDIA Reflex
游戏玩家,特别是网络游戏对延迟很敏感,这个延迟不仅仅跟网络、显卡性能有关,还跟系统有关,包括键鼠的输入延迟等。
NVIDIA Reflex就是一款可以降低延迟的工具,在支持该技术的游戏中,如《Apex英雄》、《使命召唤:战区》、《堡垒之夜》、《VALORANT》等热门电竞游戏,可将延迟降低50%。
此外,NVIDIA Reflex未来还会有个Reflex延迟分析器(Reflex Latency Analyzer),它可监测鼠标点击,并测量屏幕上相应像素变化所需的时间,比如枪焰闪光,效果堪比超过7000美元的专用高速摄像机和设备。
3、NVIDIA Broadcast:游戏直播助手
如今游戏跟直播息息相关,NVIDIA Broadcast软件可以让游戏主播更加轻松省力,它通过显卡的AI加速实现了多种功能,比如噪音消除、虚拟背景、自动框显,从而提升麦克风和网络摄像头的效果。
五、图赏:有史以来做工最好的公版显卡 很完美的风道设计
包装盒的风格从图灵时代的绿黑配色变成了纯黑色。
打开包装盒除了显卡之外,还附赠一条双8Pin转12Pin的转接线。
显卡的正面有一个风扇,吹出的热风是直接从I/O接口处排出,可以极大程度上缓解机箱的散热压力。
背面也有一个风扇,风是直接往机箱下面吹,并不是像部分玩家想象的那样将热风吹向了CPU。
由于没有PCB的阻挡,即便是在较低的转速下,风扇也能够更加轻松的吹透散热鳍片。
顶部视角图,中间有一个12Pin供电接口。
12Pin接口特写。
底部视角图。
需要注意的是,虽然顶部与顶部看起来有鳍片暴露在外,但实际上这两2处并不会出风,也就是不会有热量排出,可以避免伤害通常位于显卡下面的NVMe SSD,不至于温度过高。
背面的风扇,与正面的风扇一样,支持智能启停。
取消了Type-C接口,只有3个DP 1.4与一个HDMI 2.1接口。
拆下来的散热器。
散热底座周围都是大面积的均热板,GDDR6X显存也有导热背贴覆盖,显存的温度也能得到很好的控制。
金属背板。
非常奇特的PCB设计。18相供电电路设计,另外还有2个空焊位,应该会在RTX 3090补齐,届时会有20相供电。
PCB板的背面,由于空间原因,供电电容被放在了这一面。
NVIDIA非常激进,每一相供电竟然配备了3个高成本的钽电容。
GA102-200-KD-A1核心,8704个流处理器,核心面积628.4mm2,拥有283亿个晶体管。
供电电路特写。
美光的GDDR6X显存,一共有10颗,单颗容量1GB,总容量10GB。频率19GHz,位宽320Bit,显存带宽760GB/s。
12Pin供电接口填写。
输出接口特写。
PCB背面的钽电容。
六、测试平台:全核5.2GHz的i9-10900K + 皇家戟4000MHz C15 32GB内存
在i9-10900K与锐龙9 3900X之间纠结了一下,最终还是选择了i9-10900K处理器。为了降低CPU的瓶颈效应,我们将i9-10900K的核心频率超频到了5.2GHz,Ring频率超频到了4.8GHz。
主板用的是ROG MAXIMUS XII EXTREME。这款主板采用16+0供电,16相供电全部给了CPU核心,0相给核显。MosFET升级为TDA21490,这是目前最高规格的一体化MOSFET,导通电流也从55A提高到了90A,可以轻易提供超过1000W的输出功率。
芝奇皇家戟F4-4000C15D 8GBx4套装,不仅拥有4000MHz的频率,15-16-16-36的时序也是低的吓人,比绝大部分3000MHz频率的内存都要低,不过默认电压1.5V也算是比较高的了。
长江存储致钛PC005 Active 512GB SSD,顺序读写速度分别为3500MB/s,2900MB/s。不依赖模拟SLC缓存也能保持550MB/s的稳定写入速度,同时寿命远远高于市面上绝大多数TLC SSD。
酷冷至尊P360 ARGB水冷散热器,应该是市面上颜值最高也最易安装的水冷散热器,可以很轻松的压制5.2GHz的i9-10900K处理器。
新谷昆仑KL750G金牌电源,单路12V输出电流可达62A,744W的12V输出功率已经接近750W的额定功率。
全模块化设计。
华硕玩家国度PG27UQ ROG 27英寸IPS电竞显示器。
4K UHD(3840*2160)分辨率、4ms响应时间、144Hz刷新率、G-Sync 技术、IPS+量子点面板、10bit色彩、DisPlay HDR1000认证。依旧是目前市面上顶级的电竞显示器。
七、理论性能测试:3DMark Fire Strike Extreme首破2万 默频可达2025MHz
1、3DMark Time Spy
在2K分辨率3DMark Time Spy测试中,RTX 3080图形分数达到了17698分,核心温度最高76℃,核心运行最高频率为1965MHz,最高风扇转速1787RPM,最高功耗329W。
在4K分辨率3DMark Time Spy Extreme测试中,RTX 3080图形分数达到了8876分,核心温度最高76℃,核心运行最高频率为1750MHz,最高风扇转速1810RPM,最高功耗335W。
从3DMark Time Spy的成绩来看,RTX 3080在2K分辨率下的分数比RTX 2080高了将近7000分,领先幅度为62%;与RTX 2080 Ti相比,也能多出3630分,领先幅度为26%。
在4K分辨率下,RTX 3080比RTX 2080多了3787分,领先幅度来带了74%;相比RTX 2080 Ti也有2249分的优势,强了34%左右。
2、3DMark
在2K分辨率3DMark Fire Strike Extreme测试中,RTX 3080图形分数达到了20979分,核心温度最高68℃,核心运行最高频率为2025MHz,最高风扇转速1323RPM,最高功耗333W。
在4K分辨率3DMark Fire Strike Ultra测试中,RTX 3080图形分数达到了10785分,核心温度最高63℃,核心运行最高频率为1995MHz,最高风扇转速1521RPM,最高功耗322W。
RTX 3080是第一张3DMark Fire Strike Extreme图形分数破2万的显卡。在2K分辨率下,它比RTX 2080多了7897分,领先幅度为60%;比RTX 2080 Ti则要强了29%。
到了4K分辨率下,RTX 3080能比RTX 2080多4403分,领先优势为70%,同时比RTX 2080 Ti也要快了34%。
八、1080P分辨率测试:5.2GHz的i9-10900K也无法发挥它的全部性能
1、APEX英雄
《Apex英雄》没有提供测试程序,为了减少测试时变量的干扰,我们选取在训练场进行帧数测试,测试时手动调整为最高画质。我们在训练场录得的帧率与实战时的帧率较为接近,因此有一定的参考价值。
在《APEX》中,RTX 3080的帧率达到了284FPS,比RTX 2080 Ti高出51帧,比RTX 2080高了104帧。
2、使命召唤16:战区
《使命召唤:战区》在1080P分辨率最高画质下,RTX 3080能轻松跑出221FPS,比RTX 2080 Ti高了48帧,比RTX 2080多出64帧。
3、GTA V
以下是我们在《GTA V》中的参数设置,1080P分辨率下,显存占用为3442MB。另外,在进阶影像设定中,所有设置项都调到了最高值。
《GTA V》在1080P分辨率下处理器性能是最大的瓶颈,即便如此,RTX 3080也跑出了139FPS的帧率,比RTX 2080 Ti高5帧,比RTX 2080高了11帧。
4、刺客信条:奥德赛
RTX 3080在《刺客信条:奥德赛》1080P分辨率下跑出了超过百帧的成绩,比RTX 2080 Ti高了11帧,比RTX 2080高了22帧。
5、德军总部:新血脉
RTX 3080在《德军总部:新血脉》中跑出了惊人的351FPS的帧率,比RTX 2080 Ti多了65帧,比RTX 2080多了113帧。
6、地平线:零之曙光
在1080P分辨率下,RTX 3080的帧率是135FPS,比RTX 2080 Ti多了16帧,比RTX 2080多了37帧。
7、孤岛惊魂5
在i9-10900K的强力支援下,RTX 3080的《孤岛惊魂5》1080P帧率也有183FPS,不过这个游戏在1080P分辨率时过于需求CPU,因此并没有和RTX 2080 Ti拉开多少差距,只有2帧的优势,不过比RTX 2080则多了29帧。
8、古墓丽影:暗影
即便是超频到5.2GHz的i9-10900K处理器,在将近一半的场景中渲染耗时都高于RTX 3080。
《古墓丽影:暗影》同样也是一个极度需求CPU性能的游戏,虽然i9-10900K依旧是瓶颈所在,但RTX 3080还是跑出了193FPS的恐怖帧率,比RTX 2080 Ti多了30帧,比RTX 2080多了56帧。
9、绝地求生
突破300帧了。
有了RTX 3080,即便是240Hz的显示器也能被喂饱。RTX 3080的帧率达到了316FPS,比RTX 2080 Ti多了47帧,比RTX 2080多了115帧。
10、微软模拟飞行2020
显卡杀手级的游戏!我们选择的是训练场景。
在《微软模拟飞行2020》中,RTX 3080的帧率为116FPS,比RTX 2080 Ti多了21帧,超出RTX 2080有37帧。
11、死亡搁浅
在这个游戏中,RTX 3080跑出了217FPS的帧率,比RTX 2080 Ti多了31帧,比RTX 2080要多60帧。
12、巫师3
原本《巫师3》是一款非常消耗GPU的游戏,然后RTX 3080实在太强,导致i9-10900K第一次在这款游戏中成为了瓶颈,跑出了158FPS,比RTX 2080 Ti高了16帧,比RTX 2080高了41帧。
13、无主之地3
在《无主之地3》中,RTX 3080的帧率为119FPS,比RTX 2080 Ti刚好多了10帧,比RTX 2080多了35帧。
14、战地5
《战地5》锁死了200帧,于是RTX 3080就跑出了200帧,比RTX 2080 Ti高了13帧,比RTX 2080多了47帧。
15、战争机器5
1080P分辨率下,RTX 3080在《战争机器5》中能跑出168FPS,比RTX 2080 Ti高了32帧,比RTX 2080多了47帧。
对于顶级新卡而言,1080P分辨率下CPU的性能是系统瓶颈所在,不过在这个分辨率下RTX 3080依然能比RTX 2080强38,比RTX 2080 Ti快16%。
九、4K分辨率测试:比RTX 2080 Ti强30%
本来2K分辨率测试不在计划之内,考虑到现在不少玩家都用上2K分辨率显示器,临时决定将此分辨率加入测试,在这里只向大家展示测试数据。
接下来是4K分辨率的测试。
1、APEX英雄
在4K分辨率下,RTX 3080的帧率依然突破了百帧,比RTX 2080 Ti多了32帧,比RTX 2080多了49帧。
2、使命召唤16:战区
在《使命召唤:战区》中,RTX 3080依然突破百帧,比RTX 2080 Ti多了29帧,领先幅度为40%,比RTX 2080高出43帧,领先幅度超过了70%。
3、GTA V
在4K分辨率下,《GTA V》才能发挥出显卡的真正性能,RTX 3080跑出了93帧,比RTX 2080 Ti多了21帧,领先幅度为29%;相比RTX 2080则多出了35帧,领先幅度为60%。
4、刺客信条:奥德赛
《刺客信条:奥德赛》这个游戏不亏是显卡杀手,在4K分辨率下,RTX 3080也这是刚好过了60帧,比RTX 2080 Ti多了13帧,领先幅度为25%;相比RTX 2080则能多出22帧,领先幅度为52%。
5、德军总部:新血脉
RTX 3080在《德军总部:新血脉》中跑出了150FPS的成绩,比RTX 2080 Ti多了30帧,比RTX 2080多了55帧。
6、地平线:零之曙光
在《地平线:零之曙光》这个游戏中,RTX 3080的帧率为69FPS,比RTX 2080 Ti高了15帧,领先幅度为26%;和RTX 2080相比,能多出26帧,领先幅度为60%。
7、孤岛惊魂5
在《孤岛惊魂5》中,RTX 3080的帧率为98FPS,比RTX 2080 Ti多了21帧,领先优势为27%;比RTX 2080则多了38帧,领先优势为63%。
8、古墓丽影:暗影
在《古墓丽影:暗影》中,RTX 3080的帧率为83FPS,比RTX 2080 Ti多了20帧,领先幅度为32%;相比RTX 2080则多了34帧,领先幅度接近70%。
9、绝地求生
《绝地求生》中,RTX 3080在4K分辨率下依然能跑出134FPS,比RTX 2080 Ti强了34%,比RTX 2080则要强了74%。
10、微软模拟飞行
《微软模拟飞行2020》果然是真硬件杀手,RTX 3080在4K分辨率下也没能超过60FPS,但是比RTX 2080 Ti强了31%,比RTX 2080则要快了64%。
11、死亡搁浅
RTX 3080在《死亡搁浅》能够很轻松的跑出112FPS,比RTX 2080 Ti的85FPS高了27帧,领先幅度为32%;和RTX 2080相比则多了43帧,强了62%。
12、巫师3
在《巫师3》中,RTX 3080依然能在4K分辨率下测得92FPS的帧率,比RTX 2080 Ti高了20帧,领先幅度为28;和RTX 2080相比则多出了34帧,领先优势为59%。
13、无主之地3
《无主之地3》是RTX 3080第二款没能到60帧的游戏,虽然59FPS也非常接近了,和RTX 2080 Ti相比能够有26%的优势,与RTX 2080相比优势幅度接近80%。
14、战地5
在4K分辨率下,RTX 3080在《战地5》中依然跑出了123FPS,比RTX 2080 Ti多了34帧,领先幅度达到了38%;比RTX 2080多了55帧,领先优势为81%。
15、战争机器5
在《战争机器5》中,RTX 3080的帧率为80FPS,比RTX 2080 Ti多了16帧,领先幅度为25%;与RTX 2080相比则能多出30帧,领先了60%。
4K分辨率才是RTX 3080真正的战场,相比RTX 2080领先优势达到了65%,比RTX 2080 Ti也强了30%,同时几乎达到了AMD RX 5700XT二倍的性能。
十、超频测试:放弃
RTX 3080的超频真是一言难尽!
想一想当初从Maxwell的28nm到Pascal的16nm所带来的频率提升幅度,原本我们是对采用8nm制程工艺的GA102芯片抱有很大的期待。毕竟在3DMark中,RTX 3080在默频下就能自动加速到2025MHz,不过结果却是令人大跌眼镜。
经过多次尝试,最终发现RTX 3080超70MHz之后可以勉强通过3DMark的测试,并且得分也有些许提升。
不过却无法通过3DMark Time Spy测试,即便将超频幅度降到40MHz也依然如此。超频40MHz之后在部分游戏中也会出现崩溃的现象。
既然40MHz都超不了,那就干脆不超核心了,来超显存看看。
结果显存频率很轻易就从1188MHz(等效于19GHz)超到了1251MHz(等效于20GHz),显存带宽也从760GB/s提升到了800GB/s。
不过让没想到的是,超了显存之后3DMark的跑分并没有提升,连一丝都没有。
看来RTX 3080的超频几乎就是鸡肋般的存在了,但考虑到它默频其实已经很强,所以不能超频也没有太大遗憾。
十一、温度与功耗测试:烤机20分钟68度 功耗也并不夸张
RTX 3080的TDP达到了320W,较RTX 2080的225W高了将近100W,比起RTX 2080 Ti的260W也增加了60W之多。
至于温度,在我们的RTX 2080/RTX 2080 Ti首发测试中,前者的烤机温度为75度,而RTX 2080 Ti的烤机温度则高达79度。
下面,让我们来看看在大幅度增加TDP之后,RTX 3080的温度与功耗实际表现如何。
1、温度测试
使用Furmark来对RTX 3080进行烤机测试,测试时室温为28度。
将Furmark的参数设定为1920*1080分辨率、0AA。运行20分钟之后, RTX 3080的温度稳定在70度附近,没有上升的迹象,显卡的功耗稳定在310~320W附近。
RTX 2080/RTX 2080 Ti的温度取自于2018年的首发评测
能够在320W的烤机功耗下降核心温度压制在70度的,即便是以往的顶级非公RTX 2080 Ti也未必能做到,看来RTX 3080的散热系统的确是提升巨大。
2、功耗测试
由于TDP大幅度提升,外界传言需要RTX 3080需要配备额定1000W的电源,事实是否真的如此呢?
分别测试待机、与Furmark烤机功耗,另外我们还会加上游戏功耗测试,测试的游戏项目为《巫师3》。
测试所用的电源为鑫谷昆仑KL750G金牌电源。
由于我们的测试平台将i9-10900K超频到了5.2GHz(核心)+4.8GHz(Ring),皇家戟F4-4000C15D 8GBx4的默认电压也高达1.5V,因此待机功耗也是水涨船高,几块N卡的平台待机功耗都在90W左右。
在运行《巫师3》时,NVIDIA RTX 3080平台的整机功耗达到了450W,比RTX 2080 Ti高了55W的样子,比RTX 2080更是高了126瓦。
至于烤机功耗,其实NVIDIA RTX 3080显卡的功耗一直在305W~320W之间跳动,对应的平台功耗则是450W~470W之间。这个功耗数字比起RTX 2080 Ti来说高了60W左右,比起RTX 2080则高了110W。
十二、DLSS与光线追踪测试:《堡垒之夜》、《德军总部:新血脉》、《古墓丽影:暗影》
2年前,图灵构架正式来到玩家面前。与以往的显卡相比,图灵GPU最大的革新就是新增了光线追踪计算单元,让玩家第一次在游戏中感受到了实时光线追踪技术所带来的真实而又震撼画面。
然而,NVIDIA这条路走的可谓是充满坎坷,图灵显卡上市两个月后都还没有一款游戏支持RTX,因而一直被玩家所质疑,认为RTX就是下一个Physx。
不过在NVIDIA、AMD、微软以及众多游戏厂商不懈努力之下,已经有越来越多的游戏开始支持光线追踪和DLSS,已经有越来越多的游戏开支拥抱RTX技术,比如《战地5》、《古墓丽影:暗影》、《地铁:离去》、《控制》、《使命召唤16》、《AMID EVIL》、《德军总部:新血脉》、《带你去月球》、《我的世界》、《光明记忆:无限》、《DOOM:永恒》这些已经上市的游戏已经支持光追和DLSS技术。
另外像《微软模拟飞行2020》、《死亡搁浅》这样的大作虽然不支持光追,但是却支持DLSS技术,也能极大的提升游戏的流畅度。
下面我们挑选了6款游戏进行测试,让大家看看最新的RTX 3080的表现是否能够达到大家的预期。
所有RTX与DLSS的测试均是在4K分辨率下运行,并开启最高画质。
1、堡垒之夜
几乎在NVIDIA发布全新的RTX30系显卡的同时,《堡垒之夜》也推送了最细的更新,全面支持光线追踪与DLSS技术。
这是打开RTX与DLSS之后的画面,水面波光粼粼,天空和地面一切可以反射与折射的物体都在水中有形成了相应的倒影。另外4K分辨率下帧率也不低,有53FPS。
再来对比关闭实施光线追踪后的画面,可以明显地发现,水面死气沉沉,天空紫色的彩霞在水中没有得到任何体现。
至于测试场景,为了尽量避免变量干扰,我们选择了一个单人场景。
RTX 3080在默认情况下能够达到94FPS的帧率,开启了光线追踪之后,帧率暴跌到了28FPS,跌幅达到了70%实在是令人震惊。不过还好打开DLSS技术之后,帧率又回升到了65FPS。
2、德军总部:新血脉
《德军总部:新血脉》在2019年7月发售的时候并不支持光追,但在2019年底加入了光追与DLSS技术的支持,让游戏中的任何反射表面现在都能有准确、高质量、高细节的逼真反射效果。
《德军总部:新血脉》在开启了RTX之后,完全就是2个游戏了,汽车玻璃里面可以看到非常真实的倒影。
4K分辨率下开启DLSS+RTX之后,依然能够跑出149FPS的帧率。
《德军总部》的表现还算友好,开启光追后帧率只是从150FPS掉到了86FPS,跌幅仅有43%。而开启DLSS技术之后,帧率又回到了149FPS。
3、古墓丽影:暗影
RTX 3080光追之后,帧率只有50FPS。
开启RTX DLSS之后,帧率直接从50FPS提升到了100FPS。
在这里,RTX 3080开启DLSS之后帧率直接翻倍,提升幅度明显强于其余2张显卡。RTX 2080与RTX 2080 Ti在开启DLSS之后,性能只是提升了50%。
十三、DLSS与光线追踪测试:《光明记忆:无限》、《控制》、《战地5》
1、光明记忆:无限
《光明记忆:无限》是一款国产游戏,最初仅由一个人单独开发,但不要因此而轻视了它,因为它是到目前为止,光线追踪效果做的最好的一款游戏。
RTX关闭时,整个画面非常暗淡,头盔上的玻璃面罩显示的影子并不全,有很多缺失。下图打开RTX之后,头盔几乎可以反射任何物体,天上的白云、远处的山峰、当然最明显的就是那个太阳。
从这张图,可以非常清楚的看到常规的光栅化渲染与实时光线追踪技术之间的区别。
《光明记忆》开启光追之后,RTX 3080的帧率直接从111FPS掉到了43FPS,下降了60%以上。开启DLSS技术之后,帧率提升到了102FPS,与默认帧率仅有9FPS的差距。
2、控制
《控制》采用Northlight引擎打造,并且支持光追特效和NVIDIA DLSS深度学习超级采样抗锯齿,这也让《Control》成为继《战地5》《地铁:离开》《古墓丽影:暗影》之后的第四款支持光线追踪效果的游戏。
在2020年3月,《控制》推送了支持DLSS 2.0技术的更新,相比DLSS一代细节更清晰,帧率更高。
不开启RTX与DLSS时,RTX 3080的帧率为67FPS。
开启RTX之后,地面以及墙壁上产生了非常真实的光影效果,同时画面看上也去更加明亮。不过代价就是帧率跌到了40FPS。
同时开启RTX+DLSS之后,游戏的帧率提升到了73FPS。
不过实际上DLSS 2.0实际渲染分辨率是2560*1440,而不是3840*2160,但是看上去画面几乎没有区别。
《控制》的表现还算是好的,RTX 3080开启光追后帧率只是从67FPS掉到了40FPS,只是下降了40%。开启DLSS 2.0技术之后,帧率提升到了73FPS,已经超过了默认的67FPS。
3、战地5
《战地5》在2018年推出了支持DXR光线追踪的更新,又在2019年2月份推送了支持DLSS深度学习抗锯齿的更新。
从时间点上来说,《战地5》是世界上第一款同时支持DLSS与RTX技术的游戏,也第一次让玩家见到了实时光线追踪到了游戏中会是什么样子。
左图没有光追,出现了非常明显的逻辑性错误。高架桥的倒影没有出现在车窗中,反而被高架桥所挡住的屋顶竟然出现了。
右图在打开光线追踪之后,一切恢复了正常。
《战地5》的表现很令人迷惑,开启光追后,RTX 3080的帧率只是从123FPS掉了74FPS,下降了40%不算太多。不过开开启DLSS之后,帧率仅仅只提升了14FPS,提升还不到20%
十四、DLSS与光线追踪测试数据分析:光追帧率砍半 DLSS给追回来
将前面2章的测试数据汇总如下:
1、首先是横向对比:可以看到3款显卡在开启RTX之后,游戏的帧率都爆降了55%左右,相对来说,RTX 3080降幅稍低一些。但是在开启DLSS技术之后,性能可以得到82%以上的提升。
2、对比3款显卡的RTX性能:RTX 3080的光追性能比RTX 2080强81%,比RTX 2080 Ti要强了38%。
3、对比3款显卡的DLSS性能:开启DLSS之后,RTX 3080的帧率比RTX 2080高了80%,比RTX 2080 Ti强了40%。
要知道在不开启RTX与DLSS的情况下,RTX 3080对比RTX 2080/RTX 2080 Ti的提升幅度分别是66%、30%。因此也说明了新一代安培构架拥有更加高效的RTX与Tensor单元。
另外对于在不启用RTX的时候,仅仅开启DLSS深度抗锯齿技术能有多大的提升,我们也稍稍测试了一下,测试依旧是在4K分辨率下进行,开启最高画质!
死亡搁浅
在使用TAA抗锯齿的时候,RTX 3080能够跑出114FPS。
开启DLSS抗锯齿(均衡模式),游戏的帧率直接提升到了174FPS,提升幅度高达53%。
控制
在《控制》这款游戏中,4K分辨率下使用默认抗锯齿技术,RTX 3080的帧率是67FPS。
开启DLSS抗锯齿技术之后,RTX 3080的帧率来到了113FPS,提升幅度为69%。
堡垒之夜
使用默认的抗锯齿技术,RTX 3080能够跑出94FPS的帧率。
打开DLSS技术之后,游戏的帧率暴增到了169FPS,4K144Hz的显示器也可以愉快的玩耍了。
剩下的几款游戏也是类似的情况,我们就不一一展示了。总体而言,在4K分辨率,如果只开启DLSS技术,游戏的帧率能够有60%以上的提升,RTX 3080在大多数游戏都能获得100FPS+的帧率。
十五、总结:十年来最良心的N卡
NVIDIA这一次的确是“欺骗”了所有人!发布之前,各方面的消息都显示:RTX 3080拥有4352个流处理器,售价直奔五位数。
GeForce RTX 30系列显卡正式发售之后,我们才知道RTX 3080的流处理器数量直接从传言的4352个翻倍到了8704个,而5499元售价更是让人惊掉下巴。简单地说,就是流处理器比原来预计的多一倍,而价格降了一半!
下面,我们长话短说,本次评测的内容简述如下:
1、双倍流处理器为什么只有30%的性能提升!
首先我们通过AIDA64 GPGPU测试知道RTX 3080的8704个流处理器的确是可以同时工作,不过为什么相比RTX 2080 Ti流处理器数量翻倍而性能却只提升了30%呢?
原因有二,其一就是RTX 2080 Ti还有4352个INT32单元,他们中的大部分虽然会被闲置,但是依然能为RTX 2080 Ti带来额外的30%左右的性能提升。
第二点则是因为RTX 3080需要足够高的功耗才能使8704个流处理器运行在较高的频率上,而默认的320W TDP并不能很好的满足这个需求。
2、是否真的需要额定1000W电源?
我们也不知道1000W的传言从何而来!就我们的测试平台而言,超频到5.2GHz的i9-10900K + 皇家戟4000MHz C15 32GB内存,在数天的测试过程中,全程使用GPU-Z监控显卡的功耗。
发现GPU-Z记录的最高功耗只有357W,即便加上i9-10900K满载时 250W功耗,一款额定750W的金牌电源亦足以应付最极端的情况了。
事实上,整个测试过程中,我们的KL750G金牌电源也没有因为过载触发断电保护而重启。
3、超频
对于RTX 3080的超频真的是一言难尽!经过我们反复测试,这块显卡在基础频率上增加40MHz都无法通过3DMark Time Spy的测试。美光的GDDR6X显存倒是可以从19GHz超频到20GHz,但是通过测试发现只超显存对于游戏性能的提升非常有限。对于超频,可以放弃了!
有鉴于此,大家在选购RTX 3080时,可以避开昂贵的堆料非公,毕竟再怎么堆料,频率也难以有较大提升。
散热性能较好的廉价非公是相对合理的选择。
4、光线追踪:最好有DLSS辅助
目前支持光追的游戏越来越多了,随着PS5与Xbox Series X的到来,预计未来会有更多的游戏拥抱光追。在第二代RT单元的加持下,RTX 3080开启实时光追之后,性能可比RTX 2080 Ti强40%,比RTX 2080强80%。
即便如此,在4K分辨率下开启光追之后,游戏的帧率会暴跌55%左右,很多大作已经无法流畅运行。不过好在现在支持光追的游戏同时也支持DLSS深度学习抗锯齿技术。在开启RTX的导致帧率暴跌之后,启用DLSS技术可以将游戏的帧率提升90%左右。
另外DLSS 2.0技术对于画质的优化做的相当到位了,几乎可以媲美TAA锯齿。在帧率不够的时候,可以放心的在游戏里开启DLSS技术。
5、RTX 3080是NVIDIA历年来颜值与做工最好的公版显卡
公版RTX 3080采用了一体化金属框架设计,整个显卡可以看作是一块金属,因此不会出现非公版那种由于散热器太重将显卡PCB板拉完的情况。
另外在散热方面,公版RTX 3080的设计也相对完美。约有一半的热量会直接从I/O接口处排除机箱外,可以大大减轻机箱的散热压力。而背面的风扇会将热气向下吹,对CPU散热影响极小。另外由于有金属外壳的保护,显卡下方的NVMe SSD也不会被显卡的热气直接吹到。
6、ROP单元绑定GPC的好处
以往ROP单元是被集成在显存控制器中,阉割显存时,ROP单元也会相应的变少。
新的Ampere构架将ROP单元与GPC绑定在了一起,每组GPC有16个ROP。今后如果缩减显存位宽、阉割流处理器数量的时候,只要GPC数量保持不变,那么ROP单元也不会减少。
比如即将上市的RTX 3070,与RTX 3080同为GA102核心,但是流处理器数量从8704减少到了5888,显存位宽也从320Bit阉割到了256Bit。不过由于它和RTX 3080一样,都有6组GPC,因而ROP单元也和RTX 3080一样是96个。更多的ROP单元可以提高GPU抗锯齿运算时的性能表现。
数天之后,RTX 3090将会解禁,敬请大家期待我们的首发评测,谢谢!