神之飞跃！RTX 40架构、技术、产品深度解析：价格大有玄机-快科技-科技改变生活

一、Ada架构初探：结构基本不变规模暴涨

盼星星盼月亮，NVIDIA GeForce RTX 40系列显卡终于来了。随着以太坊的转型、“矿潮”的退去，游戏玩家们终于有希望回归本源、体验新一代游戏生活。

RTX 40系列在架构、技术上有哪些革新？光追、DLSS 3真的有那么神奇吗？首发价格为什么定那么高？

今天，我们就来好好谈一谈。

NVIDIA近些年的GPU架构代号，都来自历史上如雷贯耳的著名物理学家，比如Tesla特斯拉、Fermi费米、Kepler开普勒、Maxwell麦克斯韦、Volta伏特、Pascal帕斯卡、Turing图灵、Ampere安培……

GPU核心编号前缀一般都是字母“G”(代表Graphics)和代号首字母的组合，比如GT、GF、GK、GM、GP、GA。

当然，Turing系列有些特殊，因为GT已经用过了，所以改成了TU。

神之飞跃！RTX 40架构、技术、产品深度解析：价格大有玄机

RTX 40系列的架构代号、编号则都有些不同。

“Ada Lovelace”(以下简称Ada)，即阿达·洛夫莱斯，原名奥古斯塔·阿达·拜伦(Augusta Ada Byron)，著名英国诗人拜伦之女，数学家，计算机程序创始人，为计算程序拟定了“算法”，建立了循环和子程序的概念，写作的第一份“程序设计流程图”被珍视为“第一位给计算机写程序的人”，本人也被称为“程序员之母”。

为表纪念，美国国防部将耗费巨资、历时近20年研制成功的高级程序语言命名为Ada语言，被公认为是第四代计算机语言的主要代表。

GA的编号方式也刚刚用过，所以这一代都是AD系列。

Ada AD10x系列核心采用NVIDIA单独定制的TSMC 4N工艺制造，其中旗舰核心AD102集成最多763亿个晶体管。

这是三星8nm工艺GA102 283亿个的足足2.7倍，但核心面积反而从628平方毫米缩小到608平方毫米，晶体管密度高达1.255亿个/平方毫米，提升了超过1.7倍。

仅仅四年前的Turing RTX 20，台积电12nm工艺，也才186亿个晶体管，每平方毫米还不到2500万个，实在令人感慨技术进步之快。这部分会在后边详谈。

新的Ada架构全面升级了SM流式多处理器、RT光追核心、Tensor张量核心、视频编解码引擎，还带来了真正强大实用的光流处理器(OFA)，但这一次彻底去掉了NVLink总线模块，永别了SLI。

AD102核心共有18432个CUDA核心(分为12组GPC/72组TPC/144组SM)、576个第四代Tensor Core张量核心、144个第三代RT Core光追核心、576个纹理单元、192个ROP单元、18MB一级缓存、96MB二级缓存、36MB寄存器文件。

其中，一级缓存增大了71％，二级缓存不但是Ampere架构的多达16倍，而且经过彻底重构，对于任何应用都能带来明显提升，尤其是光追中的路径追踪等复杂操作会获益匪浅。

或许，这就是NVIDIA敢于把产品显存位宽使劲往下砍的原因，大容量、高带宽的二级缓存可以有效弥补带宽，就像AMD Infinity Cache无限缓存，只是后者需要大容量才能提现优势，Ada这边做到96MB也不算太大，显然带宽高得多(暂无具体数据)。

值得一提的是，AD102核心有288个FP64双精度浮点核心(每组SM 2个)，浮点性能是FP32的1/64，专门用于处理FP64代码，包括FP64张量核心代码。

GPC依然是NVIDIA GPU的顶层组成单元，所有的关键图形单元都在这里，结构组成上整体而言Ampere架构没啥不同。

每个GPC包括一个独立光栅引擎、两个ROP分区(每个包含8个ROP单元)、六组TPC，而每个TPC又包括一个多边形引擎、两组SM。

SM单元的内部组成也和Ampere如出一辙，可以分为四个部分(分区)，以及128KB一级数据缓存/共享内存、一个第三代RT光追核心。

每个分区内又有64KB寄存器文件、零级指令缓存、一个Warp调度器、一个分配单元、16个FP32单精度浮点CUDA核心、16个FP32/INT32单精度浮点和整数混合CUDA核心、一个第四代Tensor张量核心、四个载入存储单元、一个特殊功能单元(SFU)用于执行图形差值指令。

RTX 40系列采用了与台积电定制优化的4N工艺，得以集成比GA102核心多70％的CUDA核心，成就了史上最复杂的GPU芯片，还大大提升了运行频率，RTX 4090可以加速到2.52GHz，是N卡史上最高的。

与此同时，能效也大大提升，RTX 4090功耗和RTX 3090 Ti完全持平，能效因此达到了其2倍之多。

二、光线追踪：两大新引擎加速

光线追踪，无疑是GPU历史上的一大变革，而引导这一变革的，正是NVIDIA，Ada上已经发展到了第三代，有效光追算力达到191TFlops(每秒191万亿次运算)，是上一代产品的2.8倍。

Ampere架构的第二代RT核心里，BVH加速的包围盒碰撞引擎(上图中左侧方框)，执行光线-三角形碰撞(求交)检测加速的是三角形碰撞引擎(上图中右侧三角形部分)。

Ada架构的第三代光追核心，又增加了两个新的引擎。

一是Opacity Micromap Engine，上图左下角的带树叶三角形部分。

它会评估不透明微遮盖，加速Alpha遍历，大大减轻着色器的工作量，号称光线-三角形碰撞吞吐性能、Alpha遍历性能都提升2倍。

它可以让开发人员为物体、环境加入更多细节，更方便描述不规则形状或半透明物体，比如叶子、火焰、篱笆等。

比如面对一片叶子，以前需要对整个区域的所有三角形区域，进行同样的光线遍历操作，但不同区域是不一样的，有的整个三角形区域内都是叶子，有的完全没有，有的占一部分。

Ada架构可以对这些不同区域进行分别处理，避免重复和浪费工作量。

在游戏中，以专门开发的《Portal RTX》为例，应用该技术后，G-Buffer缓冲填充速度可加快30％，帧率可提升30％。

二是Micro-Mesh Engine，上图右下角的复合三角形部分。

它可以动态生成微网格，以产生额外的几何图形，在处理复杂几何物体、环境光线时，提升几何图形的丰富度，并大大降低BVH的创建时间和存储成本。

你可以把它想象成一个立体版的曲面细分(Tessellation)。

NVIDIA举了三个例子：创建11:1的珠宝盒，需要15.3万个微网格、1100万个微三角形，BVH创建速度可加快8.5倍，存储空间缩小6.5倍。

创建14:1的珊瑚蟹，需要1.7万个微网格、160万个微三角形，BVH创建速度可加快7.6倍，存储空间缩小8.1倍。

创建28:1的陶鼎，需要17.5万个微网格、5700万个微三角形，BVH创建速度可加快超过15倍，存储空间缩小20倍。

不止是游戏，微网格位移在内容创作中也可以大大加速，目前已经得到了Adobe、Simplygon两家企业的支持。

说了半天，来感受下第三代光追的惊人效果，分别来自首批优化到位的《赛博朋克2077》、光追重制版《Portal RTX》、《Racer RTX》。

其中，《赛博朋克2077》可对每个像素执行635次的光追计算来确定光照，比四年前的首批光追游戏，比如39次的《战地5》，增加了多达16倍。

三、着色器执行重排序(SER)：化凌乱为整齐

NVIDIA宣称，着色器执行重排序(SER)技术在GPU中的引入，堪比乱序执行技术在CPU中的引入，是GPU历史上的又一伟大创新。

这是不是吹嘘？还真不是。

简单的说，光追需要光线面对不同物体、环境的多次反射、折射，处理强度不同的负载，着色器面对的工作量是复杂多变的，往往有的已经完成了，有的还在执行，需要等待。

SER就是通过即时重新安排着色器的负载，使之恢复均衡，从而提高执行效率，更好地利用GPU资源。

还不明白？来看个直观的例子。

假设一组平行光线照射舞台、木墩、狗狗、墙面、天花板，第一次形成的光追负载是非常规律有顺序的，可以轻松处理。

但是光线遇到物体后向不同方向反射，第二次与物体相交，形成的光追负载就更多、更复杂、更凌乱。

SER这时候介入，按照不同类别进行二次排序，着色器就可以像第一次那样有序地处理负载了。

按照NVIDIA的说法，SER可以为光追带来最高3倍的性能提升，整体游戏性能提升也可达25％。

还是以《赛博朋克2077》、《Portal RTX》、《Racer RTX》为例，性能可以分别提升44％、29％、20％。

四、光流处理器(FOA)和DLSS 3：4倍性能就是这么来的

DLSS 3部分是NVIDIA着墨最多、宣传最到位的，毕竟带来的性能提升最直观、最明显，我们也多絮叨絮叨。

DLSS技术的初衷很简单，就是弥补光追带来的性能损失，毕竟这东西太耗资源了，二十多的帧率下，再好看的画面也是白费。

DLSS技术前两代的原理是超分辨率，也就是低分辨率渲染、AI增强、高分辨率输出，性能可以轻松提升2倍之多，光追游戏也能流畅玩儿。

AMD FSR、Intel XeSS也都是同样的原理，可以说NVIDIA一直走在友商之前。

DLSS 3几乎是推倒重来，尤其是基于强大的光流加速器(OFA)，可以通过AI生成帧画面，插入常规渲染帧之间。

优化到位的游戏性能可提升多达4倍，普通游戏也有2倍，相当恐怖的。

同步开启Reflex技术，可以将响应速度提升最多2倍，电竞类游戏延迟低于10ms。

另外，由于DLSS 3生成帧在GPU上是作为后处理执行的，因此即使游戏受到CPU性能限制，前期渲染能力跟不上，也不会遇到瓶颈，依然能从中获得显著的性能提升，尤其是物理计算密集型游戏或大型场景游戏。

当然，DLSS 3不是单一技术，而是软硬件结合的一整套方案，包括硬件端的光流加速器(算力305Tops)、第四代Tensor张量核心(1.4PFlops算力)、NVIDIA超级计算机平台(AI算力1EFlops)，包括软件端的AI帧生成(提升帧率)、AI超分辨率(提升帧率)、NVIDIA Reflex(提高响应降低延迟)，是共同协作的成果。

需要注意的是，DLSS 3并不会取代DLSS 2.x，而是将其作为一个子集(超分辨率部分)，可以一起工作，联合提升性能。

具体来说，DLSS 2.x是生成单个像素点来提升画质，DLSS 3的革命性之处则在于，它直接生成全新的完整帧画面，插入渲染帧画面之间，可以说就是“插帧”。

再详细一点，它使用光流加速器分析两帧连续的游戏图像，计算帧到帧之间物体、元素的运动矢量数据，综合游戏中的一对超级分辨率帧，以及引擎和光流运动矢量，并将其输入至卷积神经网络，就能计算生成出新的一帧，这在实时游戏渲染中是首次实现。

其实没有光流加速器，传统游戏引擎一样可以通过运动矢量进行建模，实现帧生成，但最大问题在于面对粒子、反射、阴影、光照等元素时，容易出现渲染不精确、视觉异常，尤其是在光追下。

将运动矢量与光流处理结合起来，就可以得到精确的运动模拟，正确处理阴影等画面效果。

结合帧生成、超分辨率缩放技术，DLSS 3可以在传统渲染器渲染的画面之外，“凭空”再造出7份画面，也就是它能让你看到的7/8的画面像素，都是额外生成的！

这就是AI的力量，或许正是未来的趋势。

刚才说了性能大幅提升，那么这种AI帧生成，会不会画面上的错位、模糊等问题？上边是NVIDIA举的两个例子。

黄仁勋也曾表示，DLSS 3生成的像素比GroundTruth(真实值)还要好看，也比过去计算的像素更好看，因为DLSS 3生成的像素不是凭空捏造，而是客观的，其训练学习的基础是16K分辨率的超清图像，所以得出的像素非常美丽，近乎原生，也能添加更好看的色彩。

至于实际效果如何，后续看评测吧。

硬件支持方面，DLSS 3帧生成必须RTX 40系列才能支持(RTX 30/20系列理论上也行但性能很弱)，DLSS 2超分辨率则在RTX 40/30/20系列上都可以，另外Reflex支持GTX 900系列以来的所有型号。

显然，想要最佳体验，还得最新的RTX 40系列。

游戏支持适配方面，NVIDIA也提供了极大的便利。DLSS 3/2的大部分引擎数据是相通的，前者只是多了一个Reflex Maker，另外整个框架体系也是一体的。

DLSS 3首发就已经/即将支持36款游戏、3款游戏引擎、2款应用，其中包括《黑神话：悟空》、《逆水寒》、《永劫无间》、《仙剑奇侠传7》等国产游戏，引擎分别是寒霜、Unity、虚幻4/5。

五、AV1编码：8K60视频完美了

视频编解码一直是GPU的重要工作，可以大大减轻CPU负担，提升编解码速度。

GeForce RTX 40系列GPU升级到了第八代NVENC编码器，首次加入对AV1格式的支持，12GB或更大显存型号还是双编码器的豪华配置，可以处理单条8K/60视频，或者四条4K/60视频。

AV1格式正在桌面端、移动端得到快速普及，Intel Arc A系列显卡此前就已经在桌面端首发支持AV1编解码，但现在还谈不上影响力。

GeForce RTX 40系列GPU则带来了完整的AV1生态方案，编码API支持NVIDIA、Chrome、FFmepg、Windows，App编辑器支持DaVinci Resolve、Discord、OBS、voukoder、剪影，视频平台支持Discord、YouTube(B站/爱奇艺们加油)，播放器支持Chrome、Discord、VideoLAN、Windows。

NVIDIA宣称，AV1的编码效率相比流行的H.264高出多达40％，同样画质下码率更低，同样码率下画质更好。

双编码器的产品上，NVIDIA会让二者分别负责画面的上下部分，各自处理完毕后再综合，编码效率可以提升2倍甚至更多。

同时，GeForce RTX 40系列GPU还首发了第五代NVDEC解码器，支持MPEG-2、VC-1、H.264、H.265、VP8、VP9、AV1格式的解码硬件加速，完整支持8K/60视频解码。

六、首发产品规格与性能：价格大有玄机

接下来，我们看看RTX 40系列的首发阵容，包括初步的规格参数、公版设计、官方性能、价格定位。

RTX 40系列首发三款型号分别是RTX 4090、RTX 4080 16GB、RTX 4080 12GB，分别基于AD102、AD103、AD104 GPU核心。

没记错的话，这是NVIDIA历史上第一次首发就有不同显存版本的型号，当然不一样的不只是显存。

RTX 4090自然是旗舰，但未来肯定还会有RTX 3090 Ti级别的真卡皇，因为它并没有使用满血的AD102核心。

对比上边两张内核布局图就可以发现，RTX 4090不但去掉了一组完整的GPC单元(内含6组TPC或者说12组SM)，还将另外两组GPC单元各去掉了1组TPC单元或者说2组SM，也就是总共砍掉了8组TPC或者说16组SM。

总的来说，RTX 4090隐藏了多达11％的核心单元，只开启了16384个CUDA核心、512个张量核心、128个光追核心、512个纹理单元、176个ROP单元，即便如此也比RTX 3090多了足足一半还多。

核心频率2230-2520MHz，这一代大大提升(RTX 3090只有1395-1695MHz)，而且实际运行中完全可以达到更高，2.8GHz左右都没问题。

显存还是384-bit 24GB GDDR6X，等效频率提高到21GHz，带宽达到1TB/s。

整卡功耗为450W，达到了RTX 3090 Ti的档次，相比于RTX 3090增加了整整100W。

RTX 4080 16GB基于AD103核心，459亿个晶体管，378.6平方毫米面积，集成度也超过1.2亿个/平方毫米。

9728个CUDA核心，对比RTX 3080 12GB/10GB只增加了10％左右，核心频率提升到2210-2510MHz。

16GB GDDR6X显存更是创纪录的23GHz，只是因为位宽从384/320-bit缩水到256-bit，带宽仅为736GB/s，略低于RTX 3080 10GB。

整卡功耗320W，和RTX 3080 10GB持平，比RTX 3080 12GB还低了30W。

最后是RTX 4080 12GB，也是最具争议的，据说原本计划叫做RTX 4070 Ti，临时拉高了档次，而过低的位宽让很多玩家认为它其实应该是xx60级别。

它基于AD104核心，358亿个晶体管，比上代旗舰GA102核心还要多，294.5平方毫米的面积却小了一半还多，集成密度同样超过1.2亿个/平方毫米！

7680个CUDA核心，对比RTX 3070 Ti多了25％，但是不如RTX 3080 12GB，核心频率为2310-2610MHz，这也是N卡迄今为止最高的频率。

最关键的是，位宽缩减到了只有192-bit，这在x80系列历史上还是第一次，甚至是x70系列都没有，搭配21GHz的12GB GDDR6X显存，带宽只有区区504GB/s，只比RTX 3070、RTX 3060 Ti高一点点。

另外，整卡功耗285W，和RTX 3070 Ti 290W差不多。

以RTX 4090为例欣赏一下公版设计，整体造型和前两代一致，正反双风扇，但更加厚重，3.5插槽体积，一体化设计更加坚固，同时风扇也增大了，风量因此增加20％。

值得一提的是，针对此前显存容易过热的问题，NVIDIA这次特别加强了显存散热，不但本身功耗更低，而且改进了风流、温度感应。

非公版应该会有更多强化，不用担心显存过热导致花屏之类的问题了。

PCB依然是尾部V形开口的独特造型，整体紧凑得不像话，没有一丝一毫的空间浪费，居然塞进去了23相供电电路，其中核心20、显存3。

NVIDIA强调，RTX 4090的供电做了优化，不会再有剧烈的电压、电流波动，尤其是高负载下的供电曲线很稳。

另外，它延续了RTX 3090 Ti上首发的PCIe 5.0 16针供电接口，理论最高供电能力600W。

建议最好搭配原生支持新标准的ATX 3.0电源，以及新的16针电源线，因为虽然厂商普遍会附赠三8针转16针的电源线，但插拔次数有限制，三四十次之后就有大概率会烧融。

性能方面，10月12日我们会给大家带来GeForce RTX 4090的首发评测，这里看看官方宣传。

传统游戏，RTX 4080 12GB都可以持平或者超越RTX 3090 Ti，RTX 4090更是可以带来少则50％、多则成倍的提升。

Portal RTX、Racer RTX、赛博朋克2077 Overdrive模式等针对RTX 40系列设计和优化的场景中，性能更是可以上天，这里也就是所谓4倍性能提升的来源。

网游就更不在话下了，2K分辨率下帧率可以轻松跑出300-600FPS，延迟普遍不超过10ms，配合高刷电竞显示器可以杀个痛快。

价格和发布时间大家都很熟悉了：

RTX 4090 10月12日，12999元起，取代RTX 3090 Ti、RTX 3090。

RTX 4080 16GB 11月，9499元起，取代RTX 3080 Ti。

RTX 4080 12GB 11月，7199元起，取代RTX 3080 12GB。

争议最大的就是RTX 4080 12GB的低规格(192-bit)、高价格，但是从产品布局来看，NVIDIA的用意也很明显，就是RTX 40系列先占领高端市场，RTX 30系列继续在主流市场打拼，二者相辅相成，RTX 3080 10GB及之下型号短期内不会退市。

不出意外的话，只有RTX 30系列的库存清理完毕后，RTX 40系列的价格才会慢慢降下来。

面对创新范围如此之光、力度如此之深的GeForce RTX 40系列GPU系列，你能忍住诱惑吗？

相关报道

最热文章排行查看排行详情

邮件订阅

分享到