四、光流处理器(FOA)和DLSS 3:4倍性能就是这么来的
DLSS 3部分是NVIDIA着墨最多、宣传最到位的,毕竟带来的性能提升最直观、最明显,我们也多絮叨絮叨。
DLSS技术的初衷很简单,就是弥补光追带来的性能损失,毕竟这东西太耗资源了,二十多的帧率下,再好看的画面也是白费。
DLSS技术前两代的原理是超分辨率,也就是低分辨率渲染、AI增强、高分辨率输出,性能可以轻松提升2倍之多,光追游戏也能流畅玩儿。
AMD FSR、Intel XeSS也都是同样的原理,可以说NVIDIA一直走在友商之前。
DLSS 3几乎是推倒重来,尤其是基于强大的光流加速器(OFA),可以通过AI生成帧画面,插入常规渲染帧之间。
优化到位的游戏性能可提升多达4倍,普通游戏也有2倍,相当恐怖的。
同步开启Reflex技术,可以将响应速度提升最多2倍,电竞类游戏延迟低于10ms。
另外,由于DLSS 3生成帧在GPU上是作为后处理执行的,因此即使游戏受到CPU性能限制,前期渲染能力跟不上,也不会遇到瓶颈,依然能从中获得显著的性能提升,尤其是物理计算密集型游戏或大型场景游戏。
当然,DLSS 3不是单一技术,而是软硬件结合的一整套方案,包括硬件端的光流加速器(算力305Tops)、第四代Tensor张量核心(1.4PFlops算力)、NVIDIA超级计算机平台(AI算力1EFlops),包括软件端的AI帧生成(提升帧率)、AI超分辨率(提升帧率)、NVIDIA Reflex(提高响应降低延迟),是共同协作的成果。
需要注意的是,DLSS 3并不会取代DLSS 2.x,而是将其作为一个子集(超分辨率部分),可以一起工作,联合提升性能。
具体来说,DLSS 2.x是生成单个像素点来提升画质,DLSS 3的革命性之处则在于,它直接生成全新的完整帧画面,插入渲染帧画面之间,可以说就是“插帧”。
再详细一点,它使用光流加速器分析两帧连续的游戏图像,计算帧到帧之间物体、元素的运动矢量数据,综合游戏中的一对超级分辨率帧,以及引擎和光流运动矢量,并将其输入至卷积神经网络,就能计算生成出新的一帧,这在实时游戏渲染中是首次实现。
其实没有光流加速器,传统游戏引擎一样可以通过运动矢量进行建模,实现帧生成,但最大问题在于面对粒子、反射、阴影、光照等元素时,容易出现渲染不精确、视觉异常,尤其是在光追下。
将运动矢量与光流处理结合起来,就可以得到精确的运动模拟,正确处理阴影等画面效果。
结合帧生成、超分辨率缩放技术,DLSS 3可以在传统渲染器渲染的画面之外,“凭空”再造出7份画面,也就是它能让你看到的7/8的画面像素,都是额外生成的!
这就是AI的力量,或许正是未来的趋势。
刚才说了性能大幅提升,那么这种AI帧生成,会不会画面上的错位、模糊等问题?上边是NVIDIA举的两个例子。
黄仁勋也曾表示,DLSS 3生成的像素比GroundTruth(真实值)还要好看,也比过去计算的像素更好看,因为DLSS 3生成的像素不是凭空捏造,而是客观的,其训练学习的基础是16K分辨率的超清图像,所以得出的像素非常美丽,近乎原生,也能添加更好看的色彩。
至于实际效果如何,后续看评测吧。
硬件支持方面,DLSS 3帧生成必须RTX 40系列才能支持(RTX 30/20系列理论上也行但性能很弱),DLSS 2超分辨率则在RTX 40/30/20系列上都可以,另外Reflex支持GTX 900系列以来的所有型号。
显然,想要最佳体验,还得最新的RTX 40系列。
游戏支持适配方面,NVIDIA也提供了极大的便利。DLSS 3/2的大部分引擎数据是相通的,前者只是多了一个Reflex Maker,另外整个框架体系也是一体的。
DLSS 3首发就已经/即将支持36款游戏、3款游戏引擎、2款应用,其中包括《黑神话:悟空》、《逆水寒》、《永劫无间》、《仙剑奇侠传7》等国产游戏,引擎分别是寒霜、Unity、虚幻4/5。