从GPU发展看英伟达（NVIDIA）的成功之道-快科技-科技改变生活

DX10：R600全新架构后来者未能居上

在G80系列产品在市场上活跃长达半年之久后，AMD忙着收购ATI，采用统一渲染架构的R600才正式发布，而此时的高端市场已经完全由NVIDIA占据。AMD这半年来的缺席保证了NVIDIA丰厚的利润。

AMD的统一渲染器设计还是在原来的SIMD架构上改良而来，Superscalar超标量架构由1个4D矢量一个1D标量运算核心组成，进行传统的4D矢量运算时效率最高，而遇到1D标量运算时运算效率降至四分之一，所以需要更多数量的流处理器来弥补这个劣势。这也是为什么现在大家看到AMD的流处理器总是多于NVIDIA那么多的原因。下面我们就来看看一直延续至今的R600架构。

R600架构图

R600架构中配备了320个流处理器单元，具备4个Quad Processor（四方阵列处理器，简称QP），每个QP内包含了16个着色器（shader）处理单元，每个着色器内包含了5路超标量（superscalar）的运算单元（ALU）。采用了台积电的80纳米高速版（80HS），集成了大约7亿枚晶体管，一枚管芯内集成了3D处理、2D加速、视频加速、显示输出、内存控制、HDCP、5.1音频通道等单元。

从GPU发展看英伟达（NVIDIA）的成功之道 R600 SIMD

虽然在DX10初期，R600的出现并没有将收购后的ATI打一个漂亮仗，但是不得不说的这个架构在当时来说，还是有可圈可点的地方：

1、Hardware Tessellation，也就是目前DX11中火热的硬件曲面细分技术，AMD在HD 2000显卡中引入了这一技术，不过当时的硬件环境远不成熟，Hardware Tessellation不具有实用性，只在HD 2000显卡上昙花一现，到了HD 3000系列就去掉了。

2、1024-bit环形总线技术，2900XT本身就拥有512bit显存位宽，已经是当时位宽最大的，G80最大位宽也不过384-bit。AMD在此基础上又引入了Ring bus环形总线，可以等效1024-bit位宽，如果使用高速的GDDR4显存，那么显存带宽可以轻易突破130GB/s（这一数值在今天的高端显卡上也不容易达到），普通的GDDR3显存带宽也有100GB/s以上的带宽。不过ring bus的总线特征可以带来较高的频率，但是总线结构的设备独占特征决定了在出现访问冲突的时候效率不如传统的cross bar结构，这也许是AMD最终放弃这一架构的一个原因。可惜的是当时的生产工艺还是80nm，512-bit的显存位宽要占据相当大的晶体管规模，AMD的环形总线技术也没有普及开来，到HD 3000系列上甚至精简为256-bit，但是搭配高速GDDR3显存来弥补。

R600作为AMD推出的第一代统一渲染架构在虽然有亮点，但是在市场上并没有引起玩家的共鸣，且性能上相对NVIDIA的G80并没有胜算，所以在很长一段时间内AMD都处于劣势。在后来的R700等产品上，AMD仍然只是在R600的架构上作了一些小小的改动，一直到DX11时代，AMD依然延续了R600开创的4D+1D超标量结构，通过新工艺大幅提高sp单元数量来获得性能提升。而NVIDIA却是选择走了另外一条路，当然这是后话了。

点评：

NVIDIA：不可否认，G80的先发制人给NVIDIA在市场上带来巨大的成功，而CUDA的出现降低了GPU开发的门槛，借助GPU强大的浮点运算能力，开发者可以用标准的C语言编程实现CPU也无法企及的大规模并行计算，深得很多开发者的亲睐。

AMD：为了迎接DX10的降临，AMD也重新设计其架构。也许由于G80风头太劲，且性能上相对G80并没有胜算，使收购后的ATI显得有些萎靡，很快就被改进版的RV670架构取代。

相关报道

最热文章排行查看排行详情

邮件订阅

分享到