从GPU诞生说起：AMD统一渲染架构回顾及展望-快科技-科技改变生活

Xenos与第一款统一渲染架构GPU

不过对于很多GPU爱好者来说，第一次接触统一渲染架构的概念并非来自桌面显卡，而是当时还没被收购的ATI于2005年与微软合作发布的XBOX 360游戏主机采用的Xenos图形处理器。Xenos采用了统一渲染架构，顶点、像素等操作都在US上执行，架构上区别于ATI以往任何一款GPU，是ATI第一代统一渲染架构，对日后的R600等也有较大影响。关于的详细架构，这里限于篇幅就不再过多介绍，感兴趣的读者可以自行查阅。

Xenos的逻辑架构示意图

那么第一款统一渲染架构的桌面GPU呢？虽然理论上这款GPU非ATI莫属，毕竟已经有了Xenos的设计经验。不过由于2006年7月份被AMD收购，ATI主要忙收购之后的事宜，研发精力大打折扣，反倒被没有统一渲染架构设计经验的NVIDIA在同年7月份抢先发布G80核心的GeForce 8800 GTX显卡，掀开了桌面统一渲染GPU架构的序幕。G80是NVDIA显卡历史上一款极具划时代意义的GPU，革命性的架构影响了日后的数代显卡。（虽然G80与AMD毫不相干，但通过G80的和下文R600的对比，我们能够发现A/N两家在面对统一架构时做出的不同选择。）

G80的流处理器结构

G80架构上的改变可谓相当激进，在实现统一渲染单元（Unified Shader，US）的过程中，将传统GPU架构中VS和PS中的4D矢量 ALU重新设计为功能更全的1D标量ALU，每一个ALU都有自己的专属指令发射器，所有运算全部转化为1D标量运算，可在一个周期内完成乘加操作。这种1D标量的ALU被NVIDIA称为流处理器（Stream Processors，SP）。

G80核心架构图

G80采用的1D标量式的流处理器架构称为多指令多数据流架构（MIMD），完全区别于传统GPU的SIMD架构。MIMD走的是彻底的标量化路线，这种实现的最大好处是灵活、效率更高，不论是1D、2D、3D、4D指令，G80都通过编译器将其拆成1D指令交给不同的SP来处理。

每个TPC的详细结构

这样也带来了一些问题，传统GPU中一个周期完成的4D矢量操作，在这种标量SP中需4个周期才能完成，或者说1个4D操作需要4个SP并行处理完成，那么执行效率是否会受到很大影响呢？不过NVIDIA异步架构将核心频率和流处理器频率分离，流处理频率进行了大幅提升，达到两倍于核心频率的水平，同时大幅增加流处理器数量的方法很好的解决了这一问题。

除了流处理器，G80的纹理单元也被重新设计，将传统纹理单元（TMU）的功能拆分为两种单元：纹理寻址单元（Texture Address Unit）和纹理过滤单元（TexTure Filtering Unit），它们以跟核心频率相同的频率运作，以1：2的比例组成了新的纹理渲染阵列（Tex Array）。

所以规格方面，G80核心拥有128个流处理器、64个纹理单元和24个光栅单元，由8个TPC（Thread Processing Cluster，线程处理器集群）组成，每个TPC中拥有两组SM（Streaming Multiprocesser，流式多处理器），每组SM拥有16个流处理器和8个纹理单元。每一个TPC都拥有独立的8个纹理过滤单元（Texture Filtering Unit，TFU）、4个纹理寻址单元（Texture Address Unit，TAU）以及L1缓存。

虽然MIMD架构看起来无懈可击额，不过和任何事物一样，GPU架构也不可做到完美。虽然1D标量ALU的设计执行效率很高，但也有相应的代价。理论上4个1D标量ALU和1个4D矢量ALU的运算能力是相当的，但是前者需要4个指令发射端和4个控制单元，而后者只需要1个，如此以来MIMD架构设计的复杂度和所占用的晶体管数都要远高于SIMD架构。

相关报道

最热文章排行查看排行详情

邮件订阅

分享到