从GPU诞生说起:AMD统一渲染架构回顾及展望
  • 朝晖
  • 2011年06月28日 17:40
  • 0
Xenos与第一款统一渲染架构GPU

不过对于很多GPU爱好者来说,第一次接触统一渲染架构的概念并非来自桌面显卡,而是当时还没被收购的ATI于2005年与微软合作发布的XBOX 360游戏主机采用的Xenos图形处理器。Xenos采用了统一渲染架构,顶点、像素等操作都在US上执行,架构上区别于ATI以往任何一款GPU,是ATI第一代统一渲染架构,对日后的R600等也有较大影响。关于的详细架构,这里限于篇幅就不再过多介绍,感兴趣的读者可以自行查阅。

从GPU诞生说起:AMD统一渲染架构回顾及展望 Xenos的逻辑架构示意图

那么第一款统一渲染架构的桌面GPU呢?虽然理论上这款GPU非ATI莫属,毕竟已经有了Xenos的设计经验。不过由于2006年7月份被AMD收购,ATI主要忙收购之后的事宜,研发精力大打折扣,反倒被没有统一渲染架构设计经验的NVIDIA在同年7月份抢先发布G80核心的GeForce 8800 GTX显卡,掀开了桌面统一渲染GPU架构的序幕。G80是NVDIA显卡历史上一款极具划时代意义的GPU,革命性的架构影响了日后的数代显卡。(虽然G80与AMD毫不相干,但通过G80的和下文R600的对比,我们能够发现A/N两家在面对统一架构时做出的不同选择。)

从GPU诞生说起:AMD统一渲染架构回顾及展望 G80的流处理器结构

G80架构上的改变可谓相当激进,在实现统一渲染单元(Unified Shader,US)的过程中,将传统GPU架构中VS和PS中的4D矢量 ALU重新设计为功能更全的1D标量ALU,每一个ALU都有自己的专属指令发射器,所有运算全部转化为1D标量运算,可在一个周期内完成乘加操作。这种1D标量的ALU被NVIDIA称为流处理器(Stream Processors,SP)。

从GPU诞生说起:AMD统一渲染架构回顾及展望 G80核心架构图

G80采用的1D标量式的流处理器架构称为多指令多数据流架构(MIMD),完全区别于传统GPU的SIMD架构。MIMD走的是彻底的标量化路线,这种实现的最大好处是灵活、效率更高,不论是1D、2D、3D、4D指令,G80都通过编译器将其拆成1D指令交给不同的SP来处理。

从GPU诞生说起:AMD统一渲染架构回顾及展望 每个TPC的详细结构

这样也带来了一些问题,传统GPU中一个周期完成的4D矢量操作,在这种标量SP中需4个周期才能完成,或者说1个4D操作需要4个SP并行处理完成,那么执行效率是否会受到很大影响呢?不过NVIDIA异步架构将核心频率和流处理器频率分离,流处理频率进行了大幅提升,达到两倍于核心频率的水平,同时大幅增加流处理器数量的方法很好的解决了这一问题。

除了流处理器,G80的纹理单元也被重新设计,将传统纹理单元(TMU)的功能拆分为两种单元:纹理寻址单元(Texture Address Unit)和纹理过滤单元(TexTure Filtering Unit),它们以跟核心频率相同的频率运作,以1:2的比例组成了新的纹理渲染阵列(Tex Array)。

所以规格方面,G80核心拥有128个流处理器、64个纹理单元和24个光栅单元,由8个TPC(Thread Processing Cluster,线程处理器集群)组成,每个TPC中拥有两组SM(Streaming Multiprocesser,流式多处理器),每组SM拥有16个流处理器和8个纹理单元。每一个TPC都拥有独立的8个纹理过滤单元(Texture Filtering Unit,TFU)、4个纹理寻址单元(Texture Address Unit,TAU)以及L1缓存。

虽然MIMD架构看起来无懈可击额,不过和任何事物一样,GPU架构也不可做到完美。虽然1D标量ALU的设计执行效率很高,但也有相应的代价。理论上4个1D标量ALU和1个4D矢量ALU的运算能力是相当的,但是前者需要4个指令发射端和4个控制单元,而后者只需要1个,如此以来MIMD架构设计的复杂度和所占用的晶体管数都要远高于SIMD架构。


文章纠错

  • 好文点赞
  • 水文反对

此文章为快科技原创文章,快科技网站保留文章图片及文字内容版权,如需转载此文章请注明出处:快科技

观点发布 网站评论、账号管理说明
热门评论
查看全部评论
相关报道

最热文章排行查看排行详情

邮件订阅

评论0 | 点赞0| 分享0 | 收藏0