AMD复仇之剑：Bulldozer推土机预览及展望-快科技-科技改变生活

Bulldozer：AMD的复仇之刃

今年1月份，AMD公司提拔了两名技术高管Sam Naffziger、Leendert van Doorn为公司的科研理事(Corporate Fellow)，这也是AMD公司对技术人员的最高奖励，之前获得这份殊荣的还有02年的Rich Witek、05年的Rich Oehler、06年的Bruce Gieseke以及07年的Raj N.Master和Phil Rogers。

在这些技术大牛当中有两人是跟AMD的核心业务CPU设计有关的，Bruce Gieseke领导设计了AMD的“先进直连”架构，也就是自K8时代以来在AMD CPU架构中有着重要作用的HyperTransport（HT）总线技术。Sam Naffziger的经历更牛，出身HP，后转投大腕Intel，05年开发出安腾(Itanium )架构，06年投奔AMD，参与Bulldozer（推土机）和APU架构研发，现在所知的Bulldozer、Llano(K10.5架构APU)、Orochi(Bulldozer服务器版)以及Trinity(Bulldozer增强架构)都是在他的参与下研发的。

有意思的是，K8是在2003年发布上市的，而直到三年后它的设计师才得到了AMD的奖励，Bulldozer架构的CPU迄今尚未上市，其设计师就已经修成正果，位列企业理事“仙班”，其中的含义不言而喻—AMD不仅对"Bulldozer"寄予厚望，而且也对它充满了信心。

自信来自于实力，作为AMD耗尽心血研发的新一代CPU，Bulldozer堪称K8之后的最大革新（K10架构只能算K8的增强版，架构变化并不多），它改变了传统CPU的设计思路，将CPU模块化，每个模块又可细分为两个微内核，这两个微内核相互独立而又高度共享浮点单元、L2缓存等功能单元。同时模块化设计也使得AMD的CPU支持多线程技术，每个模块就可以处理两个线程，这种实现多线程的方式与目前支持多线程技术的CPU所用的方法有很大区别，Bulldozer的架构设计也要重来。

由于这几年AMD一直没有发布什么CPU新产品，AMD在当前的CPU竞争中实际上一直处于防守态势，Phenom II面对Intel的疯狂进攻已经显露疲态，因此即将发布的Bulldozer对AMD来说意义非凡，它成为AMD的反攻武器，只许成功不能失败。Bulldozer到底有多锋利，将成为AMD能否复仇的关键。

梦断SSE5，Bulldozer的开场序曲

早在Bulldozer这个名字未被人们熟知之前，AMD就已经为它做准备了新一代X86指令集。指令集是CPU架构的的关键所在，使用什么样的指令集也决定了一款CPU的先进程度。在X86架构中，SSE（Streaming SIMD Extensions，流式单指令多数据扩展）指令集当之无愧地成为绝对主角，作为X86架构的当家人，Intel也一直牢牢掌控着SSE指令集的发展方向，从SSE、SSE2、SSE3再到分批问世的SSE 4.1和SSE 4.2都是Intel首先发布的。

AMD复仇之剑：Bulldozer推土机预览及展望抢先发布SSE5指令集

2007年8月AMD抢先宣布了SSE5指令集扩展，并表示将之用于2009年发布的Bulldozer架构处理器上（AMD当时画了好大一个饼）。SSE5依然是128位指令集，一共有170条指令，旨在解决先前SSE指令集的一些缺陷和不足，充分发挥多核心及多媒体的性能。其中最主要的是新增的3操作数指令(3-Operand Instructions)和熔合乘法累积(Fused Multiply Accumulate，FMAC）指令，这两条指令都可以大幅提高操作效率，简化代码。

作为老大的Intel当然不会那么容易就范，直接弃用SSE名称，于08年推出了AVX（Advanced Vector Extensions，高级矢量扩展）指令集规范（详细情况可点击这里）。AVX支持256位指令，理论性能可比当前128位CPU提高一倍，另外AVX在思路上与SSE5有异曲同工之妙，同样支持3操作甚至4操作数指令，乘加指令以及一些置换指令，而且还有SSE5没有的特性，比如SIMD浮点指令长度加倍，为旧版SSE指令增加3操作数支持等。由于Intel的强势，软件厂商大都倒向支持AVX指令。

AMD复仇之剑：Bulldozer推土机预览及展望 Intel后发先至赢得了下一代指令集之争

AMD眼看大势已去，也于09年5月份宣布支持AVX指令集，但是SSE5中的一些特色指令并未完全弃用，而是利用AVX规范重写，其中的FMA4、XOP和CVT16指令都将在Bulldozer架构上得到支持，这也是泄露的Bulldoerz处理器的CPU-Z截图上会显示超多指令的原因。

这场指令集之争也对Bulldozer的上市造成了一定影响，前面提到AMD最初打算在2009年发布Bulldozer，但是因为要重新设计一些功能单元以支持AVX，Bulldozer的上市时间也是一拖再拖（AVX的影响也只是部分原因，Bulldozer的延期还有其他因素）。

谈到指令集的问题，其实Bulldozer身上不仅加新，而且也有除旧，它不再支持AMD独家的3DNow!指令，去年的时候AMD就已放言未来的处理器不再支持这一指令集，而Bulldozer的一些文档上已经看不到3DNow！指令集的身影了。由于目前单独针对这一指令优化的软件不再是主流，放弃3DNow!指令也不会有什么影响，不过其中的PREFETCH、PREFETCHW两条指令将会保留。

Bulldozer未出世就已遭遇险境，AMD除了在X86-64位指令上令Intel低过一次头之外，指令集方面还是要跟在Intel后面。乐观点看，这并非什么坏事，指令集统一对软件开发是一件好事，双方指令集不兼容更容易导致软件应用层面出现问题。虽然在指令集上落了下风，不过Bulldozer的革新重点不在指令集上，而是革命性的架构设计，故事才刚刚开始。

突破传统，Bulldozer设计思路大不同

自从X86架构成型以来，Intel和AMD等厂商的CPU设计思路几乎是一成不变，为了获得更强的性能，采取的多是优化或者加入新指令集，加大L2缓存（cache）容量，引入L3缓存等方式，这些年除了HT与QPI直连总线算得上创新之外，CPU内核部分并没有太大改变。进入多核时代后，设计思路则转向多核心以及多线程两种方式。

CMP（Chip MultiProcessors）也就是增加核心数量，现在桌面级CPU拥有四核心乃至六核已不是什么新鲜事，而服务器领域也有十二核、十六核CPU出现。用CMP方式提升性能是显而易见的，但是它的缺点是成本要随核心数增加而不断提高，内核数量达到一定程度性能提升也不成比列。

SMT（Simultaneous Multithreading）也就是我们常说的超线程技术，它可以让一个CPU核心的多个线程共享资源并同步执行，硬件上几乎不需要增加成本。虽然服务器领域应用SMT多线程技术已有多年，但把SMT技术带入桌面领域还要归功于Intel，P4时代以HT（Hyper-Threading）身份登场，不幸遭遇P4的疲糜，之后的Core时代HT超线程技术销声匿迹，直到Nehalem架构上重新启用并一直延续到现在的SNB架构，只是现在的超线程技术与与P4时代的HT超线程在技术原理上早已不完全相同。

AMD的CPU并不支持SMT超线程技术，目前AMD在市场上实行的“田忌赛马”策略实质上就是用CMP技术对抗Inte的SMT技术，相近价位下用四核以及三核对抗Intel的双核，用六核对决Intel的高端四核。这种策略看似高明，但是二者在成本上差异明显，是苦是乐只有AMD自己知道了。

之所以扯这么多CMP和SMT的差别，就是因为AMD的Bulldozer架构的设计思路不同于当前的CMP以及SMT，而是走上了第三条路，既非硬件上增加CPU核心数，也不是软件上虚拟多线程。

Bulldozer不走寻常路

AMD在设计Bulldozer时考虑的是如何最大化提高多核心多线程的效能，传统的CMP与SMT各有自己的优点，同时也存在着局限性，SMT不如CMP效率高，而CMP代价（不单单是成本）比SMT高。为此Bulldozer一改传统CPU核心设计思路，设计了一个模块（Module），每个模块中又有两个独立又关联的内核，借此实现了一个模块同时运行两个线程的目的。

Bulldozer一改传统而采取模块化设计实现了SMT多线程

组成Bulldozer的一个功能单元的不再是传统的整数+浮点单元内核，AMD称之为一个模块（Module），每个模块中拥有两个整数单元（Integer Unit）和一个共享的弹性浮点单元（Flex Floating Point)，其中整数单元各自配备了一个调度器（Scheduler），因此可以同时执行两路线程，AMD称自己的多线程技术为CMT（Cluster Multithreading）。

理想情况下，需要计算的数据恰好全是整数型，那么经预读（Fetch）、译码（Decode）之后数据会分别经两个调度器分配至相应的整数单元进行计算，同一时间内可以有两个线程在运行，而且这两个线程都是实打实的硬件计算，效率远超HT超线程这样的软件模拟。之前有传言AMD在搞的是逆线程（anti-HT），可以将多个线程合并为一个线程，这个技术的存在与否并没有谁来证实，不过看看现在的Bulldozer架构，两个整数单元可以同时运算一个任务，从模块的角度看就相当于把两个线程合并为一个，与逆线程的思路有异曲同工之妙。

增加的一个整数单元只占用一个模块面积的12%，占整个核心的面积

据AMD称，目前CPU中超过80%的运算都是整数运算，增加一个整数单元的好处是显而易见的，用增加5%的核心面积的微小代价即可换来80%的整数性能提升。

最终设计出来的Bulldozer架构如何呢？

4模块8核心Bulldozer的架构图（来源：chip-architect）

这张图来自chip-architect.com，也是目前最为详细的揭露Bulldozer架构的一张图，结合AMD官方公布的一些消息可以确认图中的大部分信息还是很准确的。

上图中显示每MB L3缓存的面积为3.85mm²，对此结果笔者存疑，因为缓存通常都要占用很大面积，不过09年的时候AMD曾和T-RAM公司达成合作，未来的32nm工艺将会使用T-RAM作为缓存，如果Bulldozer上使用了技术先进的T-RAM缓存，那么缓存的占用面积会更小，上述缓存面积还有可信度。

Bulldozer每个模块的核心面积为18.0mm²（不含L2缓存），包含2MB L2缓存的情况下每个模块核心面积则为30.9mm²，集成2.13亿个晶体管。与之对比的是SNB架构每个核心的面积为18.4mm²，同时集成512KB L2缓存。那么由此估算下，Bulldozer的每个核心可以看作集成1MB L2缓存的同时面积约为15.5mm²，核心面积要小于SNB。AMD的Bulldozer在新工艺的支持下，同等级别下的核心面积已经接近Intel的水平（甚至更低），远高于K10时代的水准。

这里只考虑了CPU部分的核心面积，还要注意到SNB和Bulldozer都会集成了GPU核心，它们对核心面积的大小也有重要影响。SNB中GPU分为HD 2000和HD 3000系列，双核CPU的核心面积分别为131mm²和149mm²，不过Bulldozer目前集成的GPU消息不明，所以这个无从对比。

高度共享，弹性浮点单元解析

前文提到的性能提升80%是有条件的，运算是整数型的才可能有如此幅度的提升，虽然浮点运算只占20%左右，一旦遇到技术与商业领域中常用到的浮点计算，一组浮点单如何满足性能需要也成了关键，对此AMD给出的解决方式是增强浮点单元的弹性，运算指令可拆分可合并以适应不同情况。

AMD复仇之剑：Bulldozer推土机预览及展望 Bulldozer的Flex FP浮点单元为两个整数单元所共享使用

按照AMD官方博客指出的那样，Bulldozer的Flex FP虽然为两组整数单元共享，但是它拥有独立的浮点调度器，并不依赖整数单元的调度器来分配指令，同时也不占用整数单元的资源来排定256位的执行方式。相比之下，Intel的CPU架构中整数单元和浮点单元共用一组调度器，需要同时分配整数和浮点运算的指令。

Bulldozer的Flex FP单元也会支持SSE3、SSE4.1/4.2、AES、AVX以及AMD演化自SSE5的FMA4、XOP和PCLMULQDQ等多种指令，前面的几种早已得到支持，AVX则是最新的指令集，Intel也只是在刚刚发布的SNB架构CPU上首次使用。

Intel改进了SNB的浮点单元，将16个XMM寄存器改为256位的YMM寄存器，并去掉了现有架构中只能载入/储存128位指令的限制，因此每周期可以执行一个256位FP ADD（浮点加）或者FP Multiply（浮点乘）指令，同时配以更大的缓冲器（Buffer）以匹配位宽提升。

Flex FP浮点单元由两个128位FMAC单元组成

Bulldozer同样支持256位AVX指令，但是支持方式与SNB有所不同。它的浮点单元由两个128位FMAC（Fused Multiply-accumulate ）单元组成，这个浮点单元通用性很强，每周期可以执行任意一个FAMC(Floating-Point Multiply-Accumulators，浮点累积乘)、FADD（Floationg Point Addition，浮点加）或者FMUL（Floationg Point Multiplication,浮点乘）计算，相比之下Intel的浮点单元功能较为专一，FADD和FMUL计算需要专用的FADD及FMUL管线。AMD的浮点单元的好处是针对不同的浮点计算有充足的弹性空间，如果指令是256位的，那么两个FAMC单元可以合并为一个256位浮点单元计算，如果指令不是256位的而是128位的，那么FAMC单元可以同时执行两个同样的FADD或FMUL指令。

对于另一个AES（Advanced Encryption Standard，高密度加速标准）指令，只要是符合FIPS 197标准的，Flex FP也能提供硬件加速，而且每周期可以操作16B指令。AES加速功能主要针对商用市场，现有的八核Xeon至强处理器拥有8个浮点单元，Bulldozer的的服务器版Interlagos最多会有16个Flex FP单元，其运算带宽会两倍于现有产品。

Flex FP浮点单元拥有高弹性、高通用性的优点，Bulldozer因此可以少设计一组浮点单元，这样不仅减少了核心面积，同时也降低了功耗，因为在不执行256位AVX指令的时候（目前支持AVX指令的应用尚且不多）大多只用到一个128位FMAC单元，其空闲功耗可以降至峰值功耗的2%。

继承与发扬，Bulldozer的HT总线及内存设计

如果说Bulldozer的模块化设计和Flex FP弹性浮点单元是一种技术创新，那么Bulldozer的HT总线和内存控制器部分则是对传统的继承与发扬，技术规格没有多大变化，只是HT总线提升至3.1规范，而内存控制器最多可以支持四通道DDR3。

HT总线是AMD研发的一种高速点对点单双工数据总线，主要用于芯片级的数据传输,包括CPU与CPU、CPU与芯片组、芯片组南桥与北桥等。HT总线支持2、4、8、16和32bit等五种通道模式，并采用了DDR双倍数据传输，目前Phenom II X4 900系列使用的HT 3.0最高频率为2.6GHz，其余型号大多只有1.8-2.0GHz。

HT 3.1总线的技术规格

Bulldozer上将会使用最新的HT 3.1总线，最高频率提升至3.2GHz，数据传输率可达6.4GT/s，已经追平了Intel QPI总线的最高6.4GT/s速度，双向32bit通道下理论带宽可达51.2GB/s（3.2G*2*2*32/8)。

K8时代AMD将内存控制器集成在CPU内，这样可以降低读写延迟，再结合双通道模式其内存性能大幅超越当时的P4以及Core架构的C2D处理器。自Nehalem架构开始Intel也开始集成内存控制器，i7 900系列甚至支持三通道DDR3模式，Intel处理器的内存性能也逐渐甩开AMD一条街。

AIDA64记录的不同CPU平台的内存读取速度（仅供参考，内存带宽受不同配置影响较大）

从上图可以看到，当前的LGA 1155/1156处理器的内存带宽在10-15GB/s左右，而Phenom II多在8G/s上下，落后Intel相当多，只能领先Core 2级别的旧型号CPU。

这种局面有望在Bulldozer上得到改观，据目前的消息来看，16核的interlagos会支持四通道DDR3内存，而桌面级的zambezi依然是双通道DDR3，但是内存带宽会有大幅提升。首先是搭配的内存规格升级，K10时代默认支持的是双通道DDR3 1333MHz（速率1.33GT/s），Bulldozer默认支持的则是DDR3 1866MHz（1.86GT/s），双通道理论带宽为29.8GB/s，虽然暂时还没有实测内存带宽，但是Bulldozer的内存性能值得期待，至少也应该达到SNB架构的主流水准（期望如此）。

假设Bulldozer的内存性能真有如此提升，那到底是什么带来的进步呢？AMD的官方博客只说Bulldozer可以降低本地以及远程访问内存的时间，并没有详谈。对此我们只能猜测：第一是内部架构的改变，每模块有两个内核，每个内核又有2个ALU和2个AGU单元，每周期可以执行四个内存操作，高于目前的CPU水平。第二则是HT 3.1总线提高了芯片内部的传输带宽，外部的内存带宽也因此受益，第三则是支持的内存标准提高，从DDR3 1333到1866标准的提高对内存带宽提升还是很明显的。

性能催化剂，二代Turbo Core加速

Bulldozer的设计目标是提高多线程性能，但是目前仍有许多软件和应用只能利用单核单线程，对于这种情况Intel和AMD都给出了提高单核性能的方法，Intel的名为Turbo Boost，AMD的则为Turbo Core。

这两种技术的思路相似，都是通过降低闲置内核的负载而单独对一个或者多个内核进行Turbo（涡轮增压，汽车中常见的提高动力的方法），进而拉升单核频率以提高单线程性能。Intel的Turbo Boost已经发展到第二代，并在SNB架构中得到应用，我们之前也有文章详细解析。

AMD的Turbo Core加速首次应用在Phenom II X6六核处理器上，但是灵活性欠佳，只能将非活动内核的频率降至800MHz而非接近关闭（Intel的Turbo Boost技术可以将空闲核心降至C6接近完全关闭的状态），活动内核的频率在加压状态下可以提高400-500MHz，不能对单个核心进行控制。有鉴于此，Bulldozer架构也改进了Turbo Core动态加速技术，升级为Turbo Core 2.0。

支持Turbo Core 2.0的Bulldozer与当前支持动态加速的皓龙对比

有关Turbo Core 2.0的详细资料并不多，再次通过AMD的官方博客我们可以了解到，Turbo Core 2.0的频率提升空间有了明显提高，在所有核心处于活动状态下频率也可以提高500MHz。这是个惊人的进步，因为即便是Intel的Turbo Boost技术也只能保证在所有核心活动的情况下提高一个倍频，也就是133MHz（Nehalem架构）或100MHz（SNB架构），而最新的i7-2600K最多也只能提高400MHz，从3.4GHz加速到单核最高3.8GHz。

所有核心满载的情况并不多见，那么更为常见的双核满载其余核心低负载的状态下Turbo Core 2.0又能加速多少呢？AMD没有给出具体的频率数据，只是说会高于500MHz。假如双模块四核心的Bulldozer处理器的起步频率为3.0GHz（这个频率并不算高），那么加速后的频率可能会达到3.6GHz或者更高，性能值得期待。

另一个值得注意的是Turbo Core 2.0加速只受TDP功耗限制，而不受CPU温度掣肘。这也是一个明显的进步，Intel的Turbo Boost在加速时还要兼顾TDP以及CPU温度的双重影响，而Turbo Core 2.0可以在温度较高的情况下依然保持加速。

官方博客肯定是报喜不报忧，从中我们虽然可以看出Turbo Core 2.0的加速空间更大，限制更小，但是其灵活性上依然不能匹敌Intel，预计Turbo Core 2.0还是不能单独调节每个核心的频率。当然，对大多数人来说，只要这个动态加速能较为明显地提高性能，而且所有Bulldozer架构的处理器都能享用（不要学Intel奇货可居），做到这两点就足以让用户动心了。

瞻前顾后，Bulldozer与K10、SNB架构的对比

Bulldozer将会取代AMD的K10架构，它也将直面Intel最新的SNB架构的威胁，Bulldozer必须杀出一条血路，不仅需要完胜当前的K10处理器，而且也要面对SNB甚至未来的Ivy Bridge架构的夹击，那么Bulldozer相比其他两种架构又如何呢？

K10与Bulldozer架构示意图（图片来自anandtech）

前端的指令缓存单元没有变化，依然是64KB 指令缓存，而Decode解码单元从K10的3个增加到四个，因为整数单元增加了一个，需要更多的Decode单元与之匹配，四发射指令的Bulldozer的单核性能会比三发射的K10有提升，理论上其性能应与同为四发射指令的Nehalem/SNB架构持平。

前面提到了Bulldozer设计了两个整数单元，实际上这两个整数单的规格要比K10中的整数单元有所简化，ALU（Arithmetic Logical Unit，算数逻辑单元）和AGU单元(Address Generation Units，地址生成单元)从K10中的各3个减少到各2个，当然总数量方面则是增加到各4个，因此性能方面会有提高。

浮点单元的架构看起来很相似，但是内部设计已经有很大不同，这部分可以参见前面的弹性浮点单元解析。

真正有减少的是整数单元的L1 Data Cache（数据缓存），K10架构中整数单元配置的是64KB数据缓存，而Bulldozer则是两个整数单元各自设计了16KB数据缓存，总的L1数据缓存只有32KB，低于K10的64KB。AMD的解释是现在的乱序指令架构已经可以很容易地隐藏L2缓存的延迟（一般L1缓存是与CPU同速运行，L2则是半速运行，所以会有一定的延迟等待时间），而Bulldozer增大了L2缓存容量，一个模块中拥有2MB L2缓存，而K10架构Phenom II处理器每个核心只有512KB L2缓存，只有Athlon II因为无L3缓存的缘故才有2MB的L2缓存。

Sandy Bridge与Bulldozer架构示意图(图片来自realdowrdtech）

评价SNB与Bulldozer的架构优异就不那么容易了，因为AMD和Intel的设计思路和要求不同，很难说Bulldozer比SNB好或者差，尤其是它们对多线程的处理方式。SNB继续沿用Intel的SMT思路进行软件多线程，在几乎不增加成本的情况下实现了多线程，而Bulldozer则是开创了AMD特色的CMT多线程，利用增加的一个整数核心实现多线程，这是一种硬件级的超线程，理论上效果会比Intel的更好，但是目前并没有实际测试，无法得出准确结论。

同时，这两种架构对待浮点和AVX的方式也不同，Intel的浮点单元改进了寄存器设计，处理AVX指令时是实实在在的256位运算，AMD的Flex FP浮点部分是由两个128位FMAC单元组成，虽然官方宣称它可拆可合，弹性十足，但是在处理256位AVX指令时效率不如原生256位的SNB处理器，还要依赖软件厂商对这种架构进行合理优化。

最终的对比还要等待Bulldozer正式上市，有了实际评测数据后才能下定论。

代价几何，Bulldozer的功耗控制及工艺制造

除了内部架构设计，Bulldozer的功耗水平也值得注意，毕竟功耗对用户有着实实在在的影响，而且有Intel这个榜样在前，Bulldozer的功耗也是只许成功不许失败。

首页介绍的AMD新任企业理事Sam Naffziger擅长的就是功耗管理，加盟AMD时主要任务之一就是设计高频率低功耗电路，而且成绩显著，不然也不会被AMD擢升了。去年的ISSCC（国际固态电路会议）上，Sam Naffziger详细介绍了AMD另一款得意之作Llano的功耗管理技术，Llano将会支持Core Power Gating（核心电源门控）、Digital APM Module（数字APM模块）以及De-Populated Clock Grid等技术，不仅可以精确测量CPU内部的温度和功耗，而且可以随时将不使用的核心关闭以减少消耗。

支持Turbo Core 2.0的Bulldozer与当前支持动态加速的皓龙对比

作为Llano和Bulldozer的双料研发者，Bulldozer毫无疑问也会采用上述功耗控制技术，据悉六核及八核的Bulldozer的TDP功耗为125W，四核的为95W，与Intel目前的水准持平。

与功耗息息相关的还有CPU的生产工艺，财大气粗的Intel现在使用的已经是第二代32nm工艺了，最近还推出了3D tri-Gate工艺，一哥地位不言而喻，而Bulldozer将会在第二季度发布时才会使用Global Foundries的32nm SOI工艺生产，生产工艺继续落后Intel近两年的时间。

AMD复仇之剑：Bulldozer推土机预览及展望 Bulldozer将会使用GF的32nm SOI+HKMG工艺生产

GF的32nm工艺除了继续使用SOI（Silicon On Insulator,绝缘体上硅）技术外，也将首次使用HKMG（高K金属门）工艺，使用HKMG工艺的好处是可以减少栅极的漏电量，降低栅极电容，进而使得晶体管的尺寸进一步缩小，这也是继续提高制程的关键技术之一。

AMD出售了晶圆工厂，现在的制程工艺完全依赖GF公司，后者的制造工艺也将逐渐转向32nm，不过整体技术与Intel还有很大差距，而且Intel的3D工艺已经可以应用在22nm Ivy Bridge处理器上，两者之间的差距进一步拉大，AMD在这方面还要很长很长的路要走。

有关Bulldozer的几个疑问

· Bulldozer什么时候发布?

AMD从来没有官方宣布过Bulldozer的正式发布日期，所以不存在什么延期一说，但是事实是从早期流传的2009年发布一直到现在也没有见到Bulldozer的身影。目前比较准确的消息是今年第二季度发布，但是还没有确定日期，有消息说会在4月发布，不过最早发布的会是服务器版的，桌面级可能还得等等。

之前有可靠消息称桌面版Bolldozer会在6月11日发布，批量上市时间为6月20-24日，不过最新的消息不容乐观，消费者恐怕还要继续等等，6月份的台北电脑展上Bolldozer会露面展示，但是最终的发布时间可能要延后到第三季度，耐心等吧。

· Bulldozer的具体参数有没？多高频率多高电压啊

这个也没有准确的消息，据悉Bulldozer的工作电压在0.8-1.3V之间，比目前的Phenom II略低一些，频率方面应该会达到3.5GHz，再加上Turbo Core 2.0的500MHz加速，那么实际运行频率超过4GHz也说不定。如果消息属实，其频率要明显领先当前的AMD处理器，比Intel目前的旗舰i7-2600K也要高。

超频性能方面，得益于新的功耗管理和32nm SOI工艺，Bulldozer的超频空间会比目前的K10有提升，而且Intel的SNB架构在超频方面趋向保守，倍频锁定，外频超频空间非常小，因此这也是Bulldozer的反攻机会。

· Bulldozer使用什么接口，我们需要换主板吗？

服务器版的Bulldozer将会沿用C32/G34插槽，可以兼容现有的服务器主板。桌面级的Bulldozer则会升级为AM3+接口，针脚数由AM3的938针提高到942针，因此除了极个别情况外Bulldozer处理器不能用在现在的主板上，但是未来的AM3+主板可以向下兼容Phenom II处理器（不过估计没人会买新主板只为用Phenom II处理器吧）。

AMD之前明确说AM3主板不能支持Bulldozer处理器，需要AM3+接口。不过这个问题也被厂商破解了，华硕的8系AM3主板就可以支持新一代处理器，微星的部分AM3主板也可以通过刷新BIOS的方式支持Bulldozer，至于技嘉和华擎，他们目前新出的8系主板插座已经换成AM3+，可以支持Bulldozer处理器，以前的型号估计没戏了。

Bulldozer配套的芯片组将是AMD 9系列，北桥分别有990FX、990X、980G（整合型号）和970四款，南桥则有SB950和SB920，具体技术规格变化不大，而且也没有原生USB 3.0支持。Bulldozer将和9系主板、HD 6000系列显卡组成新一代天蝎（Scorpio）3A平台。

AMD的APU平台已经开始原生支持USB 3.0，目前有A75和A70M两款，它们其实就是原来的Hudson-D3和Hudson-M3，我们在微星E350主板的评测中已经介绍过。不过Bullodzer的桌面芯片组还是传统的南北桥结构，9系主板上依然没有原生USB 3.0支持。

· Bulldozer的性能是否能超越Intel的SNB处理器？

这个问题毫无疑问是最为人关注的，本来可以放到第一个提问，笔者特意将它放到最后，因为笔者的回答恐怕是一盆凉水，寄希望Bulldozer的性能超越SNB的想法是不现实的。

Bulldozer的设计目标是提高CPU的多线程能力，去年的Hot Chips 22会议上，Bulldozer的总设计师Mike Butler做的主题演讲就是：AMD "Bulldozer" Core - a new approach to multithreaded compute performance for maximum efficiency and throughput，重点讲述的就是bulldozer的多线程处理能力，虽然这不意味着Bulldozer的单核性能没有提升，但是还要看到SNB并非泛泛之辈。

Intel的SNB架构历经Core、Nehalem两代架构磨炼现在已经非常出色，性能也在稳步提高，而且新的AVX指令集、256位浮点设计也不乏新意，在传统弱项—集成GPU性能方面进步也非常明显，SNB的综合实力不容小觑。

之前虽有消息说Bulldozer的性能领先Core i7-950有50%之多，但是也要看到，消息来源中使用的是4模块8核心Bulldozer，i7-950只是4核心8线程，在多线程应用中8核心战胜4核心是理所应当，面对更高端的对手产品，Bulldozer并没有什么胜算。

根据多方评估，笔者认为Bulldozer的多线程性能可以超过上代的Core i5/i7，与SNB有的一拼，但是单核性能不如SNB，游戏性能要看具体游戏优化，多核支持较好的游戏可能反超SNB。当然，具体的性能对比还要等到产品最终发布，而且还要看AMD用什么等级什么价位的Bulldozer与SNB对阵，市场策略得当的话Bulldozer一样可以大受欢迎。

这段时间以来有关Bulldozer性能的泄密越来越多，无论是领先Core i7 50%还是SuperPi只要7.8秒（已被证实为假）等等，仿佛又回到了K10上市前各种传闻秒杀Core的时代，各种小道消息满天飞，AMD官方从未证实或者否认过（它是受益者，肯定不会否认），越是这样越让笔者相信自己的判断，Bulldozer的性能不会带来奇迹，这不是说它没有进步，而是理性的预期。当然了，笔者也非常希望自己错了，希望看到Bulldozer的性能一鸣惊人，反过来能压制Intel，如果真是这样，我也愿意在Bulldozer的正式评测出来后对它说声对不起，一切由后来的评测做个评判吧。

总结：Bulldozer前途光明，道路曲折

从07年K10架构的Phenom处理器发布之后，有关Bulldozer架构的消息就已经开始流传，到现在为止已经有四年多的时间了。在此期间，Intel相继完成了Core到Nehlaem再到Sandy Bridge三代架构升级，45nm到32nm两次工艺升级，今年底甚至要开始试产22nm工艺。相比之下，这几年中AMD一直在用K10架构苦苦支撑，期间只升级了一次45nm工艺，K10架构也只在09年有过一次微小升级，并没有实质意义上的新产品发布。

Bulldozer的难产是有多方面原因的，AVX指令集的转换、GF的工艺良率以及Bulldozer架构自身的创新性都带来了一定影响。越是难产，它对AMD的意义愈发重要，AMD急需新鲜血液以提振目前动荡不安的管理层士气和消费者的信心。

AMD复仇之剑：Bulldozer推土机预览及展望 4模块8核心的Bulldozer晶圆架构图

Bulldozer的架构设计堪称十年来的一大变革，它不只是内部增加了一个整数单元这么简单，其实质是CMP多核心与SMT多线程技术之外的第三条路，由于目前CPU任务中80%的都是整数型，增加一个整数单元可以分担计算负载，从另一方面来看这就相当于同时运行两个线程，变相提高了CPU的多线程性能。

浮点单元的设计也颇有新意，两个128位FMAC单元可以为两组整数单元共享，256位AVX指令也可以拆分为两个128位指令分别计算，而且浮点单元拥有独立的调度器，无需占用整数单元的资源。但从整体来看，浮点单元的份量在整个CPU中有所弱化，而且Bulldozer的Flex FP单元虽然弹性高，但是实际浮点性能恐怕很难匹敌SNB架构。

AMD之所以这么设计，有可能是考虑到APU的存在，因为除了Bulldozer架构之外，AMD还有Llano这样的高性能APU产品存在。目前基于K10架构的Bobcat山猫架构APU已经问世，它的性能表现值得表扬。一旦Llano处理器问世，那么整合的GPU核心浮点性能远高于目前的CPU，未来不排除AMD将CPU的浮点功能转移到GPU核心上，这样才真正实现Fusion熔合的理念。

Bulldozer的设计富有新意，但是AMD要想靠它翻盘，还有许多工作要做。首先是确保Bulldozer及时发布，如果拖到6月份才发布，那么批量上市、形成产品线就需要等到下半年了，而Intel的22nm工艺Ivy Bridge架构也将在年末试产，到时Bulldozer的处境就会更艰难。第二，Bulldozer的双整数单元设计要想发挥威力，还需要软件和游戏厂商的优化支持，相信AMD已经在做这个工作，但是这还需要花费大量时间。

回头来看，数年的磨砺使得Bulldozer已经足够锋利，即使不能将Intel一举击溃，但是只要策略运用得当，AMD一样可以扭转当前的不利局面。对Bulldozer来说，它的前途是光明的，但道路是曲折的，套用一句俗话——革命尚未成功，Bulldzoer仍需努力。

PS：本文写于数月前，这段时间以来Bolldozer的消息满天飞，不管是上市时间还是性能爆料都会引起大家的围观，由此可见大家对Bulldozer还是非常期待的，毕竟AMD的桌面CPU已经有两年没有架构更新了，面对Intel的一轮又一轮的进攻只能防守，无力反击。

目前有关Bulldozer的小道消息纷飞，不过Bulldozer的架构介绍主要还是去年的Hot Chips 22会议上披露的，AMD对Bulldozer的性能一直守口如瓶，只能靠一些流言来管中窥豹。本文只能简单介绍一下Bulldozer的架构思路、设计特点等，可能会比较枯燥，最终的性能还要等未来的评测才能知晓，期望能早日揭开Bulldozer的神秘面纱。(超能网)

相关报道

最热文章排行查看排行详情

邮件订阅

分享到