Bulldozer:AMD的复仇之刃
今年1月份,AMD公司提拔了两名技术高管Sam Naffziger、Leendert van Doorn为公司的科研理事(Corporate Fellow),这也是AMD公司对技术人员的最高奖励,之前获得这份殊荣的还有02年的Rich Witek、05年的Rich Oehler、06年的Bruce Gieseke以及07年的Raj N.Master和Phil Rogers。
在这些技术大牛当中有两人是跟AMD的核心业务CPU设计有关的,Bruce Gieseke领导设计了AMD的“先进直连”架构,也就是自K8时代以来在AMD CPU架构中有着重要作用的HyperTransport(HT)总线技术。Sam Naffziger的经历更牛,出身HP,后转投大腕Intel,05年开发出安腾(Itanium )架构,06年投奔AMD,参与Bulldozer(推土机)和APU架构研发,现在所知的Bulldozer、Llano(K10.5架构APU)、Orochi(Bulldozer服务器版)以及Trinity(Bulldozer增强架构)都是在他的参与下研发的。
有意思的是,K8是在2003年发布上市的,而直到三年后它的设计师才得到了AMD的奖励,Bulldozer架构的CPU迄今尚未上市,其设计师就已经修成正果,位列企业理事“仙班”,其中的含义不言而喻—AMD不仅对"Bulldozer"寄予厚望,而且也对它充满了信心。
自信来自于实力,作为AMD耗尽心血研发的新一代CPU,Bulldozer堪称K8之后的最大革新(K10架构只能算K8的增强版,架构变化并不多),它改变了传统CPU的设计思路,将CPU模块化,每个模块又可细分为两个微内核,这两个微内核相互独立而又高度共享浮点单元、L2缓存等功能单元。同时模块化设计也使得AMD的CPU支持多线程技术,每个模块就可以处理两个线程,这种实现多线程的方式与目前支持多线程技术的CPU所用的方法有很大区别,Bulldozer的架构设计也要重来。
由于这几年AMD一直没有发布什么CPU新产品,AMD在当前的CPU竞争中实际上一直处于防守态势,Phenom II面对Intel的疯狂进攻已经显露疲态,因此即将发布的Bulldozer对AMD来说意义非凡,它成为AMD的反攻武器,只许成功不能失败。Bulldozer到底有多锋利,将成为AMD能否复仇的关键。
梦断SSE5,Bulldozer的开场序曲
早在Bulldozer这个名字未被人们熟知之前,AMD就已经为它做准备了新一代X86指令集。指令集是CPU架构的的关键所在,使用什么样的指令集也决定了一款CPU的先进程度。在X86架构中,SSE(Streaming SIMD Extensions,流式单指令多数据扩展)指令集当之无愧地成为绝对主角,作为X86架构的当家人,Intel也一直牢牢掌控着SSE指令集的发展方向,从SSE、SSE2、SSE3再到分批问世的SSE 4.1和SSE 4.2都是Intel首先发布的。
抢先发布SSE5指令集
2007年8月AMD抢先宣布了SSE5指令集扩展,并表示将之用于2009年发布的Bulldozer架构处理器上(AMD当时画了好大一个饼)。SSE5依然是128位指令集,一共有170条指令,旨在解决先前SSE指令集的一些缺陷和不足,充分发挥多核心及多媒体的性能。其中最主要的是新增的3操作数指令(3-Operand Instructions)和熔合乘法累积(Fused Multiply Accumulate,FMAC)指令,这两条指令都可以大幅提高操作效率,简化代码。
作为老大的Intel当然不会那么容易就范,直接弃用SSE名称,于08年推出了AVX(Advanced Vector Extensions,高级矢量扩展)指令集规范(详细情况可点击这里)。AVX支持256位指令,理论性能可比当前128位CPU提高一倍,另外AVX在思路上与SSE5有异曲同工之妙,同样支持3操作甚至4操作数指令,乘加指令以及一些置换指令,而且还有SSE5没有的特性,比如SIMD浮点指令长度加倍,为旧版SSE指令增加3操作数支持等。由于Intel的强势,软件厂商大都倒向支持AVX指令。
Intel后发先至赢得了下一代指令集之争
AMD眼看大势已去,也于09年5月份宣布支持AVX指令集,但是SSE5中的一些特色指令并未完全弃用,而是利用AVX规范重写,其中的FMA4、XOP和CVT16指令都将在Bulldozer架构上得到支持,这也是泄露的Bulldoerz处理器的CPU-Z截图上会显示超多指令的原因。
这场指令集之争也对Bulldozer的上市造成了一定影响,前面提到AMD最初打算在2009年发布Bulldozer,但是因为要重新设计一些功能单元以支持AVX,Bulldozer的上市时间也是一拖再拖(AVX的影响也只是部分原因,Bulldozer的延期还有其他因素)。
谈到指令集的问题,其实Bulldozer身上不仅加新,而且也有除旧,它不再支持AMD独家的3DNow!指令,去年的时候AMD就已放言未来的处理器不再支持这一指令集,而Bulldozer的一些文档上已经看不到3DNow!指令集的身影了。由于目前单独针对这一指令优化的软件不再是主流,放弃3DNow!指令也不会有什么影响,不过其中的PREFETCH、PREFETCHW两条指令将会保留。
Bulldozer未出世就已遭遇险境,AMD除了在X86-64位指令上令Intel低过一次头之外,指令集方面还是要跟在Intel后面。乐观点看,这并非什么坏事,指令集统一对软件开发是一件好事,双方指令集不兼容更容易导致软件应用层面出现问题。虽然在指令集上落了下风,不过Bulldozer的革新重点不在指令集上,而是革命性的架构设计,故事才刚刚开始。
突破传统,Bulldozer设计思路大不同
自从X86架构成型以来,Intel和AMD等厂商的CPU设计思路几乎是一成不变,为了获得更强的性能,采取的多是优化或者加入新指令集,加大L2缓存(cache)容量,引入L3缓存等方式,这些年除了HT与QPI直连总线算得上创新之外,CPU内核部分并没有太大改变。进入多核时代后,设计思路则转向多核心以及多线程两种方式。
CMP(Chip MultiProcessors)也就是增加核心数量,现在桌面级CPU拥有四核心乃至六核已不是什么新鲜事,而服务器领域也有十二核、十六核CPU出现。用CMP方式提升性能是显而易见的,但是它的缺点是成本要随核心数增加而不断提高,内核数量达到一定程度性能提升也不成比列。
SMT(Simultaneous Multithreading)也就是我们常说的超线程技术,它可以让一个CPU核心的多个线程共享资源并同步执行,硬件上几乎不需要增加成本。虽然服务器领域应用SMT多线程技术已有多年,但把SMT技术带入桌面领域还要归功于Intel,P4时代以HT(Hyper-Threading)身份登场,不幸遭遇P4的疲糜,之后的Core时代HT超线程技术销声匿迹,直到Nehalem架构上重新启用并一直延续到现在的SNB架构,只是现在的超线程技术与与P4时代的HT超线程在技术原理上早已不完全相同。
AMD的CPU并不支持SMT超线程技术,目前AMD在市场上实行的“田忌赛马”策略实质上就是用CMP技术对抗Inte的SMT技术,相近价位下用四核以及三核对抗Intel的双核,用六核对决Intel的高端四核。这种策略看似高明,但是二者在成本上差异明显,是苦是乐只有AMD自己知道了。
之所以扯这么多CMP和SMT的差别,就是因为AMD的Bulldozer架构的设计思路不同于当前的CMP以及SMT,而是走上了第三条路,既非硬件上增加CPU核心数,也不是软件上虚拟多线程。
AMD在设计Bulldozer时考虑的是如何最大化提高多核心多线程的效能,传统的CMP与SMT各有自己的优点,同时也存在着局限性,SMT不如CMP效率高,而CMP代价(不单单是成本)比SMT高。为此Bulldozer一改传统CPU核心设计思路,设计了一个模块(Module),每个模块中又有两个独立又关联的内核,借此实现了一个模块同时运行两个线程的目的。
Bulldozer一改传统而采取模块化设计实现了SMT多线程
组成Bulldozer的一个功能单元的不再是传统的整数+浮点单元内核,AMD称之为一个模块(Module),每个模块中拥有两个整数单元(Integer Unit)和一个共享的弹性浮点单元(Flex Floating Point),其中整数单元各自配备了一个调度器(Scheduler),因此可以同时执行两路线程,AMD称自己的多线程技术为CMT(Cluster Multithreading)。
理想情况下,需要计算的数据恰好全是整数型,那么经预读(Fetch)、译码(Decode)之后数据会分别经两个调度器分配至相应的整数单元进行计算,同一时间内可以有两个线程在运行,而且这两个线程都是实打实的硬件计算,效率远超HT超线程这样的软件模拟。之前有传言AMD在搞的是逆线程(anti-HT),可以将多个线程合并为一个线程,这个技术的存在与否并没有谁来证实,不过看看现在的Bulldozer架构,两个整数单元可以同时运算一个任务,从模块的角度看就相当于把两个线程合并为一个,与逆线程的思路有异曲同工之妙。
增加的一个整数单元只占用一个模块面积的12%,占整个核心的面积
据AMD称,目前CPU中超过80%的运算都是整数运算,增加一个整数单元的好处是显而易见的,用增加5%的核心面积的微小代价即可换来80%的整数性能提升。
最终设计出来的Bulldozer架构如何呢?
4模块8核心Bulldozer的架构图(来源:chip-architect)
这张图来自chip-architect.com,也是目前最为详细的揭露Bulldozer架构的一张图,结合AMD官方公布的一些消息可以确认图中的大部分信息还是很准确的。
上图中显示每MB L3缓存的面积为3.85mm2,对此结果笔者存疑,因为缓存通常都要占用很大面积,不过09年的时候AMD曾和T-RAM公司达成合作,未来的32nm工艺将会使用T-RAM作为缓存,如果Bulldozer上使用了技术先进的T-RAM缓存,那么缓存的占用面积会更小,上述缓存面积还有可信度。
Bulldozer每个模块的核心面积为18.0mm2(不含L2缓存),包含2MB L2缓存的情况下每个模块核心面积则为30.9mm2,集成2.13亿个晶体管。与之对比的是SNB架构每个核心的面积为18.4mm2,同时集成512KB L2缓存。那么由此估算下,Bulldozer的每个核心可以看作集成1MB L2缓存的同时面积约为15.5mm2,核心面积要小于SNB。AMD的Bulldozer在新工艺的支持下,同等级别下的核心面积已经接近Intel的水平(甚至更低),远高于K10时代的水准。
这里只考虑了CPU部分的核心面积,还要注意到SNB和Bulldozer都会集成了GPU核心,它们对核心面积的大小也有重要影响。SNB中GPU分为HD 2000和HD 3000系列,双核CPU的核心面积分别为131mm2和149mm2,不过Bulldozer目前集成的GPU消息不明,所以这个无从对比。
高度共享,弹性浮点单元解析
前文提到的性能提升80%是有条件的,运算是整数型的才可能有如此幅度的提升,虽然浮点运算只占20%左右,一旦遇到技术与商业领域中常用到的浮点计算,一组浮点单如何满足性能需要也成了关键,对此AMD给出的解决方式是增强浮点单元的弹性,运算指令可拆分可合并以适应不同情况。
Bulldozer的Flex FP浮点单元为两个整数单元所共享使用
按照AMD官方博客指出的那样,Bulldozer的Flex FP虽然为两组整数单元共享,但是它拥有独立的浮点调度器,并不依赖整数单元的调度器来分配指令,同时也不占用整数单元的资源来排定256位的执行方式。相比之下,Intel的CPU架构中整数单元和浮点单元共用一组调度器,需要同时分配整数和浮点运算的指令。
Bulldozer的Flex FP单元也会支持SSE3、SSE4.1/4.2、AES、AVX以及AMD演化自SSE5的FMA4、XOP和PCLMULQDQ等多种指令,前面的几种早已得到支持,AVX则是最新的指令集,Intel也只是在刚刚发布的SNB架构CPU上首次使用。
Intel改进了SNB的浮点单元,将16个XMM寄存器改为256位的YMM寄存器,并去掉了现有架构中只能载入/储存128位指令的限制,因此每周期可以执行一个256位FP ADD(浮点加)或者FP Multiply(浮点乘)指令,同时配以更大的缓冲器(Buffer)以匹配位宽提升。
Bulldozer同样支持256位AVX指令,但是支持方式与SNB有所不同。它的浮点单元由两个128位FMAC(Fused Multiply-accumulate )单元组成,这个浮点单元通用性很强,每周期可以执行任意一个FAMC(Floating-Point Multiply-Accumulators,浮点累积乘)、FADD(Floationg Point Addition,浮点加)或者FMUL(Floationg Point Multiplication,浮点乘)计算,相比之下Intel的浮点单元功能较为专一,FADD和FMUL计算需要专用的FADD及FMUL管线。AMD的浮点单元的好处是针对不同的浮点计算有充足的弹性空间,如果指令是256位的,那么两个FAMC单元可以合并为一个256位浮点单元计算,如果指令不是256位的而是128位的,那么FAMC单元可以同时执行两个同样的FADD或FMUL指令。
对于另一个AES(Advanced Encryption Standard,高密度加速标准)指令,只要是符合FIPS 197标准的,Flex FP也能提供硬件加速,而且每周期可以操作16B指令。AES加速功能主要针对商用市场,现有的八核Xeon至强处理器拥有8个浮点单元,Bulldozer的的服务器版Interlagos最多会有16个Flex FP单元,其运算带宽会两倍于现有产品。
Flex FP浮点单元拥有高弹性、高通用性的优点,Bulldozer因此可以少设计一组浮点单元,这样不仅减少了核心面积,同时也降低了功耗,因为在不执行256位AVX指令的时候(目前支持AVX指令的应用尚且不多)大多只用到一个128位FMAC单元,其空闲功耗可以降至峰值功耗的2%。
继承与发扬,Bulldozer的HT总线及内存设计
如果说Bulldozer的模块化设计和Flex FP弹性浮点单元是一种技术创新,那么Bulldozer的HT总线和内存控制器部分则是对传统的继承与发扬,技术规格没有多大变化,只是HT总线提升至3.1规范,而内存控制器最多可以支持四通道DDR3。
HT总线是AMD研发的一种高速点对点单双工数据总线,主要用于芯片级的数据传输,包括CPU与CPU、CPU与芯片组、芯片组南桥与北桥等。HT总线支持2、4、8、16和32bit等五种通道模式,并采用了DDR双倍数据传输,目前Phenom II X4 900系列使用的HT 3.0最高频率为2.6GHz,其余型号大多只有1.8-2.0GHz。
Bulldozer上将会使用最新的HT 3.1总线,最高频率提升至3.2GHz,数据传输率可达6.4GT/s,已经追平了Intel QPI总线的最高6.4GT/s速度,双向32bit通道下理论带宽可达51.2GB/s(3.2G*2*2*32/8)。
K8时代AMD将内存控制器集成在CPU内,这样可以降低读写延迟,再结合双通道模式其内存性能大幅超越当时的P4以及Core架构的C2D处理器。自Nehalem架构开始Intel也开始集成内存控制器,i7 900系列甚至支持三通道DDR3模式,Intel处理器的内存性能也逐渐甩开AMD一条街。
AIDA64记录的不同CPU平台的内存读取速度(仅供参考,内存带宽受不同配置影响较大)
从上图可以看到,当前的LGA 1155/1156处理器的内存带宽在10-15GB/s左右,而Phenom II多在8G/s上下,落后Intel相当多,只能领先Core 2级别的旧型号CPU。
这种局面有望在Bulldozer上得到改观,据目前的消息来看,16核的interlagos会支持四通道DDR3内存,而桌面级的zambezi依然是双通道DDR3,但是内存带宽会有大幅提升。首先是搭配的内存规格升级,K10时代默认支持的是双通道DDR3 1333MHz(速率1.33GT/s),Bulldozer默认支持的则是DDR3 1866MHz(1.86GT/s),双通道理论带宽为29.8GB/s,虽然暂时还没有实测内存带宽,但是Bulldozer的内存性能值得期待,至少也应该达到SNB架构的主流水准(期望如此)。
假设Bulldozer的内存性能真有如此提升,那到底是什么带来的进步呢?AMD的官方博客只说Bulldozer可以降低本地以及远程访问内存的时间,并没有详谈。对此我们只能猜测:第一是内部架构的改变,每模块有两个内核,每个内核又有2个ALU和2个AGU单元,每周期可以执行四个内存操作,高于目前的CPU水平。第二则是HT 3.1总线提高了芯片内部的传输带宽,外部的内存带宽也因此受益,第三则是支持的内存标准提高,从DDR3 1333到1866标准的提高对内存带宽提升还是很明显的。
性能催化剂,二代Turbo Core加速
Bulldozer的设计目标是提高多线程性能,但是目前仍有许多软件和应用只能利用单核单线程,对于这种情况Intel和AMD都给出了提高单核性能的方法,Intel的名为Turbo Boost,AMD的则为Turbo Core。
这两种技术的思路相似,都是通过降低闲置内核的负载而单独对一个或者多个内核进行Turbo(涡轮增压,汽车中常见的提高动力的方法),进而拉升单核频率以提高单线程性能。Intel的Turbo Boost已经发展到第二代,并在SNB架构中得到应用,我们之前也有文章详细解析。
AMD的Turbo Core加速首次应用在Phenom II X6六核处理器上,但是灵活性欠佳,只能将非活动内核的频率降至800MHz而非接近关闭(Intel的Turbo Boost技术可以将空闲核心降至C6接近完全关闭的状态),活动内核的频率在加压状态下可以提高400-500MHz,不能对单个核心进行控制。有鉴于此,Bulldozer架构也改进了Turbo Core动态加速技术,升级为Turbo Core 2.0。
支持Turbo Core 2.0的Bulldozer与当前支持动态加速的皓龙对比
有关Turbo Core 2.0的详细资料并不多,再次通过AMD的官方博客我们可以了解到,Turbo Core 2.0的频率提升空间有了明显提高,在所有核心处于活动状态下频率也可以提高500MHz。这是个惊人的进步,因为即便是Intel的Turbo Boost技术也只能保证在所有核心活动的情况下提高一个倍频,也就是133MHz(Nehalem架构)或100MHz(SNB架构),而最新的i7-2600K最多也只能提高400MHz,从3.4GHz加速到单核最高3.8GHz。
所有核心满载的情况并不多见,那么更为常见的双核满载其余核心低负载的状态下Turbo Core 2.0又能加速多少呢?AMD没有给出具体的频率数据,只是说会高于500MHz。假如双模块四核心的Bulldozer处理器的起步频率为3.0GHz(这个频率并不算高),那么加速后的频率可能会达到3.6GHz或者更高,性能值得期待。
另一个值得注意的是Turbo Core 2.0加速只受TDP功耗限制,而不受CPU温度掣肘。这也是一个明显的进步,Intel的Turbo Boost在加速时还要兼顾TDP以及CPU温度的双重影响,而Turbo Core 2.0可以在温度较高的情况下依然保持加速。
官方博客肯定是报喜不报忧,从中我们虽然可以看出Turbo Core 2.0的加速空间更大,限制更小,但是其灵活性上依然不能匹敌Intel,预计Turbo Core 2.0还是不能单独调节每个核心的频率。当然,对大多数人来说,只要这个动态加速能较为明显地提高性能,而且所有Bulldozer架构的处理器都能享用(不要学Intel奇货可居),做到这两点就足以让用户动心了。
瞻前顾后,Bulldozer与K10、SNB架构的对比
Bulldozer将会取代AMD的K10架构,它也将直面Intel最新的SNB架构的威胁,Bulldozer必须杀出一条血路,不仅需要完胜当前的K10处理器,而且也要面对SNB甚至未来的Ivy Bridge架构的夹击,那么Bulldozer相比其他两种架构又如何呢?
K10与Bulldozer架构示意图(图片来自anandtech)
前端的指令缓存单元没有变化,依然是64KB 指令缓存,而Decode解码单元从K10的3个增加到四个,因为整数单元增加了一个,需要更多的Decode单元与之匹配,四发射指令的Bulldozer的单核性能会比三发射的K10有提升,理论上其性能应与同为四发射指令的Nehalem/SNB架构持平。
前面提到了Bulldozer设计了两个整数单元,实际上这两个整数单的规格要比K10中的整数单元有所简化,ALU(Arithmetic Logical Unit,算数逻辑单元)和AGU单元(Address Generation Units,地址生成单元)从K10中的各3个减少到各2个,当然总数量方面则是增加到各4个,因此性能方面会有提高。
浮点单元的架构看起来很相似,但是内部设计已经有很大不同,这部分可以参见前面的弹性浮点单元解析。
真正有减少的是整数单元的L1 Data Cache(数据缓存),K10架构中整数单元配置的是64KB数据缓存,而Bulldozer则是两个整数单元各自设计了16KB数据缓存,总的L1数据缓存只有32KB,低于K10的64KB。AMD的解释是现在的乱序指令架构已经可以很容易地隐藏L2缓存的延迟(一般L1缓存是与CPU同速运行,L2则是半速运行,所以会有一定的延迟等待时间),而Bulldozer增大了L2缓存容量,一个模块中拥有2MB L2缓存,而K10架构Phenom II处理器每个核心只有512KB L2缓存,只有Athlon II因为无L3缓存的缘故才有2MB的L2缓存。
Sandy Bridge与Bulldozer架构示意图(图片来自realdowrdtech)
评价SNB与Bulldozer的架构优异就不那么容易了,因为AMD和Intel的设计思路和要求不同,很难说Bulldozer比SNB好或者差,尤其是它们对多线程的处理方式。SNB继续沿用Intel的SMT思路进行软件多线程,在几乎不增加成本的情况下实现了多线程,而Bulldozer则是开创了AMD特色的CMT多线程,利用增加的一个整数核心实现多线程,这是一种硬件级的超线程,理论上效果会比Intel的更好,但是目前并没有实际测试,无法得出准确结论。
同时,这两种架构对待浮点和AVX的方式也不同,Intel的浮点单元改进了寄存器设计,处理AVX指令时是实实在在的256位运算,AMD的Flex FP浮点部分是由两个128位FMAC单元组成,虽然官方宣称它可拆可合,弹性十足,但是在处理256位AVX指令时效率不如原生256位的SNB处理器,还要依赖软件厂商对这种架构进行合理优化。
最终的对比还要等待Bulldozer正式上市,有了实际评测数据后才能下定论。
代价几何,Bulldozer的功耗控制及工艺制造
除了内部架构设计,Bulldozer的功耗水平也值得注意,毕竟功耗对用户有着实实在在的影响,而且有Intel这个榜样在前,Bulldozer的功耗也是只许成功不许失败。
首页介绍的AMD新任企业理事Sam Naffziger擅长的就是功耗管理,加盟AMD时主要任务之一就是设计高频率低功耗电路,而且成绩显著,不然也不会被AMD擢升了。去年的ISSCC(国际固态电路会议)上,Sam Naffziger详细介绍了AMD另一款得意之作Llano的功耗管理技术,Llano将会支持Core Power Gating(核心电源门控)、Digital APM Module(数字APM模块)以及De-Populated Clock Grid等技术,不仅可以精确测量CPU内部的温度和功耗,而且可以随时将不使用的核心关闭以减少消耗。
支持Turbo Core 2.0的Bulldozer与当前支持动态加速的皓龙对比
作为Llano和Bulldozer的双料研发者,Bulldozer毫无疑问也会采用上述功耗控制技术,据悉六核及八核的Bulldozer的TDP功耗为125W,四核的为95W,与Intel目前的水准持平。
与功耗息息相关的还有CPU的生产工艺,财大气粗的Intel现在使用的已经是第二代32nm工艺了,最近还推出了3D tri-Gate工艺,一哥地位不言而喻,而Bulldozer将会在第二季度发布时才会使用Global Foundries的32nm SOI工艺生产,生产工艺继续落后Intel近两年的时间。
Bulldozer将会使用GF的32nm SOI+HKMG工艺生产
GF的32nm工艺除了继续使用SOI(Silicon On Insulator,绝缘体上硅)技术外,也将首次使用HKMG(高K金属门)工艺,使用HKMG工艺的好处是可以减少栅极的漏电量,降低栅极电容,进而使得晶体管的尺寸进一步缩小,这也是继续提高制程的关键技术之一。
AMD出售了晶圆工厂,现在的制程工艺完全依赖GF公司,后者的制造工艺也将逐渐转向32nm,不过整体技术与Intel还有很大差距,而且Intel的3D工艺已经可以应用在22nm Ivy Bridge处理器上,两者之间的差距进一步拉大,AMD在这方面还要很长很长的路要走。
有关Bulldozer的几个疑问
· Bulldozer什么时候发布?
AMD从来没有官方宣布过Bulldozer的正式发布日期,所以不存在什么延期一说,但是事实是从早期流传的2009年发布一直到现在也没有见到Bulldozer的身影。目前比较准确的消息是今年第二季度发布,但是还没有确定日期,有消息说会在4月发布,不过最早发布的会是服务器版的,桌面级可能还得等等。
之前有可靠消息称桌面版Bolldozer会在6月11日发布,批量上市时间为6月20-24日,不过最新的消息不容乐观,消费者恐怕还要继续等等,6月份的台北电脑展上Bolldozer会露面展示,但是最终的发布时间可能要延后到第三季度,耐心等吧。
· Bulldozer的具体参数有没?多高频率多高电压啊
这个也没有准确的消息,据悉Bulldozer的工作电压在0.8-1.3V之间,比目前的Phenom II略低一些,频率方面应该会达到3.5GHz,再加上Turbo Core 2.0的500MHz加速,那么实际运行频率超过4GHz也说不定。如果消息属实,其频率要明显领先当前的AMD处理器,比Intel目前的旗舰i7-2600K也要高。
超频性能方面,得益于新的功耗管理和32nm SOI工艺,Bulldozer的超频空间会比目前的K10有提升,而且Intel的SNB架构在超频方面趋向保守,倍频锁定,外频超频空间非常小,因此这也是Bulldozer的反攻机会。
· Bulldozer使用什么接口,我们需要换主板吗?
服务器版的Bulldozer将会沿用C32/G34插槽,可以兼容现有的服务器主板。桌面级的Bulldozer则会升级为AM3+接口,针脚数由AM3的938针提高到942针,因此除了极个别情况外Bulldozer处理器不能用在现在的主板上,但是未来的AM3+主板可以向下兼容Phenom II处理器(不过估计没人会买新主板只为用Phenom II处理器吧)。
AMD之前明确说AM3主板不能支持Bulldozer处理器,需要AM3+接口。不过这个问题也被厂商破解了,华硕的8系AM3主板就可以支持新一代处理器,微星的部分AM3主板也可以通过刷新BIOS的方式支持Bulldozer,至于技嘉和华擎,他们目前新出的8系主板插座已经换成AM3+,可以支持Bulldozer处理器,以前的型号估计没戏了。
Bulldozer配套的芯片组将是AMD 9系列,北桥分别有990FX、990X、980G(整合型号)和970四款,南桥则有SB950和SB920,具体技术规格变化不大,而且也没有原生USB 3.0支持。Bulldozer将和9系主板、HD 6000系列显卡组成新一代天蝎(Scorpio)3A平台。
AMD的APU平台已经开始原生支持USB 3.0,目前有A75和A70M两款,它们其实就是原来的Hudson-D3和Hudson-M3,我们在微星E350主板的评测中已经介绍过。不过Bullodzer的桌面芯片组还是传统的南北桥结构,9系主板上依然没有原生USB 3.0支持。
· Bulldozer的性能是否能超越Intel的SNB处理器?
这个问题毫无疑问是最为人关注的,本来可以放到第一个提问,笔者特意将它放到最后,因为笔者的回答恐怕是一盆凉水,寄希望Bulldozer的性能超越SNB的想法是不现实的。
Bulldozer的设计目标是提高CPU的多线程能力,去年的Hot Chips 22会议上,Bulldozer的总设计师Mike Butler做的主题演讲就是:AMD "Bulldozer" Core - a new approach to multithreaded compute performance for maximum efficiency and throughput,重点讲述的就是bulldozer的多线程处理能力,虽然这不意味着Bulldozer的单核性能没有提升,但是还要看到SNB并非泛泛之辈。
Intel的SNB架构历经Core、Nehalem两代架构磨炼现在已经非常出色,性能也在稳步提高,而且新的AVX指令集、256位浮点设计也不乏新意,在传统弱项—集成GPU性能方面进步也非常明显,SNB的综合实力不容小觑。
之前虽有消息说Bulldozer的性能领先Core i7-950有50%之多,但是也要看到,消息来源中使用的是4模块8核心Bulldozer,i7-950只是4核心8线程,在多线程应用中8核心战胜4核心是理所应当,面对更高端的对手产品,Bulldozer并没有什么胜算。
根据多方评估,笔者认为Bulldozer的多线程性能可以超过上代的Core i5/i7,与SNB有的一拼,但是单核性能不如SNB,游戏性能要看具体游戏优化,多核支持较好的游戏可能反超SNB。当然,具体的性能对比还要等到产品最终发布,而且还要看AMD用什么等级什么价位的Bulldozer与SNB对阵,市场策略得当的话Bulldozer一样可以大受欢迎。
这段时间以来有关Bulldozer性能的泄密越来越多,无论是领先Core i7 50%还是SuperPi只要7.8秒(已被证实为假)等等,仿佛又回到了K10上市前各种传闻秒杀Core的时代,各种小道消息满天飞,AMD官方从未证实或者否认过(它是受益者,肯定不会否认),越是这样越让笔者相信自己的判断,Bulldozer的性能不会带来奇迹,这不是说它没有进步,而是理性的预期。当然了,笔者也非常希望自己错了,希望看到Bulldozer的性能一鸣惊人,反过来能压制Intel,如果真是这样,我也愿意在Bulldozer的正式评测出来后对它说声对不起,一切由后来的评测做个评判吧。
总结:Bulldozer前途光明,道路曲折
从07年K10架构的Phenom处理器发布之后,有关Bulldozer架构的消息就已经开始流传,到现在为止已经有四年多的时间了。在此期间,Intel相继完成了Core到Nehlaem再到Sandy Bridge三代架构升级,45nm到32nm两次工艺升级,今年底甚至要开始试产22nm工艺。相比之下,这几年中AMD一直在用K10架构苦苦支撑,期间只升级了一次45nm工艺,K10架构也只在09年有过一次微小升级,并没有实质意义上的新产品发布。
Bulldozer的难产是有多方面原因的,AVX指令集的转换、GF的工艺良率以及Bulldozer架构自身的创新性都带来了一定影响。越是难产,它对AMD的意义愈发重要,AMD急需新鲜血液以提振目前动荡不安的管理层士气和消费者的信心。
4模块8核心的Bulldozer晶圆架构图
Bulldozer的架构设计堪称十年来的一大变革,它不只是内部增加了一个整数单元这么简单,其实质是CMP多核心与SMT多线程技术之外的第三条路,由于目前CPU任务中80%的都是整数型,增加一个整数单元可以分担计算负载,从另一方面来看这就相当于同时运行两个线程,变相提高了CPU的多线程性能。
浮点单元的设计也颇有新意,两个128位FMAC单元可以为两组整数单元共享,256位AVX指令也可以拆分为两个128位指令分别计算,而且浮点单元拥有独立的调度器,无需占用整数单元的资源。但从整体来看,浮点单元的份量在整个CPU中有所弱化,而且Bulldozer的Flex FP单元虽然弹性高,但是实际浮点性能恐怕很难匹敌SNB架构。
AMD之所以这么设计,有可能是考虑到APU的存在,因为除了Bulldozer架构之外,AMD还有Llano这样的高性能APU产品存在。目前基于K10架构的Bobcat山猫架构APU已经问世,它的性能表现值得表扬。一旦Llano处理器问世,那么整合的GPU核心浮点性能远高于目前的CPU,未来不排除AMD将CPU的浮点功能转移到GPU核心上,这样才真正实现Fusion熔合的理念。
Bulldozer的设计富有新意,但是AMD要想靠它翻盘,还有许多工作要做。首先是确保Bulldozer及时发布,如果拖到6月份才发布,那么批量上市、形成产品线就需要等到下半年了,而Intel的22nm工艺Ivy Bridge架构也将在年末试产,到时Bulldozer的处境就会更艰难。第二,Bulldozer的双整数单元设计要想发挥威力,还需要软件和游戏厂商的优化支持,相信AMD已经在做这个工作,但是这还需要花费大量时间。
回头来看,数年的磨砺使得Bulldozer已经足够锋利,即使不能将Intel一举击溃,但是只要策略运用得当,AMD一样可以扭转当前的不利局面。对Bulldozer来说,它的前途是光明的,但道路是曲折的,套用一句俗话——革命尚未成功,Bulldzoer仍需努力。
PS:本文写于数月前,这段时间以来Bolldozer的消息满天飞,不管是上市时间还是性能爆料都会引起大家的围观,由此可见大家对Bulldozer还是非常期待的,毕竟AMD的桌面CPU已经有两年没有架构更新了,面对Intel的一轮又一轮的进攻只能防守,无力反击。
目前有关Bulldozer的小道消息纷飞,不过Bulldozer的架构介绍主要还是去年的Hot Chips 22会议上披露的,AMD对Bulldozer的性能一直守口如瓶,只能靠一些流言来管中窥豹。本文只能简单介绍一下Bulldozer的架构思路、设计特点等,可能会比较枯燥,最终的性能还要等未来的评测才能知晓,期望能早日揭开Bulldozer的神秘面纱。(超能网)