【推土机终于来了】
如果将时钟往回拨四年,彼时处理器江湖中的AMD还在依靠65nm K8打天下,45nm K10正在发布前的最后时刻,Intel Tick-Tock战略则才刚刚开始实施,人们更为津津乐道的还是Intel那盘美味的“扣肉”。2007年7月底,AMD提出了两个不同的全新处理器架构,其一是低功耗的、已用于Fusion APU的“山猫”(Bobcat),其二就是高性能的“推土机”(Bulldozer)。
推土机不同于K10的小步慢跑,而是会从根本上改变AMD处理器的底层架构设计,简单地说就是变为模块化。AMD宣称推土机相比K10可在每瓦特性能上提升30-100%,会成为“有史以来最高性能的单线程和多线程计算核心”。按照规划,推土机将在2009年上半年诞生,对抗Intel计划于2008年底发布的新一代Nehalem。
谁曾想到,结果这一等就是四年半。“扣肉”下桌了,Nehalem来了又走了,Westmere来了又走了,Sandy Bridge来了也快走了,Ivy Bridge都不远了,推土机才终于在满天的流言蜚语中开了出来。2011年10月12号,AMD终于发布这款号称革命性的产品,并命名为FX系列。
为了显示自己的高端地位,AMD在推土机上重新祭出了消失多年的“FX”品牌。在六七年前,AMD正是凭借Athlon 64 FX系列和Intel在顶级处理器领域展开了一场殊死搏斗,双方甚至都不惜把双路服务器系统搬到桌面上来。FX的重出江湖一方面意味着AMD品牌策略的变化,从龙系列改为更简单明了的公司名加字母序列,另一方面也表明了AMD在这款新品上的信心和决心。
即便如此,推土机FX系列处理器的市场定位并不高,最高端型号FX-8150的官方标价也仅有245美元,大大低于Core i7-2600K的317美元,更接近于216美元的Core i5-2500K。这下一来就有趣了:AMD在处理器和显卡两条线上都没有去争夺性能制高点,而是通过田忌赛马策略攻击竞争对手的主流级别产品,大打性价比王牌。也许这看起来有些“不争气”,但对于AMD来说无疑是最为实际的,从消费者的角度来说也能让更多主流消费者以更低的价格买到更高性能的产品,何乐而不为呢?
说一千道一万,漫长的等待现在总算是结束了,是骡子是马也该拉出来遛遛了,不过因为在评测过程中碰到了前所未有的意外,不幸一直拖延到现在才完成,这里也向各位热心的读者致歉。
本次评测我们陆续拿到了三颗顶级八核心FX-8150和一颗六核心FX-6100,以及三块配套的华硕玩家国度主板Crosshair V Formula,还有一套水冷套装,在国内绝对是最全面的,而参与对比的是Core i5-2500K、Core i5-2300。这里我们会尽可能地做出全面细致的评测解析,而且后续还会有其它一些补充项目,比如对比现在的旗舰六核心Phenom II X6 1100T情况如何?推土机放在8系列主板上是否会有损失?Eyefinity三屏环境下游戏能跑多快?
【推土机模块化架构(一)】
有关推土机的架构细节之前我们已经陆陆续续做过非常全面的介绍,不过这毕竟是AMD的多年心血和推土机的核心精髓所在,因此这里我们再从高级层面(不涉及底层半导体设计)归纳总结一下。
按照AMD的设计理念,推土机架构要在多线程应用中提供性能、成本和功耗的平衡,并专注于高频率、资源共享,以实现在下一代应用环境中的最佳吞吐、最快速度。为达此目的,推土机采用了其它任何处理器都没有过的模块化设计,整数核心、浮点核心按照2:1的比例组成一个个模块,每个模块既可以相当于传统的两个物理核心,又可协作运行。
从产品家族序列上看,推土机属于AMD Family 15h。这是K8架构之后开始使用的新型序列。在此之前,Family 10h、11h、12h、14h分别代表服务器和桌面版K10、笔记本移动版K10、Llano APU、Bobcat APU,13h则被很自然地跳过去了。
推土机内核结构简图
双核心一模块
在着手设计下一代x86处理器核心的时候,AMD的工程师们认为必须实现核心功耗与面积的优化,而且PC应用的发展也让工程师们必须寻找一条新的路子,能够在不同核心之间实现峰值带宽的最大化,并通过共享模块来充分利用每一平方毫米的核心面积。
最终结果就是能够高效优化资源的双核心模块化。整数管线、一级数据缓存等频繁使用的功能在每个核心里都有单独的功能单元,预取、解码、浮点管线、二级缓存等功能单元则在两个核心里共享使用。这种设计可以让每个核心都能在需要的时候使用更大的、更高性能的功能单元,比每个核心都拥有自己独立的小型功能单元更节省核心面积。
一个推土机模块
这种设计理念的一个直接体现就是核心面积。八核心推土机是AMD公司历史上制造的最大规模芯片,集成了大约20亿个晶体管,是六核心Phenom II X6、四核心Sandy Bridge的两倍多,但通过功能单元的合理分配,以及32nm SOI新工艺的应用,核心面积被控制在仅仅为315平方毫米,比六核心、45nm工艺的Phenom II X6还要小9%,比四核心、32nm HKMG工艺的Sandy Bridge也只大了46%。
【推土机模块化架构(二)】
浮点
推土机中的浮点单元也经过了完全重新设计,可以在不同核心之间共享资源。每个推土机模块内都有共享的两个128位乘法累加单元(FMAC),可以每个核心执行128位指令,或者每个模块执行256位指令。
推土机浮点单元还改进支持了大量新的指令集。Phenom II X6仅有128位浮点,Intel Sandy Bridge增加了SSSE3/SSE4.1/SSE4.2、128/256位AVX、每周期两个128位AVX、每周期128位AVX+SSE。推土机不但将这些照单全收,还独家支持FMA4乘加指令、XOP扩展操作指令(曾经的SSE5)。
另外在每个时钟周期内,推土机运行双精度x87指令的速度为8FLOPSs,持平Sandy Bridge且比Phenom II X6快一半,128位AVX指令的执行速度则是64FLOPS,前者达到了Sandy Bridge的两倍。
那么指令集都有什么用呢?下边简单列举几个:
SSSE3/SSE4.1/SSE4.2(Intel、AMD共有):视频编码与转码、生物统计算法、文字密集型应用。
AESNI PCLMULQDQ(Intel、AMD共有):AES加密应用、安全网络交易、磁盘加密(微软BitLocker)、数据库加密(Orocle)、云安全。
AVX(Intel、AMD共有):浮点密集型应用,诸如信号处理与地震、多媒体、科学计算、金融分析、3D建模。
FMA4/XOP(AMD独有):高性能计算应用,诸如数字应用、多媒体应用、音频算法。
指令集的变化自然需要软件的支持才能发挥效力,尤其是FMA、XOP两大独家指令。如果软件还在使用老的浮点指令,推土机的特点显然就发挥不出来。在操作系统和软件程序完善之前,可以运行一下AMD提供的两个XOP、AVX补丁程序,再跑分就会有明显的不同。
其实,这两个小程序正是近日网上传闻的所谓“鸡血补丁”,而且有时候确实能“鸡血”一下,比如让FX-8150 wPrime 32M运算时间从15秒钟缩短到10秒钟。
共享前端
前端(Front End)的任务是驱动处理管线、确保核心随时获取所需信息。在推土机中,每个前端配合一个模块,并负责为其中的两个核心分配线程。AMD在这里也做了大刀阔斧的改进,涉及不相关预测和拾取管线、预测定向指令预取器等等。一个预测队列可以管理一级、二级分支目标缓冲(存储目标地址)所需的直接、间接分支。推土机模块可以在每个时钟周期内解码最多四条指令,而K10 Phenom II只有三条。换句话说,推土机从三发射变成了四发射,就像Intel Sandy Bridge。
预测管线会生成一个拾取地址队列。拾取管线则在每个时钟周期内从指令缓存里拉取32个字节加入拾取队列,再送往解码器。
推土机和Sandy Bridge一样使用了物理寄存器文件(PRF)。这是一个单独的位置,用于保持执行指令的寄存器结果。这种设计可以消除不必要的数据移动和复制,只保留一个拷贝而不用对数据进行广播。
缓存
推土机的每个核心都有64KB一级数据缓存、64KB一级指令缓存、32-entry全关联数据页表缓存(DATA TLB)、完整乱序载入/保存单元,后者可以在每个时钟周期内载入两个128位或载入一个128位指令。
每个模块配备2MB 16路关联二级缓存、124-entry二级页表缓存,可同时处理指令和数据请求。推土机支持最多23个二级缓存不命中,用于保持内存系统一致性。
最后,一颗推土机处理器的所有模块与核心共享8MB 64路关联三级缓存。
【新一代Turbo Core智能超频技术】
智能超频(动态加速)这种技术最早是Intel在45nm Lynnfield上搞出来的,叫做Turbo Boost(中文名睿频),Sandy Bridge上进化为第二代,可根据应用负载升降不同核心的频率,从而兼顾对频率、线程明暗度不同的应用与整体性能、功耗。AMD Phenom II X6六核心首次引入自己的智能超频技术Turbo Core,但还不是很完善。Llano APU也部分加入了这种技术,并且支持CPU、GPU两个核心的加速。现在,推土机迎来了真正的第二代。
推土机大大改进了电源管理技术,在核心级别上支持CC6电源状态,在模块级别上可通过CC6支持二级缓存的电源门控(Power Gating)。有了电源门控,空闲核心就可以几乎完全断电,从而给其它核心留出更大的加速空间。
推土机有三种运行模式:原始预设的基准频率、全部核心开启的加速频率、半数核心开启的加速频率。
全部核心加速:如果多余的热设计功耗(TDP)空间允许,推土机可以对所有的核心进行加速,适合那些需要尽可能高频率的线程密集型应用,最高能超500MHz。
AMD宣称,Turbo Core技术在这种情况下可以带来4-7%的性能提升。
半数核心加速:这种情况下半数核心完全关闭,另外一半核心则更大幅度地加速,适合那些对多线程不太敏感、但需要高频率的应用。相比第一代,现在的加速幅度明显更高了,理论上最高可达1GHz。
AMD宣称,Turbo Core技术在这种情况下可以带来5-12%的性能提升。
虽然AMD没有就此技术发布专用的监控工具,但事实上已经有很多硬件类工具提供了支持,既有AMD自家出品的监控超频软件OverDrive,也有第三方的TMonitor、HWiNFO32/64、SIV等等。利用它们可以随时查看每个核心的实时工作频率,而且加速核心的频率会以红色显示。
需要特别强调的是,推土机并不是简单的全部或者半数核心以同样的幅度加速,而是实现了真正的异步频率,每个核心都可以有自己独立的运行速度,利用任何监视工具都可以清楚地看出来。这一方面得益于推土机本身架构的改进(切换速度比K10快得多),另一方面也得益于Windows 7操作系统在线程分配上的优化。
【反超睿频:Turbo Core实战检验】
使用Fritz Chess Benchmark分别开启1-8个线程,同时通过CPU-Z观察当前核心频率,可以清楚地看到Turbo Core的工作情况:1-2个线程的时候可以加速到最高的4.2GHz,3-6个线程都提升到3.9GHz,7-8个线程的时候则全部停留在原始频率3.6GHz。
下边再通过AnandTech网站提供的实际例子对比一下Core i5-2500K、FX-8150的动态加速情况:CineBench R11.5单线程渲染。这是体现动态加速的最佳示例。
2500K的频率在3.4-3.6GHz之间频繁切换,以确保不超过热设计功耗指标,平均下来是3.5GHz,提升6%。
FX-8150:从未低于过3.9GHz,时不时还能加速到4.2GHz,平均下来3.93GHz,提升9%。第一次,AMD的加速效果比Intel更好。
大量项目总结下来,FX-8150 Turbo Core的加速效果普遍都在5%上下,CineBench R11.5单线程加速更是接近了15%。
【三位一体天蝎座平台:推土机型号规格】
AMD的高端平台代号总是以天上的星座命名,这次轮到了“天蝎座”(Scorpius),又称FX平台,包括推土机FX系列处理器、9系列芯片组主板、Radeon HD 6000系列显卡三大件。
推土机FX处理器自然是重中之重了,首发四款型号,包括两款八核心、一款六核心、一款四核心。
FX-8150:四模块八核心,原始频率即高达3.6GHz,全部核心在Turbo Core加速状态下可以达到3.9GHz,如果是半数四个核心话则可达4.2GHz,已经相当高了。北桥频率2.2GHz,二级缓存8MB,热设计功耗125W,官方千颗批发价245美元。特别注意:水冷散热套装并非附送,而要单独购买,价格估计100美元左右,和Intel的差不多。
FX-8120:原始频率大幅降低到3.1GHz(估计高频良品率还是不高),全部/半数核心加速频率分别为3.4/4.0GHz,热设计功耗95/125W两种,千颗批发价205美元。
FX-6100:三模块六核心,原始频率3.3GHz,全部/半数核心加速频率3.6/3.9GHz,北桥频率降至2.0GHz,二级缓存也减少到6MB,热设计功耗95W。价格方面标为165美元。
FX-4100:双模块四核心,原始频率提高到与FX-8150相同的3.6GHz,但加速频率偏低,全部核心与半数核心只能达到3.7GHz、3.8GHz,微乎其微。北桥频率也是2.0GHz,二级缓存容量则是4MB,热设计功耗95W。价格115美元。
上述型号均采用Socket AM3+封装接口(向下兼容少数AM3主板),三级缓存统一8MB,同时为了提高性价比,FX处理器全系列都采用开放倍频的黑盒版设计,用户可以自由超频。需要注意的是,推土机现在只有一种die,六核心与四核心版本都是屏蔽而来的,而非原生,但“开核”就不要想了。
经过改进的内存控制器可以与每个模块内的每个核心直接通信(每个核心都有APIC寄存器),频率上全系列支持DDR3-1866,电压支持三种1.5/1.35/1.2V,最大带宽29.9GB/s,预取方面也有所增强。之前曾有传闻说第一代推土机的内存频率支持会缩水到DDR3-1600,结果证明都是瞎说。
HyperTransport超传输总线方面,单条16位连接的带宽最高为5.6GT/s,HT I/O输入输出带宽最高8GB/s,HT 3.0模式下最高16GB/s,加上内存带宽在处理器与系统之间的总带宽最高为37GB/s。
稍后AMD还会增加另外三款型号,包括一款八核心、两款四核心。
FX-8100:八核心,原始主频降至2.8GHz,加速频率最高3.7GHz,北桥也降到了2.0GHz,热设计功耗95W。
FX-4170:四核心,原始主频即达4.2GHz,从而成为史上最高频率处理器,但加速空间很小了,只有区区100MHz,另外北桥频率又回归到2.2GHz,热设计功耗则升至125W。
FX-B4150:四核心,原始频率3.8GHz,加速频率4.0GHz,幅度也非常有限,热设计功耗95W。至于型号中的字母“B”究竟是什么意思还不清楚。
可以看出,推土机处理器的运行频率还是相当高的,默认都可以轻松超过3.5GHz,甚至历史上第一次突破了4GHz大关。事实上,AMD也在一直强调推土机巨大的超频潜力,并且成功超到了8.4GHz这样史无前例的高度,还因此获得了吉尼斯世界纪录认证,延续了Phenom II时代的神话。
9系列芯片组就不多说了,几个月前就已经先行发布,但需要再次提醒大家:想发挥推土机的全部威力一定得选择9系列芯片组、AM3+插座的主板,那些经过改造的8/7/nForce系列芯片组、AM3+插座型号,甚至是极少数刷了BIOS的8系列芯片组、AM3插座的虽然也能兼容,但无法支持全部功能技术。
Radeon HD 6000系列显卡也无须赘言,只不过这种高端平台上自然不能用低端型号,最次也得上个Radeon HD 6850。
最后奉上FX平台架构图(猛击查看高清大图):
【官方幻灯片:全球首款八核桌面处理器】
推土机FX系列发布的同时,AMD还放出了一份演示幻灯片,并贴心地给出了中文版。这里我们摘取其中的精华和大家分享一下。
五年来,700美元(¥4500)以下价位台式机的市场比例从不到一半升至四分之三以上
【官方幻灯片:推土机架构与天蝎座平台】
【赏析:FX-8150、FX-6100、腰带扣】
【赏析:水冷散热套装】
【赏析:华硕玩家国度Crosshair V Formula(一)】
【赏析:华硕玩家国度Crosshair V Formula(二)】
【测试平台配置:推土机大战Core i5】
本次测试中,除了推土机家族的八核心FX-8150、六核心FX-6100,我们还找来了价位相对的两款四核心Core i5-2500K、Core i5-2300与之同台竞技。至于和上代旗舰六核心Phenom II X6 1100T的对比情况,我们将在稍后择机放出。
测试中我们将内存频率统一固定在1866MHz,显卡均搭配公版Radeon HD 6970,主板分别使用华硕玩家国度Crosshair V Formula、华擎Fatal1ty Z68 Professional Gen3。
【浮点运算测试:wPrime】
wPrime是一款多线程圆周率测试工具,与SuperPI的单线程运算不同的的是,wPrime在打开一个软件界面下,可以支持多个核心的处理器运算,甚至是8核心处理器,可以更准确地反映出CPU多核心的性能。
结果如下(时间越短越好):
八个核心的FX-8150对四个核心的i5-2500K还是相当大优势的,32M领先不到1秒钟,1024M则领先了50多秒,幅度达15%。六核心FX-6100对阵四核心i5-2300则略逊一筹,32M慢了1.8秒多,但是1024M只落后仅仅5秒钟。
【渲染性能测试:Cinebench R11.5】
Cinebench也是很有说服力的一个测试软件,最新的是R11.5版,最高支持16个处理器核心。Cinebench使用的是针对电影电视行业开发的Cinema 4D特效软件引擎,在CPU测试场景中,将会纯粹使用CPU渲染一张高精度的3D场景画面,依次检测CPU的渲染能力,反映出CPU在工作站设计软件上的性能表现。
结果如下(得分越高越好):
FX-8150虽然单核心速度比i5-2500K慢了三分之一,但凭借八核心的优势在多核心速度上成功反超。FX-6100的多核心速度比i5-2300慢一些,但单核心成绩则明显不对,按理说也应该在1.0多一些但竟然给出了3.55的“创纪录速度”。事实上在渲染过程中也可以看到,很多地方都是一闪就过去了,根本没有渲染过程。看来这款工具对推土机的支持还需要进一步完善。
【运算性能测试:Fritz Chess Benchmark】
Fritz Chess Benchmark是一款国际象棋测试软件,但它并不是独立存在的,而是《Fritz9》这款获得国际认可的国际象棋程序中的一个性能测试模块。它可以让我们的X86计算机也能完成当年IBM“深蓝”所做的事情:计算、预测国际象棋的步法。Fritz Chess Benchmark是目前PC机上最好的国际象棋步法预算软件,可以让我们看到目前个人计算机的运算能力到底达到了一个什么样的水平。软件还给出了一个基准参数,就是在奔腾3 1.0G处理器48万步每秒的运算能力。
Fritz Chess Benchmark会自动监测系统中的CPU数目,能够充分利用系统资源,支持多线程并行运算,并且效率非常高。
结果如下(得分越高越好):
FX-8150成功取得了14%的领先优势,不过FX-6100落后了9%。表现正常。
【压缩解压测试:7-Zip】
相比于国内更流行的WinRAR,7-Zip是一款号称有着现今最高压缩比的压缩软件,比普通ZIP文件高30-50%,可把ZIP文件再压缩2-10%,而且它不仅支持独有的7z文件格式,也支持各种其它压缩文件格式,包括ZIP、RAR、CAB、GZIP、BZIP2、TAR等等。
成绩为(得分越高越好):
FX-8150、FX-6100均取得完胜,特别是前者优势高达惊人的44%。很显然,在文件压缩解压操作中,核心越多越占优。
【压缩解压缩性能测试:WinRAR】
WinRAR是人们电脑应用中最为熟悉的软件之一,压缩和解压缩都少不了它。除了这些常见的功能,WinRAR还有一个benchmark测试工具,测试功能可支持多线程,可以作为一个CPU基准性能的参考。
结果如下(得分越高越好):
另一项文件压缩解压测试也证明了多核心的好处,不过幅度没有7-Zip那么夸张,FX-8150、FX-6100分别领先了15%、6%。
【光线追踪渲染性能测试:POV-Ray】
全名Persistence of Vision Raytracer,是一个使用光线追踪绘制三维图像的开放源代码免费软件,运行POV脚本语言,并提供了一个图片渲染的基准测试程序。
结果如下(时间越短越高越好):
光线追踪渲染也是需要多个核心共同努力的项目,因此推土机明显更胜一筹,特别是FX-6100都要比i5-2500K来的更快一些,优势巨大。
【加密解密性能测试:TrueCrypt】
TrueCrypt被称为全球最好的加密软件,它是一款免费并且开源的加密软件,同时支持多种操作系统,加密算法包括AES-256、Serpent、Twofish等。为取得更好加密效果,可以同时使用两种或三种加密算法。
结果如下(得分越高越好):
FX-8150顺利取得了超过三分之一的领先优势,不过FX-6100与i5-2300持平,按理说应该还能跑得更快一些。考虑到推土机刚刚加入对AES的完整支持,肯定还会有进步的空间。
【视频编码性能测试:x264 HD Benchmark】
x264 HD Benchmark基于开放的视频编码格式x264,是一款检测电脑高清视频性能的测试软件,程序对多核进行了优化,通过将影片编码、转码为x264,可以很好地考验多核心处理器的软解能力。
结果如下(得分越高越好):
Pass1其实是在分析视频,对多线程要求不高,推土机速度稍逊一筹。Pass2才是真正的转码过程,此时更多核心的威力就显现出来了,尤其是FX-8150快了整整四分之一,FX-6100的优势则还不太明显。
【基础性能测试:PCMark 7】
我们使用PCMark 7来测试系统的综合应用性能。PCMark是业界公认的最权威的电脑综合应用性能基准测试软件,它集易用性和专业性于一身,与3DMark系列软件师出同门。PCMark着重考察系统的综合应用性能,支持多线程。它通过模拟方式,使电脑运行于不同工作任务之下,分别考察其性能表现,再根据这些不同的工作任务在电脑实际应用中的比重加权累计,得出一个总分,以此来评定电脑的综合应用性能。PCMark评分的依据有:系统的文件处理能力、网络浏览能力、3D性能、多媒体处理能力、磁盘内存CPU性能等。
结果如下:
系统综合性能考察中,FX-8150、FX-6100相比于Core i5都落于下风,慢了13-15%。
【DX11理论性能测试:3DMark 11】
3DMark 11是Futuremark在DX11显卡全面上市一年之后才推出的DX11显卡性能测试工具。3DMark 11基于原生DX11引擎,全面使用DX11 API的所有新特性,包括曲面细分、计算着色器、多线程。3DMark 11继承并改良了3DMark Vantage的统计方式,尤其是去掉了较少用户使用的高端级(H),其他三种也有了新的变化:
- 极限级(X):分辨率固定为全高清的1080p 1920×1080,支持极高负载,适用于高端游戏PC,尤其是Radeon HD 5970、GeForce GTX 580这种顶级显卡,并且按照设计在未来几年内也不会辱没“显卡杀手”的荣誉。
- 性能级(P):分辨率固定为高清的720p 1280×720,支持中等级别负载,适用于绝大多数主流游戏PC,比如Radeon HD 5770、GeForce GTX 460之类的显卡,不过发布初期仍然需要高端卡才能跑出流畅的帧率。很显然,这个级别在今后将依然是我们最常见的评定标准。
- 入门级(E):分辨率固定为标清的1024×600,支持低负载,适用于大多数笔记本和上网本,特别是集成显卡。
结果如下:
单独考察处理器得分,FX-8150相比i5-2500K只慢了4%,基本处于同一水平,FX-6100则比i5-2300慢了24%。
【DX10理论性能测试:3DMark Vantage】
作为业界第一套基于DX10 的综合性基准测试工具,3DMark Vantage在发布前就早早地让众人翘首期盼了,因为它标志着DX10在游戏领域的宏大演出正式拉开帷幕。3DMark Vantage是当前唯一一款显卡DX10性能基准测试工具,它能全面发挥多核心处理器、多路显卡的优势,能在当前和未来一段时间内满足PC系统游戏性能测试的需求。3DMark Vantage是专门为DX10显卡量身打造的。它包括两个图形测试项目、两个处理器测试项目、六个特性测试项目。借助于DX10 API的新技术和高效能,它为玩家带来了一场绚丽逼真的视觉特效盛宴。并且,3DMark Vantage还特别加入了对人工智能(AI)和物理加速的专门测试。
结果如下:
FX-8150这次比i5-2500K快了6%,不过FX-6100还是逊色一些,慢了16%。
【DX11游戏性能测试:《尘埃3》】
《DiRT 3》是刚刚发布DX11游戏的典型作品,基本涵盖了DX11的各种代表性技术,如硬件曲面细分、多线程、高清环境光遮蔽以及计算着色器等。但其DX11技术应用大多都点到为止,应用范围也仅限于画面中的少部分元素,因此对DX11显卡的要求并不算太高,但是略高于《Dirt2》。
测试方法:游戏内建测试程序。
测试选项:分辨率为1920x1200,4AA,所有画质均设置高等,DX11模式。
具体测试结果如下:
总的来看i5稍微快一些,但其实并没有真正拉开差距,各自彼此的距离都不到1FPS。
【DX11游戏性能测试:《失落星球2》】
卡普空的《失落星球》曾是最早提供DX10支持的游戏之一,因此也成为热门的评测用游戏。而在DX11时代,《失落星球2》虽然没有拔得头筹,但对DX11技术的应用也丝毫不落人后。DX11技术将帮助该作提供烟雾容积和景深效果,更真实的爆炸、火焰和液体特效,关卡Boss还会依靠细分曲面技术呈现更多的细节。另外,和NVIDIA一向关系良好的卡普空还会在该作中提供3D Vision和3D Vision Surround立体技术支持。
测试方法:自带Benchmark。
测试选项:分辨率1920x1200,最高画质开启4xMSAA。
结果如下:
两款推土机都略微领先一些,但差距也可以忽略不计,本质上没什么不同。
【DX10游戏性能测试:《Far Cry 2》】
相比上代《Far Cry》的热带风情,《Far Cry 2》游戏场景设定在了广阔的非洲草原,整个游戏世界面积达到50平方公里,玩家可以自由在其中驰骋,而游戏的结局也是开放的。游戏中的环境可以动态变化,玩家甚至能体验到一年四季的变化。加上支持DX10 API的DUNIA引擎,令游戏特效细节表现的非常真实出色,如动态天气效果、24小时日夜循环以及动态火焰已经成为游戏中的基本配置。
测试设置:分辨率为1920x1200,8AA,关闭垂直同步,DX10模式,最高画质。
测试方法:游戏内置测试工具,多次测试选取平均值。
测试结果如下:
这一次FX-8150、FX-6100都稍稍落后,但也就1FPS而已。
【DX10游戏性能测试:《生化危机5》】
《生化危机5》的剧情将围绕病毒起源为核心展开,故事背景设定在安布雷拉公司覆灭之后,舞台转移到了神秘的非洲大陆。游戏引入了在线和本地联机的要素,支持双人分屏游戏,流程中有大量类似于《生化危机》中的双人协作解迷要素,需要玩家与好友或是NPC控制的搭档协力才能通过的战斗和机关。
PC版同时支持DX9和DX10两种画质模式,在主机版的基础上强化了画质表现,更大的分辨率,更高的抗锯齿技术使得PC版在画面上远胜主机平台。
测试工具:官方bencchmark。
测试选项:分辨率为1920x1200, 4AA/8AA,DX10模式,最高画质,关闭垂直同步。
具体测试结果如下:
正在改编成电影的这款游戏中,FX-8150对i5-2500K取得了明显的领先优势,快了整整10FPS,FX-6100则反而比i5-2300还慢了4FPS。
【DX9游戏性能测试:《使命召唤7》】
《使命召唤:黑色行动》是动视FPS游戏使命召唤系列的第七部续作,由Treyarch负责开发。故事剧情设定在了上世纪后期的美国越南战争时期,游戏主要描述了战争期间的一个名称为Studies and Observations Group的组织,他们将在越南战争中承担最秘密、最危险的任务。而且游戏场景还会穿插北极、古巴等一些冷战时期的热点地区。玩家投身越南丛林时将扮演MACV-SOG成员,专司敌后渗透、破坏、暗杀等不可告人的隐秘勾当。《使命召唤:黑色行动》将为你带来电影般的视觉冲击和紧张刺激的战斗。
测试方法:利用Fraps记录过场动画帧数。
测试选项:1920×1200,8AA,关闭垂直同步。
结果如下:
另一款DX9游戏也不太乐观,推土机慢了15%以上。
【温度、功耗测试】
温度测试方面,选取CPU在待机、游戏以及满载(极限拷机)三种状态,利用AIDA64实时监控,待连续运行10分钟峰值温度稳定后,记录此时CPU核心的最高温度(室温25℃)。
待机的时候两颗处理器都停留在30度多一点,表现正常,但是在游戏和拷机过程中的数据让人看不懂。FX-8150即使再高的负载也只是勉强超过50度,FX-6100则达到了60度左右。使用多款不同的硬件检测工具结果都是如此,看来得等它们加入对推土机的完善支持才能了解到庐山真面目了。事实上,在测试完成后拿掉处理器的时候,可以明显地感觉到芯片并不烫手,证明推土机的温度控制应该还是很到位的。
功耗测试部分利用功耗仪直接测量整套平台的总功耗,其中包括CPU、主板、内存、硬盘、显卡、电源以及电路损耗所有在内的整机功耗(不包含显示器)。同样选择显卡2D待机、游戏及满载(Furmark拷机)三种状态,稳定运行10分钟选取期间最大值,测试结果如下:
推土机尽管用上了32nm工艺,但毕竟有多达20亿个晶体管,功耗有些偏高。待机情况下控制得还算不错,除了显示器之外的整个平台功耗均不超过90W,不过进入游戏和拷机环境后急剧飙升,特别是在拷机的时候FX-8150系统功耗达到了460W,FX-6100系统功耗也突破了400W。
当然,这其中还有另外一个功耗大户Radeon HD 6970显卡,其典型游戏功耗大约在190W,最大功耗250W。再排除平台其它各种配件的功耗,大致估算下来FX-8150/6100单独的游戏功耗应该分别在120W、70W左右,满载功耗则不会超过150W和100W,基本符合其高端处理器的身份,和125W、95W的热设计功耗指标也相符。 由于无法单独精确衡量处理器本身的功耗,以上数据都是猜测而来的,但应该差不多太多,推土机的实际功耗也不算多夸张。
【最好4.8GHz:超频测试】
AMD宣称,FX-8150 3.6GHz在风冷条件下可以轻松达到4.6GHz左右,换成水冷则可达到5GHz左右,再用液氮等极限手段甚至更高。本次测试中我们先后使用了两颗可以点亮的FX-8150,分别搭配超频三黄海至尊版风冷散热器和AMD提供的水冷套装。
经过反复调节发现,两颗FX-8150的体质基本差不多,风冷和水冷也没什么区别,能够稳定通过Fritz Chess Benchmark八线程测试的最好成绩都在4.85GHz左右,此时外频超至230MHz,倍频提升到21x,电压也接近了1.5V。
期间我们也曾经尝试冲击5GHz,结果虽然可以成功进入系统,但无法稳定运行,没来得及进行测试就蓝屏了。
至于那颗六核心FX-6100,因为时间关系就没进行测试。
说起水冷,AMD还配套提供了一个小工具“AMD ChillControl V”,可以很方便地监视和控制风扇转速、水泵转速、冷却液温度、噪音。
极限设置
静音设置
自定义设置
冷却液温度控制与通知
冷却液温度与风扇转速曲线图
【结语:为未来而战的推土机】
“全新架构”,这个词汇看见就让人热血沸腾,但新事物的诞生不是一句话两句话的事儿,即使出山了也必然要经过一个适应的过程。为了适应PC发展、多核心计算的未来趋势,“推土机”采用了模块化设计,将两个核心优化整合成一个模块。之所以精简浮点单元,每模块的两个核心共享一个,原因在于AMD认为随着GPU并行计算能力的急剧增加,处理器浮点运算的重要性正在降低。也正因为如此,AMD才提出了Fusion融合概念,由CPU+GPU携手进行异构加速计算,甚至有一种说法:推土机本来是没打算单独面世的,而是一开始就准备做成Fusion APU的一部分,从而兼顾整数、浮点与异构计算。可惜的是大环境还没有到位,PC产业还没有做好准备。从这一点上可以说,推土机是一种面向未来的超前设计。
从理论上看,推土机的架构有着非常突出的先进性和前瞻性,但因为操作系统、应用软件的支持才刚刚起步,性能表现可能会不尽如人意,只能说有待挖掘的潜力非常大。举个例子,Intel HT超线程技术刚出来的时候也被很多人视为笑话,效率低下不说,时不时还会起到副作用,而经过了多年的完善之后,Sandy Bridge上的超线程已经挑不出什么毛病了。况且,超线程只是一个辅助功能,推土机做得却是全盘推倒重来。
根据架构和规格分析,推土机因为不存在完全独立的单个核心,单线程性能肯定不会太突出,而多达八个物理核心必然会带来相当不错的多线程性能,而且压力越大,效果就会越明显。从实际测试情况看,FX-8150、FX-6100在单线程或者对线程不敏感的应用中确实有些吃亏,相比于Core i5-2500K/2300有些差距,但是在多线程环境下情况基本反了过来,FX-8150此时可以完胜Core i5-2500K,FX-6100与Core i5-2300也有得一拼。
操作系统方面,目前主流的Windows 7在设计之时并未考虑推土机的这种模块化架构,很难为其进行合理、高效的线程分配。在理想情况下,操作系统的调度器需要知道何时将线程放在推土机的单独一个模块上(共享缓存),或者何时分配给不同模块。很可惜,Windows 7还没有针对推土机进行优化,因此可能无法正确地处理器资源共享,或者在Turbo Core状态下加速到更高频率。
举个例子,现在有一颗四模块八核心的FX-8150处理器,其上要同时运行两个线程1、2,其中线程1又可分为a、b两个子线程。理想情况下,线程1a、1b应该交给一个模块的两个核心分别执行,线程2则分给另外一个模块,剩余的两个模块和四个核心就关闭休息。如果软硬件配合失误,线程1a、1b可能会被分别放到两个模块的核心上,效率因此大为降低,同时造成硬件资源的浪费,甚至拖慢线程执行速度。还有最糟糕的:线程1a和线程2被分配到了同一个模块中,结果谁都跑不快。现在的Windows 7就是这样,在推土机上很容易错失资源共享或者Turbo Core大幅加速的最好机会。
希望自然就寄托在了Windows 8身上,可惜它现在还处于开发预览阶段,Beta测试都还得等一段时间,所以无法真正检验对推土机的优化支持是否到位,倒是AMD给出了一份游戏性能对比,宣称Windows 8开发者预览版通过线程调度的改进已经可以将游戏性能提升最多10%。
至于Windows 7 SP2能够也完善支持推土机,机会还是有的,按说肯定会比现在好,但要想达到最佳结果肯定得等Windows 8,而到明年年中前后,第二代推土机也要来了。
说起第二代推土机,再来看看AMD规划的路线图:以推土机为基础,每年将每瓦特性能(注意不是单纯的性能)提升10-15%。2012年就是我们已经介绍过的“Piledriver”,改进IPC(每时钟周期指令)和功耗、做为Trinity APU融合处理器的一部分、同时用于服务器和桌面。2013年我们将迎来“Streamroller”,2014年则是又一个“Excavator”,相信它们也都会是APU的组成部分。
总的来说,推土机并未达到我们预期中的高水平,就像不久前的iPhone 4S,但其实大家都明白,以AMD的人力财力和物力,想让它把对手完全踩在脚下也是不现实的。不管怎么说,推土机配合9系列芯片组主板、Radeon HD 6000系列显卡,新一代3A“天蝎座”仍有不少可圈可点之处,其性能表现虽算不上顶级的,但也完全可以轻松满足主流和高性能用户、游戏玩家的日常需要,特别适合于那些需要高度多线程的视频转换、图形渲染、多任务运行等环境,而且AMD一贯的性价比优良传统也得到了很好的继承,FX-8150折算下来也不超过1600块钱。
顺便说一句,推土机架构的服务器处理器Opteron 6200/4200/3200系列也将在近期陆续发布,最多有八个模块十六个核心,频率也不低。鉴于服务器对密集线程运算能力要求更高,推土机应该会有更大的发挥空间。