英特尔高级院士谈下一代Nehalem架构
  • Roc
  • 2008年05月14日 10:02
  • 0

Stephen Pawlowski 庞思立先生:英特尔高级院士、英特尔数字企业事业部首席技术官兼架构与规划部门总经理。 庞思立:英特尔现在分成几大事业部,数字企业事业部(DEG)是其中最大的一个事业部,涵盖嵌入式、通讯、服务器平台、企业客户和可视计算。我主要负责DEG的架构和计划工作,主要是与数字企业有关的微架构和处理器方面的产品计划。我所负责的平台架构和规划部门大约有280多人,分为4大平台:传统平台、高性能计算、客户端架构、嵌入式和通信的SoC系统。在服务器平台中,包括增强型系统、四处理器系统和双处理器系统噢,以及工作站和低端的服务器系统。接下来的高性能计算部门负责在英特尔芯片以及英特尔芯片的互联架构的基础之上构建世界上计算速度最快的机器。客户端平台架构主要是用于台式系统以及企业机的移动系统,那么这个平台组也负责开发各种各样的技术,其中也包括博睿技术。最后一个嵌入式通信架构主要负责嵌入式通信系统的平台架构,以及各种以太网和局域网方面的系统架构。

英特尔高级院士谈下一代Nehalem架构

英特尔的开发模式我们叫做Tick-Tock,就像钟摆一样。Tick指的是制程技术的不断进步,Tock指的是微架构的不断进步,基本上这种Tick-Tock模式是按照隔年推进的节奏进行的。比如说今年晚些时间我们将正式推出Nehalem,它是对在酷睿2架构基础之上的进一步发展,那么在制程上我们会推进到32纳米。

英特尔第一款Nehalem处理器将包括四个核,有共享的三级缓存一级集成的内存控制器,还有英特尔的QuickPath互联。这种QuickPath互联从Nehalem开始会在今后几代服务器的处理器当中使用。新的处理器由核内和核外部分构成,核内实际上就是一个基础的计算引擎,核外是支持这种基础计算引擎的各种逻辑元件,比如集成的内存控制器、QPI、QuickPath互联,还有相应的IO部分、电源和时钟。这款处理器核外部分采取了模块化设计,在最下面可以在核外考虑选用各个模块,将来产品有需求,就可以把这些模块用上。

这是一个双处理器配置的Nehalem系统,由于有了QPI和片上集成的内存,其带宽超过上一代四倍之多,而且可以支持多种DDR,而且可以有积存和缓冲的。可扩展的QuickPath的互联每秒钟可以达到4个GT,每个链路都是双向的,所以最高可以达到每秒25.6个GB。这个系统的低延迟能力非常强大,能够实现低延迟缓存一致性的操作,非常适用于时尚性非常强的应用,比如媒体应用。英特尔在服务器领域有各种各样基于Nehalem处理器的产品线,比如说量产的、针对大众市场的高能效服务器,每个CPU最高4个核、8兆缓存,还有高端的服务器,即可扩展的服务器。

在未来发展当中我们的目标是不断的提升每个处理器的性能,一方面我们会去增加每个处理器的核和线程的技术,包括增强浮点计算的性能,另外在多核多线程发展的同时,也要确保传统单线程的应用仍然可以享有同样的性能,不会以牺牲传统的单线程应用为代价。在降低能耗方面我们也在不断的进展,比如工作状态下、闲置状态下以及待机状态下的能耗。 在未来的研发当中,我们会专注于两个方向,首先是有传统的像Nehalem这样的处理器,这属于大核,采用乱序计算,另一方面是在未来的凌动的处理器,采用的是小核有序计算,而且完全采用IA的处理器。在大核中我们会充分发挥多线程应用的能力,还有小核当中多线程性能的发挥。

多年来英特尔公司也在致力于在晶体管数量不变的情况下不断提高单个晶体管的性能。我们发展的早期就是通过前端总线把不同的处理器连接在一起,形成多处理器的系统。接下来我们又推出了超线程,这样在流水线当中每一个执行单元能够得到更加充分的应用,能够执行两条独立的线程,而不是让其中一条保持在闲置的状态。在接下来的发展中,我们在片上能够实现越来越多的核数,从双核到四核,以及将来在片上能够有数量更多的小核,以满足特定的市场细分,以及工作负载的需求。我们现在非常专注于片上技术的发展,一方面注重处理器核的内容,另一方面会融入第三方的设计,越来越多的把过去的完整系统才具有的能力集成到单片系统当中。有了这样的技术我们就能够拥有越来越强大的能力满足不同的市场细分对计算和性能的要求。为了进一步的实现我们的这些目标,一方面我们在不断的提高处理器的性能,不断提高晶体管的性能,另一方面我们会不断的去再组建一级,实现全系统的功能,这样使得系统功能得到进一步优化。当然,我们会根据具体的市场以及产品的细分来决定我们需要多高的集成度。

英特尔不仅在硬件方面非常专长,而且也推出了非常多的软件工具,来帮助用户更好的使用英特尔芯片。比如我们提供了各种各样的编译器、库、用于线程的工具包、用于分析线程和分析程序状况的各种分析工具,还有大量并行性方面的软件工具。我们开发的很多软件工具都被业界认为是最优秀的。 媒体问答:

记者:您刚才介绍了英特尔的发展趋势,是大核有序小核无序,您能具体解释一下吗?第二个问题是英特尔发展注重单线程性能,那么除了关注主频以外,还有些什么技术可以使单线性能提高呢?为什么现在要强调单线程性能?是不是因为目前多核应用的软件环境还不那么成熟、很多都还是基于单性能的应用?

庞思立:大核就是无序计算的核。从1992年开始英特尔就一直在推出这种大核。从指令执行的角度来说,比如说一个编程员在程序当中有指令ABC,那么在编程当中要求程序是按照ABC的顺序来执行这三个指令的,这样有序计算的核就会完全按照程序员的设想在执行的流水线当中按照ABC的顺序来执行。如果A的执行时间比较长,在这种情况有序执行的情况下,指令B和C也会相应的后延。即使指令B的执行与指令A执行的结果无关,但是在有序执行的情况下指令B仍然要等指令A执行完成才能进行执行。而在无序计算,或无序核的执行当中,只要B不有赖于A,执行状态准备完成后系统就会先去执行B,而不会让指令B等待指令A执行的完成。另外在无序核的计算当中,它也能够对代码的顺序在执行之中做出推测,并根据推测先执行一部分的指令。这样在执行过程中,就把指令,或者这个代码分成了两个部分,然后去进行执行。如果推测是对的,比如说应该是去执行右边分支的指令,如果推测对的话会继续执行下去,但是一旦推测错了,开始执行一个错误的分区,或者是错误分支当中的指令,那么这时在无序计算当中就会停止这样的执行,把所有这种写的信息、数据都删除,并且停止所有读的执行,然后会回到正确的分支当中去执行。所以无序计算主要目标仍然是提高每个时钟频率能够执行的指令数量。一般来说在同样一个主频周期当中无序核执行量要比有序核执行的量多。也就是说在主频不变的情况下,无序核执行程序的速度比有序核要快。而且这种乱序执行无论按照什么样的顺序进行执行,最后执行程序产生的结果和有序执行是一样的,也就是说是和编程员的设计是一样的。

我们有一系列的方法能够提高每个主频的指令数。首先通过乱序计算和乱序执行可以在固定时间内执行更多的指令。而且大核的这种预测也会越来越准;我们可以增加更多的执行单元,让整个系统对于内存丢失的敏感性降低,也就是减少整个系统由于内存丢失而必须停机的情况。同时我们的研究人员也在寻找一些新的技术和新的方式。实际上我们是两条线同时推进,一方面的会加强单线程的处理能力,另一方面也会进一步的提高多线程的处理能力。我们既希望传统的多线程应用速度更快,也在确保新型的并行运用执行的速度越来越快,同时还要降低能耗。

记者:刚才您说到了并行的有序和无序,现在有一些是基于无序处理的,刚才听说无序和有序效果是差不多的,但是基于无序计算的GPU的浮点计算能力要强多了,您怎么解释这个情况?

庞思立:GPU并不是一种通用用途的处理器,它仅仅是一种图形处理器,所以GPU在处理象素的时候性能非常好,但是如果我们用GPU执行通用的计算的话,它的效率会下降很快。就GPU而言,它们在执行一些特定的工作负载的时候会非常的好,但是对于大部分通用、多用途的、一般由CPU执行的工作负载,GPU的效果并不好。

记者:上个月英特尔和HPC厂商Cray全面展开了合作,您认为是什么原因让 Cray青睐英特尔的处理器的?这和Nehalem的关系大吗?您如何看待千万亿次发展的态势?

庞思立:在这个过程当中,至强处理器起了很大的作用。另外一点是英特尔关于高性能计算的整个路线图,我们一直到千万亿次计算以及千万亿次计算以后的路线图也非常的有说服力。此外英特尔已经提出了许多核的架构,而且在已有架构的基础上不断的增强浮点计算的能力。正是由于英特尔的这些工作,使得高性能计算领域看到了前所未有的计算能力和性能。在千万亿次计算方面我们会继续推进我们的技术,同时会和高性能计算领先的像Cray这样的公司进行的合作,不断增强我们的处理器和系统。我们希望将来所有的需要高性能计算的科学发现和发明都能基于英特尔平台。

记者:关于6核处理器Dunnington,为什么没有像传统的那样走双核-4核-8核的路线?推出6核处理器是怎样考虑的?从4核到6核是不是像当初的双核向4核发展那样令人期待呢?

庞思立:我们做出这样的决策主要是基于芯片尺寸上的考虑,以及Dunnigton所针对市场对于性能的具体要求。当时我们考虑了多个因素,包括核数、内存的大小、IO之间互联的数量,我们进行了很多权衡,在性能上建了很多模型进行模拟,最后根据我们当时的判断以及当时的市场竞争形势,做出了Dunnigton这样的决定。关于从四核到六核的性能,我想说这样一个性能的提升在市场上将是非常有竞争力的,这种性能的提升是实质性的提升,而且从市场上得到的反馈已经告诉我们,Dunnigton产品周期所能带来的性能提升是符合市场预期的。

记者:您刚才提到了英特尔发展是多模块的构置,这种趋势会不会简单化,体积会不会越来越小?

庞思立:一般来说这样的模块化的设计不会进一步的缩小尺寸,而是能够进一步的加快产品推向市场的时间,因为模块化的设计能够更快的做出变化,把市场所需要的功能,或者设计方案以最快的速度融入到架构当中,这样进一步缩短产品推向市场所需要的时间。

记者:在多核多线程处理当中,如果切换到多核单线程处理当中,会不会关闭不必要的核?在关闭不必要核的过程当中,如果进行多次的浮点计算的切换,在其他核在关闭与打开的过程当中是否会加速核的损耗?

庞思立:第一个问题的答案是肯定的。而且这样核关闭的执行我们可以在硬件层实现,也可以反映在操作系统当中。对于这种核的各种工作情况,我们做了大量的测试,不断的关闭和激活核是不会影响核的可靠性和使用寿命的。这样的关闭再打开,包括从电压的角度来说,有的是需要切断电压,有时候不需要切断电压,即便需要把电压切断,再重新让核投入工作的过程当中,有时是瞬间恢复到原来的电压水平,有时是在主频周期当中慢慢恢复电压的水平。如果是后一种情况,核不会在瞬间经历电压的变化,如果瞬间恢复原有电压水平的话,在我们核的设计过程当中,我们确保核能够承受瞬间的高电流接通,这样的关闭和打开是不会影响核的可靠性和寿命的。另外在整个系统的设计当中,在执行这些切换的过程当中,我们有一系列的运行参数,在参数范围之内多次的关闭和打开,就像打开关闭电源一样,是不会影响可靠性的。

记者:QuickPath集成了内存控制器,采用的是非一致性的内存法,改变了以前SMP的内存控制方法。传统上来讲,认为低于4路的时候,SMP这种内存控制方法比较可靠;高于8路的情况下NUMA比较好。但是现在比较奇怪的是比较低端的四路以下系统更多的采用NUMA,反而是IBM这样的大型机开始使用SMP。您能讲一下出现这种变化的原因吗?

庞思立:大型机是一种非常独特的设计,大型机设计中从处理器到软件的设计都是很独特的,它的操作系统可以完全的理解处理器和内存的配置,并且可以进行相应的微调,所以大型机的设计是一套完整的打包式的设计。而对于我们所说的这些架构来说,我们的目标是要实现对于延时内存访问进一步的优化,进一步的缩短延时,缩短由于内存延时造成停滞现象。通过把内存控制器集成到片上,并且把内存控制器更加贴近CPU,能够进一步的提升性能的可伸缩性,并且进一步缩短延时,同时进一步提高缓存的性能。当然相对于单处理器而言,双处理器当中可以看到理论上可能会出现NUMA带来的一些后果,但是只要从操作系统层面,我们能够确保对两个处理器之间的这种缓存一致性的流量进行限制,就可以避免对性能上的影响。

记者:现在经常说多核技术,但是没有对相应产品的具体应用领域和产品形态进行说明,能不能请您做一下这方面的介绍?另外Larabee是你们的第一款此类产品吗?

庞思立:Larabee是作为一个图形处理平台推出的,但是也可以作为一种强大的流量型计算的引擎,比如说交易型的处理、数据库类型的执行运算等等。所有适用于Larabee的流量型计算处理的应用具有很高程度的并行性,同时也具有少量的串行性,也就是我们常见的一些高端的交易执行。像Larabee它是一个朝向流量计算的架构,它的应用领域现在虽然说比较少,但是是在不断的增加当中,将来Larabee可能应用的领域包括模式识别、数据挖掘以及合成显示。

文章纠错

  • 好文点赞
  • 水文反对

此文章为快科技原创文章,快科技网站保留文章图片及文字内容版权,如需转载此文章请注明出处:快科技

观点发布 网站评论、账号管理说明
热门评论
查看全部评论
相关报道

最热文章排行查看排行详情

邮件订阅

评论0 | 点赞0| 分享0 | 收藏0