2010年4月19日下午,春雨飘飘的上海,AMD举行了名为“龙起云涌 芯聚多核:12核皓龙处理器发布暨盛大AMD云计算联合实验室启动联合发布会”的新闻发布会,在中国正式发布了新一代Opteron皓龙6000系列服务器平台,这也是全球首款12核x86处理器,AMD与盛大联合建立的中国首家云计算联合实验室正式揭幕。
我们驱动之家有幸见证了AMD新服务器平台在中国的登场亮相,还采访了AMD全球副总裁兼服务器及嵌入式业务总经理Patrick Patla先生,对新平台有了更深入的了解。接下来请看我们的详细报道。
AMD皓龙6000系列平台配备了世界首款12核和8核x86处理器,性能最高可达AMD上一代6核处理器(伊斯坦布尔)的两倍,其中整体性能提升88%、浮点性能提升119%,主要面向主流的双路和高附加值的四路服务器市场,可满足当今服务器客户对工作负载特定性能、电源效率和整体价值的需求,同时又能使客户花更少的钱获得更多的核心和内存。新平台已经获得了业界伙伴的广泛支持,包括宏碁、Cray、曙光、戴尔、惠普、SGI在内的OEM厂商都正在推出相关新系统。
发布会现场布置得简约精致,而且我们注意到角落里有个特殊图案,四颗处理器相连延伸,但黑布下边遮掩的是什么呢?
发布会正式开始,AMD全球副总裁潘晓明先生首先致辞。他重点阐述了当前的服务器市场趋势和客户需求变化,以及皓龙6000系列所具备的相应特点和优势,还介绍了AMD与盛大展开的相关合作,包括此前的人气网络游戏《永恒之塔》,以及刚刚建立的云计算联合实验室,双方将以此为契机推动云计算在中国的应用与发展。
盛大在线首席安全官季昕华先生在发言中表示,盛大在线正在建立一个基于互联网的开放云服务平台,为第三方内容制造商提供开发、部署、运营等一整套的云服务,而AMD皓龙6000系列平台在计算性能和能效方面的优秀特性非常适合云计算的应用和部署,因此成为云计算联合实验室的首选技术平台。
据了解,盛大AMD云计算联合实验室以AMD皓龙服务器平台为基础,将对云服务进行深入研究,帮助盛大在线将盛大的支付计费、数据分发、安全、客服、数据分析等服务以及用户、存储、服务器、机房等资源进行深度研发和整合,通过统一的平台对外提供。今后盛大的合作伙伴将可通过各种渠道在盛大云服务平台上各取所需,大大节省在软硬件人力资源及专业技能上的投入,而盛大游戏历时多年打造的虚拟世界创造平台《零世界》是世界前沿的虚拟世界云计算平台,其基于云计算的研发与测试都将与盛大AMD云计算联合实验室合作进行。
接下来,潘晓明先生、季昕华先生、Patrick Patla先生、AMD服务器业务产品管理总监Gina Longoria女士每人手持一颗“皓龙6000处理器”,将其嵌入G34插槽上,为“盛大AMD云计算联合实验室”揭牌。
Patrick Patla先生随后详细讲解了AMD的最新服务器市场策略和相关技术产品。
在服务器市场中,单路平台的份额约为20%,四路和八路平台仅占大约5%,而多达75%的都是双路平台,因此AMD将整个服务器市场划分为两大部分,其中已发布的皓龙6000系列面向双路和四路平台,提供更好的每瓦性能和扩展性,即将推出的皓龙4000系列则面向双路和单路平台,着重于更高的能效和成本优化。
此番发布的皓龙6100系列12核/8核处理器就是皓龙6000系列平台的第一站,开发代号“马尼库尔”(Magny-Cours),明年还会升级到16核/12核的“英特拉格斯”(Interlagos),采用更先进的32nm制造工艺和全新的“推土机”(Bulldozer)架构,仍使用Socket G34封装接口,保持平台的一致性和通用性。
皓龙4000系列平台的第一批处理器则是代号“里斯本”(Lisbon),6核/4核设计,明年升级为同样32nm工艺推土机架构的8核/6核“巴伦西亚”(Valencia),都采用Socket C32封装接口,而且两大平台都芯片组都是AMD SR5600系列。
皓龙6000系列处理器采用第二代直连架构DAC 2.0,每颗处理器支持最多16个物理核心,并拥有四条HT 3.0总线,处理器之间的互联速度加快了33%,任意两颗处理器相互之间访问仅需一跳(1-hop),另外还支持四个内存通道,每个处理器都可搭配12个DIMM内存插槽,比6核伊斯坦布尔增加了50%,更适合内存密集型应用。
皓龙6000系列平台的另一个突出特点是将传统上成本居高不下的四路平台带入主流市场,提供统一的、虚拟化的平台,更适合托管应用。
Patla给出了一个有趣的数据,根据AMD的内部估计,目前全球有将近200万颗AMD处理器应用在各地的云计算集群中。
Patla还披露了即将发布的皓龙4100系列处理器的部分情况。该系列专为云而设计,强调低功耗,采用超低功耗设计,搭配高能效的AMD芯片组,支持低功耗RDDR3内存核AMD-P 2.0节能技术核平台级的电源管理。
举例来说,伊斯坦布尔皓龙2419 EE的平均功耗仅为40W,而同样是6核心的新平台皓龙4162 EE可将系统满载功耗降低26%,待机功耗更是降低54%之多。
简短的发布会结束后,Patrick Patla先生、Gina Longoria女士以及AMD大中华区计算产品部产品市场总监唐志德先生共同接受了媒体的采访,现整理如下。
一、马尼库尔的电源管理新特性很吸引人,请介绍一下工作原理。
Patrick Patla:马尼库尔和稍后的里斯本处理器在电源管理方面引入了C1E空载状态休眠技术,在四路48核系统中可以节省最多50W的功耗,特别是皓龙4000系列平台中更强调功耗和电源优化,其中“阿德莱德”(Adelaide)平台可以从BIOS设定等各个环节做到功耗的节省。
二、皓龙6000平台具备丰富的虚拟化功能,并且凭借显著提升的内存带宽可以支持更多虚拟机,而内存带宽和不同功耗产品之间具有一致性,因此内存带宽不会因功耗降低而受到影响和牺牲,这是如何做到的?对于高端用户来说有哪些好处?
Patrick Patla:AMD现在服务器平台上使用的都是第二代直连架构DAC 2.0,现在是12核,明年还要推出16核。我们在整个产品研发和设计过程中都注意了能效方面的管理及相应的对超传输总线、内存总线和内存通道的需求。
三、皓龙6000采用了四通道内存,并增加了一条超传输总线,这两方面的改进可以显著提升哪些关键应用方面的表现?
Patrick Patla:我们前面也提到过,皓龙6000平台最好的应用就是在虚拟化、数据库、高性能计算方面,特别是高性能计算客户,他们一直都在费劲脑筋地思考如何使现有系统中的部件结合得更紧密,而这些方面都可以显示出我们产品的长处。
四、皓龙6000系列和4000系列采用了G34和C32两种不同的接口,AMD这样做除了市场划分之外,有没有技术方面的原因?二者的命名又是如何来的呢?
Patrick Patla:G34接口处理器的体积更大一些,可以容纳更多的核心(最多16个)、更多的内存通道(四个),尺寸是42.5×60毫米,而C32基于现有的Socket F 1207插槽,针脚数也一样,可以容纳6个核心(明年8个)、两个内存通道,尺寸是40×40毫米。不同的平台有着不同的针脚机制,所以这样做(两种接口)主要是基于对内存通道和容量、核心的考量。
G34、C32中的“3”都代表我们的第三代插槽。G34中的“4”代表四路,G就是General Purpose,即通用的。C32中的“2”代表“2路”,C就是Cloud,即云计算。所以整体解读,G34就是通用的第三代四路平台,C32就是面向云计算的第三代双路平台。
五、对高性能计算用户来说,在性能和价格方面他们可能更关心性能,是否可以介绍一下皓龙6000平台在高性能计算(HPC)方面的情况?
Patrick Patla:皓龙6000平台一个很大的特点就是内存有很大的性能提升。对石油、油气等行业的用户来说,他们对运算建模的要求是非常高的,内存性能的提升可以使他们构建更大的模型。这样的HPC内存密集型应用,更多的是适用于石油、地质勘探公司,至于教育和金融业也都应该有很好的应用。G34的48核处理器最多可以支持0.5TB内存。
唐志德:我补充一下,高性能计算大部分是用于研发,比如刚才说的石油勘探,这些都对浮点计算和内存有很高的要求。Linpack就是高性能计算的一个衡量标准,主要通过浮点计算流水线和处理器主频来分析峰值浮点性能。还有内存通道和带宽方面的优势,比如内存支持到512GB,这都是HPC所需要的,也只有AMD G34产品可以提供。
六、伊斯坦布尔引入了HT Assist技术,马尼库尔又将超传输总线增加到四条,请问它们是如何协同工作来提升多路系统性能的?
Patrick Patla:HT Assist技术是非常重要的,是我们现在和未来相关升级以及多核心的关键性技术。这个机制可以让处理器直接从缓存中获取所需要的信息,在2010新平台(皓龙6000系列)引入之前通过它可以获得更好的超传输性能。现在新平台四路系统在处理器之间的通信全部只需要一跳(1-hop)就可以,不再有时候还得两跳。
七、皓龙6100 12核处理器比上代6核增加了一倍的核心,但是功耗几乎没有增加,AMD是如何做到这一点的?
Patrick Patla:三年前我们发布巴塞罗那的时候,它是四核的,主频2.3GHz左右,再往前三年的单核皓龙是1.8GHz,而现在增加到了12核,所以皓龙系列发展的过程中,基本上每三年核心数就要增加两三倍,而整体功耗都是差不多的。至于如何做到的,首先是从设计入手,进行低功耗优化,第二是专注于节省功耗的各种技术,包括CoolSpeed、C1E和硬件热能控制三个方面,另外还有生产工艺的改善。
八、皓龙6000系列处理器有四条超传输总线,其中三条连接到其他三颗处理器,那么第四条有什么作用?
Patrick Patla:四条超传输总线有三条用户处理器之间的互联,第三条则连接到北桥,可以参考系统架构图。
唐志德:在老的多路平台上没有相互直连,四路系统中对角两个处理器要互相访问,需要(绕道其他处理器)跳两次,而皓龙6000平台上通过更多超传输总线,可以实现直接访问。
最后是皓龙6000和皓龙4000处理器的真身近照: