经过一系列前期调研、项目招标、系统部署等复杂工作,2010年6月,吉林大学基于英特尔至强处理器的浪潮TS10000高性能计算平台成功建成。据介绍,该HPC(高性能计算)平台的CPU计算能力达到了40TFLOPS(万亿次浮点运算能力),居于全国高校同类系统之首,并成功跻身2010年6月份全球高性能计算机TOP500,位居第239位。
根本目的是为了应用
对于这个“中国高校HPC第一”的排名,吉林大学计算机科学与技术学院院长,同时也是该HPC项目负责人之一的胡亮教授却显得不甚在意,他说:“排名都是比较虚的东西,事实上我们建高性能平台就是希望满足用户的需求,这是最根本的出发点。” 据介绍,吉林大学是国家“985”、“211”重点建设的一所综合性大学,学校的学科分类非常齐全。学校很多学科在科研过程中都对高性能计算有着非常强烈的需求,例如,理论化学、汽车、生物信息等。之前,吉林大学也并非完全没有计算资源,但是没有一个相当规模的学校级的HPC中心,只是每个学院或者国家实验室有自己小规模的HPC中心,而且计算资源严重不足。例如,超应用材料实验室的老师需要到上海租用HPC资源,长春和上海比较远,使用过程中多少有不便之处。而电子学院的老师是自己买PC机,用低速网络自己搭建了一个比较“粗糙”的集群进行科研。
其次,吉林大学引进了一些优秀人才,包括“千人计划”、长江学者,他们到学校工作后,很多人都提出了HPC需求,例如申请200万组建一个小的高性能计算中心。此外,胡亮表示,吉林作为东北重工业基地之一,拥有一汽集团、吉化集团、应化所等很多大型的企事业单位,他们也有较强烈的HPC需求。基于这些原因,吉林大学的校领导,决定筹建一个学校级的公共HPC中心。
事实上,这样一个公共的HPC中心存在诸多好处:一是,把资金集中起来可以购买到更便宜的设备,提高投资效率;二是,分散的HPC中心负载不平衡,有的学院的HPC资源很忙,有的学院很清闲,把资源集中起来可以很好地实现资源共享;三是,HPC中心实际上对后续服务和技术支持要求比较高,并不是说每个学院都有这样的技术能力,由学校牵头可以提供更好的技术支持和保障;四是,可以对校外的企业、政府等提供HPC服务,促进区域经济的发展。而这一设想得到了吉林省、市政府的相关部门的重视和支持,例如,吉林工业信息厅不仅拨款200万,而且承诺以后每年都会对HPC中心给予支持。
40TFLOPS 与1300万
众所周知,HPC的建设和运营都是极其“烧钱”的事,而学校的经费又比较紧张,因此,虽然不在意HPC排名,但是对于只用1300万就获得40TFLOPS的运算能力,胡亮显得很是开心和满意,表示这要“大力感谢英特尔公司、浪潮公司给予的众多支持”。
据胡亮介绍,在项目招标时,当吉林大学表示只能拿1300万建一个40TFLOPS的系统时,八家前来投标的公司立刻被“吓跑”了好几家,认为不可能用这么少的钱搭建这么大的系统。而英特尔、浪潮则表示了最大的诚意,两家公司多次来做报告,帮助吉林大学细致地规划整个HPC平台,分析怎么样花最少的钱达到最好的性能。 尤其,在系统选型过程中,正是英特尔5600、7500系列处理器呼之欲出的时候,是选择最新的5600系列,还是选择口碑颇好、且经过市场检验的至强5500系列?吉林大学还是比较犹豫,因为考虑到5600系列在制程工艺上做了改进,同样面积的芯片上可以集成更多的内核,所以会担心内存带宽存在瓶颈,而且也不清楚性能究竟能提高多少。
一切当然只能靠测试数据说话。吉林大学选取了一个内存访问密集型HPC应用,即测试二氧化硅晶体结构的程序,和服务器供应商一起,首先在至强5500平台上进行了测试。由于没拿到至强5600,吉林大学委托英特尔用同样的程序进行测试。测试结果表明,最保守的情况,至强5600系列的性能也比至强5500系列高出了20%,而功耗却没有增加。
除了性能之外,吉林大学之所以最终选择至强5600系列,还出于以下的考虑:一是英特尔给予大力支持,至强5600的报价与5500的相同,花同样的钱买到更好的计算能力肯定划算;二是,HPC中心建完之后的主要开销来自电费,而至强5600系列的功耗与5500的是一样的,这意味着买了更多计算能力的同时,没有造成运营成本的增加,这也是划算的事情;三是,尽管没有用户对新的产品、新的芯片做过测试,但是由于体系结构没有变化,是一个平滑过度,因此,相对而言技术风险比较低,吉林大学认为也是可以承担的;四是,至强5600系列的管脚和5500一样,供应商的主板不需要变化,供货周期没有影响,对HPC中心的建设周期时间来说也就没有什么风险。
由于吉林大学的HPC应用里有不少内存密集型应用,例如吉林大学理化所的诸多应用,因此,还专门采用了支持“大内存”的至强处理器7500来部署了四个“胖节点”。胡亮表示,将来会抽出工信厅给的资金来继续扩充“胖节点”。
为了保障未来HPC平台的运营,今年5月,吉林大学还成立了专门的高性能计算中心。该中心目前有主任一名、副主任两名、工作人员五名,负责HPC系统的日常运行和维护工作;并且设有专家用户委员会为该中心提供咨询和监督,以及负责制定方针政策和重大决策的领导工作小组。
吉林大学TS10000高性能计算平台: 300台刀片计算节点(至强5650×2); 4台胖节点 (至强7550×4); 10台I/O节点; 2台管理节点; 3台调度节点; 6台登录节点; 2台NFS节点; 内存7.6TB; 存储系统100TB; 计算网络采用7台36口QDR Infiniband交换机; 管理网络采用万兆以太网络交换机; 并行文件系统采用LUSTRE文件系统; 作业管理系统采用Platform Computing公司的LSF系列产品。