人们常说要解决问题,就要先分析问题,这样才能有的放矢。在11月26日发布的上一篇IT号外文章——“超人也有烦心事”(敬请附加上一篇文章发布后的链接)一文中,我们已经列举了目前发展迅速的HPC领域面对的六大烦心事,接下来,我们就要对它们的形成原因和症结进行一番分析了。
一、忽视实际应用导致HPC系统配置失衡及利用率偏低
前一篇文章中点出的HPC头两件烦心事就是其利率用偏低和系统配置失衡问题,而主要原因总结起来就是六个字——“忽视实际应用”。
这种忽视实际应用的第一个表现,就是有相当一部分HPC系统用户在投资HPC技术之前,并没有先对自己将在HPC系统上部署和运行的应用软件的特征进行认真全面的分析,没有弄清楚要满足这些应用性能提升的目标需要在HPC系统配置上进行哪些调整。相反,他们却很注重Linpack或其他与实际应用距离较远的测试软件,只是单纯以它们测出的理论性能值作为自己构建HPC系统的目标,如此一来怎能不出问题?
而忽视实际应用的第二个表现,就是一些用户在HPC系统布署后,并没有对自己相关的应用软件进行细致的优化。目前HPC系统技术更新速度很快,但如果不对应用软件进行足够的优化,例如让它更好地支持大规模并行计算,那么它很可能就无法发挥出这些新技术的功用,使得HPC系统利用率偏低,其潜能被浪费也就在所难免。
这两种忽视应用的表现,最终只会产生一个结果,就是让用户总是抱怨花了大价钱却得不到应有的回报。对此,我们建议这些用户应明确建立起“Linpack谨供参考”的观念,在实际配置和使用HPC系统时,还是要从实际应用角度出发,做好应用软件特征分析和优化的工作。
二、应用观念落后也拖累HPC系统利用率提升
除应用优化不足外,在国内,很多非传统HPC用户,尤其是商业用户对HPC应用观念的落后也是导致HPC系统利用率提升困难的重要原因。这里所谓的应用观念落后,就是指中国很多商业用户还没有像国外同行那样真正意识到HPC技术能够给他们的创新和业务运营带来的好处。因此他们对于是否构建或使用HPC系统热情还不是很高。
众所周知,目前在国内,各地、尤其是经济较为发达的省市都在如火如荼地兴建超级计算中心,但相对来说,这些地区很多行业用户对HPC的需求却还没有被真正激发出来,以致很多超算中心建成后都填不饱肚子。比如上海超算中心就不得不推出一个“倍增计划”,以百万重金鼓励用户开发与它们业务相关的HPC应用软件,并使用上海超算的HPC系统,以确保这些系统不再“空转”。
上海超算的做法,不失为一明智之策。解决这一问题的根本,其实就是要重点培养和发掘一些有HPC系统潜在应用需求的中小企业,让他们真正认识HPC的价值并接受这一技术。因为与那些有财力的、能够自己建造运营HPC系统的大型企业、专业科研和教育机构不同,在公共的超算中心“购买计算力”对这些企业来说更为划算,它们才是各地超算中心最大的客户资源。
三、HPC商业化程度有限造成HPC软件开发能力欠缺
在上一篇文章中,我们曾经提到了国内HPC领域应用软件及其开发能力欠缺的问题,其实这也与目前应用HPC系统的商业用户不够多,中国HPC商业化程度有限相关。
尽管中国很多科研机构、大型企业与大专院校很早就引入了HPC系统,但它们与广大商业行业领域的中小企业相比,还只是一个小众市场。开拓更大众化用户的中国HPC商业化进程确实已经起步,但与欧美日等发达国家和地区相比,其差距还是非常明显的,这就使得中国HPC领域出现了商业用户尚少、应用软件也少,相关软件开发水平难以提升的情况。
由此来看,要提升中国在HPC应用软件上的开发能力,让它与我们在HPC硬件技术上的技术水平看齐,恐怕会是一个比较漫长的过程。发达国家的经验是要用10年时间才能在这方面达到较好的效果。中国显然有必要加快这一进程,而其前提就是要大力推动HPC商业化的步伐。
四、认识差异使HPC系统节能瘦身动力不足
上一篇IT号外文章对HPC占地空间和消耗电能规模的描述,相信会让很多关注成本节约和节能环保的人士感到忧心,不过,不少HPC系统的用户对此倒没有那么在乎。这种认识上的差异,主要是因为目前仍在国内HPC应用领域占据较大份额的传统HPC用户,如高校、科研机构和大型企业多是财大气粗,而且只对计算性能比较关注,对HPC空间和能耗成本反而远不像旁观者那样敏感。
不过,随着国家开始提倡节能减排,以及地方建设超算中心热潮的兴起和一些商业企业开始构建自有的HPC系统,HPC系统的功耗和占地面积等问题也开始得到越来越多的关注。由于前者是以为当地各行业用户提供收费服务为主,其功耗如果过高,再加上用户不足,自然就会不堪重负;而后者在HPC上的投资都是取自自己的收入,当然希望获得良好的投资回报。而在这些新加入HPC应用领域的用户的推动下,节能和瘦身已成HPC系统发展的大势所趋。
当然,用户在认识上到位对于HPC节省能源和空间是一个重要驱动力,但技术的发展在这一过程中扮演的角色也是至关重要,只有它推动HPC系统在能效和计算密度上不断攀升,后者的节能和瘦身才不至成为一句空言。
五、HPC产品标准制订亟待多方合力
对于HPC系统所用服务器,主要是刀片服务器及其周边设备缺乏统一标准这一问题,其起因不外乎一个“利”字,因为少数厂商在率先开发这种较为先进的服务器技术时投入了大量的成本,自然希望以类似封闭系统时代的运作模式锁定用户,以获得更大回报。这种不同厂商之间的产品互不兼容甚至不能实现互操作的问题,不但对绝大多数在相关领域起步较晚的厂商影响严重,也让这一市场始终都无法真正做大。有鉴于此,整个产业界现在都在呼唤建立一个统一的标准,来真正推动刀片服务器的技术发展和应用普及。相信随着开放观念的日渐深入,以及市场对刀片服务器需求的日渐增长,在厂商、产业标准组织和用户的多方合力下,其标准问题必将得以解决。而在此之前,对于采用刀片服务器不是非常迫切的用户,可以尝试先采用计算密度和能效较高的机架服务器产品作为替代方案。
结语
通过上述分析,相信大家已对横亘在中国HPC产业和应用发展道路上那几件烦心事的起因和应对策略有了初步了解。在此基础上,其实还有一点值得大家关注,那就是引发这些烦心事的最大根源,即相关人才缺乏。虽然它的缓解也需要较长时间,但只有解决了它,才能让中国HPC领域的技术创新和应用普及获得持续发展的动力,才能根除这些烦心事,让用户以更合理的投入选对、用足和用好HPC产品和技术。
在应对和解决所有这些问题的过程中,每一个产业参与者的努力都是可贵的,作为HPC产业和技术趋势的引领者,英特尔公司不但可在技术层面提供业界最出色的解决方案,也在切实推动中国的HPC商业化进程和相关人才培养。在12月3日发布的“IT号外之HPC解决之道”中,我们就将对英特尔在今年3月底发布的,具备前有未有的智能特性,并以出色性能、能效表现获得全球及中国HPC用户青睐的至强5500处理器平台,以及英特尔在其他技术和非技术层面为中国HPC产业发展所做的贡献进行一番详细介绍,敬请关注。