摘要:随着高性能计算机系统性能的不断提升和硬件规模的不断扩大,如何实现系统的可靠运行,是高性能计算机尤其是P级计算机研制中面临的重要技术挑战.从高性能计算机对可靠性技术的需求出发,全面介绍了高性能计算机硬件设计中的可靠性技术现状,包括避错、静态冗余、动态冗余和在线替换等技术,详细分析了各种可靠性技术在典型机器中的应用情况;最后对高性能计算机可靠性技术的发展趋势进行了深入探讨,包括多核处理器的可靠性设计、全方位的内存防护技术和刀片式的冗余架构.
关键词:高性能计算机;可靠性;避错;容错;冗余;在线替换
CurrentSituationandTrendofReliabilityTechnologyinHighPerformanceComputers
HuangYongqinJinLifengandLiuYao
AbstractAsthesystemperformanceofhighperformancecomputers
(HPC)becomes
higherandhigheranditshardwarescalecontinuouslyincreases?howtorealizehighlyreli
ableoperationofthesystemisagreatchallengeintera-scaleandpeta-scaleHPCresear
chanddevelopment.BeginningwiththerequirementforhighreliabilitytechnologyfromHPC
,theauthorscompletelyintroducethepresentreliabilitytechnologiesinHPChardwaredes
ign,suchasfaultavoidance,staticredundancy,dynamicredundancyandonlinereplace
mentinwhichstaticredundancyincludessuchfaultmaskingtechnologiesaspartredundancydat
apathredundancyandinformationredundancyanddynamicredundancy
includessuchrelia
bilitytechnologiesasfaultdetectionanddiagnosisreconstructionandrecovery.Combinedw
ithonlinereplacementtechnologyredundancytechnologycangreatlyimprovesystemRAS(re
liability?availability,serviceability)Detailedlyanalyzedis
hespecificapplicationofallkind
sofreliabilitytechnologiesintypicalIBM,HPandCraysystems.Finallydiscussedisthefuturetrendof
reliabilitytechnologyinpeta-scaleHPC,suggestingthatinthede
velopmentofpeta-scalehighper
formancecomputers,muchworkshouldfocusonreliabilitydesignofmulti-coreprocessorandth
eall-roundmemoryprotection,anditispointedoutthatbladearchitectureisbeneficialtothereali
zationofmodulaiizationalredundancyandonlinereplacementofcomponents.
Keywordshighperformancecomputer;reliability;faultavoi
dance;faulttolerance;
redundancy;on-linereplacement
0引言
当前,高性能计算机(HPC)的设计规模已达到百万亿次(TFLOPS)数量级,正在向千万亿次(PFLOPS)数量级发展,所采用的处理器数量达到上万个甚至数十万个。随着系统硬件规模的不断扩大,带来的是可靠性水平的相应下降,系统平均无故障时间的降低.对于超大规模的高性能计算机,它们所面临的是许多必须长时间运行的关键任务,一旦发生故障而使系统无法工作,将会造成重大经济或军事损失。因此,在实现高性能的同时,必须确保系统的高可靠性。
1.HPC的可靠性需求
正如IBMBlueGene设计者所指出,可靠性是实现P级计算机面临的六大问题之一。
可靠性是指系统稳定运行的能力,可靠性指标通常用平均无故障时间(meantimebetweenfailureMTBF)表示.随着计算机规模越来越庞大,所使用的硬件资源也越来越多,从而导致机器的固有可靠性急剧下降.对T级和P级高性能计算机而言,采用的处理器数量从上万个到数十万个,即使器件的MTBF达到106h,系统级的MTBF也只能达到1~100h.当前使用的T级计算机中,IBMBlueGene/L(131072个CPU)的MTBF为53~158h,如要扩展到P级计算机,其规模将扩大为2.2倍哟290000个CPU)CRAYXT3/XT4(10880个CPU)的MTBF为7~72h,如扩展到P级,其规模将扩大为10倍(约100000个CPU);用8000个X86-64AMD64CPU构建的Clusters系统的MTBF为1~3h,如扩展到P级,其规模将扩大为10倍(约100000个CPU)[2].从总的规模上来预测,P级计算机的故障每几小时就会出现,因此,机器将把大部分时间用于检查点恢复和重启,而一次系统级的检查点操作的时间为几十分钟以上,极大地影响机器的使用.此外,从单个芯片的可靠性上看,随着单个芯片规模的增加,集成电路尺寸的减小,电路抗高能粒子撞击的能力下降及片内噪声的影响,单个处理器和存储器等器件的故障率也会提高.因此,高性能计算机尤其是P级计算机的研制对可靠性提出了更高的要求。