期刊鉴别 论文检测 免费论文 特惠期刊 学术答疑 发表流程

高性能计算机的可靠性技术现状与趋势   

时间:2016-03-10 11:19 文章来源:http://www.lunwenbuluo.com 作者:黄永勤 金利峰 刘耀 点击次数:

     摘要:随着高性能计算机系统性能的不断提升和硬件规模的不断扩大,如何实现系统的可靠运行,是高性能计算机尤其是P级计算机研制中面临的重要技术挑战.从高性能计算机对可靠性技术的需求出发,全面介绍了高性能计算机硬件设计中的可靠性技术现状,包括避错、静态冗余、动态冗余和在线替换等技术,详细分析了各种可靠性技术在典型机器中的应用情况;最后对高性能计算机可靠性技术的发展趋势进行了深入探讨,包括多核处理器的可靠性设计、全方位的内存防护技术和刀片式的冗余架构.
  关键词:高性能计算机;可靠性;避错;容错;冗余;在线替换
  CurrentSituationandTrendofReliabilityTechnologyinHighPerformanceComputers
  HuangYongqinJinLifengandLiuYao
  AbstractAsthesystemperformanceofhighperformancecomputers(HPC)becomes
higherandhigheranditshardwarescalecontinuouslyinc
reases?howtorealizehighlyreli
ableoperationofthesystemisagreat
challengeintera-scaleandpeta-scaleHPCresear
chanddevelopment.B
eginningwiththerequirementforhighreliabilitytechnologyfromHPC
,theauthorscompletelyintroducethepresentreliabilitytechnologie
sinHPChardwaredes
ign,suchasfaultavoidance,staticredundancy,
dynamicredundancyandonlinereplace
mentinwhichstaticredunda
ncyincludessuchfaultmaskingtechnologiesaspartredundancydat
apathredundancyandinformationredundancyanddynamicredundancyincludessuchrelia
bilitytechnologiesasfaultdetectionanddiagn
osisreconstructionandrecovery.Combinedw
ithonlinereplacement
technologyredundancytechnologycangreatlyimprovesystemRAS(re
liability?availability,serviceability)Detailedlyanalyzedishespecificapplicationofallkind
sofreliabilitytechnologiesintypic
alIBM,HPandCraysystems.Finallydiscussedisthefuturetrendof
reliabilitytechnologyinpeta-scaleHPC,suggestingthatinthedevelopmentofpeta-scalehighper
formancecomputers,muchworkshoul
dfocusonreliabilitydesignofmulti-coreprocessorandth
eall-roundmemoryprotection,anditispointedoutthatbladearchitecture
isbeneficialtothereali
zationofmodulaiizationalredundancyan
donlinereplacementofcomponents.
  Keywordshighperformancecomputer;reliability;faultavoidance;faulttolerance;
redundancy;on-linereplacement
 
  0引言
  当前,高性能计算机(HPC)的设计规模已达到百万亿次(TFLOPS)数量级,正在向千万亿次(PFLOPS)数量级发展,所采用的处理器数量达到上万个甚至数十万个。随着系统硬件规模的不断扩大,带来的是可靠性水平的相应下降,系统平均无故障时间的降低.对于超大规模的高性能计算机,它们所面临的是许多必须长时间运行的关键任务,一旦发生故障而使系统无法工作,将会造成重大经济或军事损失。因此,在实现高性能的同时,必须确保系统的高可靠性。
  1.HPC的可靠性需求
  正如IBMBlueGene设计者所指出,可靠性是实现P级计算机面临的六大问题之一。
  可靠性是指系统稳定运行的能力,可靠性指标通常用平均无故障时间(meantimebetweenfailureMTBF)表示.随着计算机规模越来越庞大,所使用的硬件资源也越来越多,从而导致机器的固有可靠性急剧下降.对T级和P级高性能计算机而言,采用的处理器数量从上万个到数十万个,即使器件的MTBF达到106h,系统级的MTBF也只能达到1~100h.当前使用的T级计算机中,IBMBlueGene/L(131072个CPU)的MTBF为53~158h,如要扩展到P级计算机,其规模将扩大为2.2倍哟290000个CPU)CRAYXT3/XT4(10880个CPU)的MTBF为7~72h,如扩展到P级,其规模将扩大为10倍(约100000个CPU);用8000个X86-64AMD64CPU构建的Clusters系统的MTBF为1~3h,如扩展到P级,其规模将扩大为10倍(约100000个CPU)[2].从总的规模上来预测,P级计算机的故障每几小时就会出现,因此,机器将把大部分时间用于检查点恢复和重启,而一次系统级的检查点操作的时间为几十分钟以上,极大地影响机器的使用.此外,从单个芯片的可靠性上看,随着单个芯片规模的增加,集成电路尺寸的减小,电路抗高能粒子撞击的能力下降及片内噪声的影响,单个处理器和存储器等器件的故障率也会提高.因此,高性能计算机尤其是P级计算机的研制对可靠性提出了更高的要求。

  •   论文部落提供核心期刊、国家级期刊、省级期刊、SCI期刊和EI期刊等咨询服务。
  •   论文部落拥有一支经验丰富、高端专业的编辑团队,可帮助您指导各领域学术文章,您只需提出详细的论文写作要求和相关资料。
  •  
  •   论文投稿客服QQ: 论文投稿2863358778 论文投稿2316118108
  •  
  •   论文投稿电话:15380085870
  •  
  •   论文投稿邮箱:lunwenbuluo@126.com
 
QQ在线咨询
咨询热线:
15380085870
微信号咨询:
lunwenbuluoli