论文投稿_医学论文投稿_核心期刊,职称论文投稿发表_论文部落

菁华学术联盟唯一授权论文服务平台
论文服务十佳互联网站点


期刊鉴别	论文检测	免费论文	特惠期刊	学术答疑	发表流程

热门期刊:

《金融教育研究》双月刊统计源核心《中国医药导刊》月刊国家级《机械传动》月刊国家级优秀科技刊

当前位置：论文部落专业发表论文网 > 论文范文 > 电子信息 > 应用电子技术 >

高性能计算机的可靠性技术现状与趋势　　

时间：2016-03-10 11:19 文章来源：http://www.lunwenbuluo.com 作者：黄永勤金利峰刘耀点击次数：

　摘要:随着高性能计算机系统性能的不断提升和硬件规模的不断扩大，如何实现系统的可靠运行，是高性能计算机尤其是P级计算机研制中面临的重要技术挑战.从高性能计算机对可靠性技术的需求出发，全面介绍了高性能计算机硬件设计中的可靠性技术现状，包括避错、静态冗余、动态冗余和在线替换等技术，详细分析了各种可靠性技术在典型机器中的应用情况；最后对高性能计算机可靠性技术的发展趋势进行了深入探讨，包括多核处理器的可靠性设计、全方位的内存防护技术和刀片式的冗余架构.
　　关键词:高性能计算机;可靠性;避错；容错;冗余；在线替换

　　CurrentSituationandTrendofReliabilityTechnologyinHighPerformanceComputers
　　HuangYongqinJinLifengandLiuYao
　　AbstractAsthesystemperformanceofhighperformancecomputers(HPC)becomes
higherandhigheranditshardwarescalecontinuouslyincreases?howtorealizehighlyreli
ableoperationofthesystemisagreatchallengeintera-scaleandpeta-scaleHPCresear
chanddevelopment.BeginningwiththerequirementforhighreliabilitytechnologyfromHPC
，theauthorscompletelyintroducethepresentreliabilitytechnologiesinHPChardwaredes
ign,suchasfaultavoidance，staticredundancy，dynamicredundancyandonlinereplace
mentinwhichstaticredundancyincludessuchfaultmaskingtechnologiesaspartredundancydat
apathredundancyandinformationredundancyanddynamicredundancyincludessuchrelia
bilitytechnologiesasfaultdetectionanddiagnosisreconstructionandrecovery.Combinedw
ithonlinereplacementtechnologyredundancytechnologycangreatlyimprovesystemRAS(re
liability?availability，serviceability)Detailedlyanalyzedishespecificapplicationofallkind
sofreliabilitytechnologiesintypicalIBM，HPandCraysystems.Finallydiscussedisthefuturetrendof
reliabilitytechnologyinpeta-scaleHPC，suggestingthatinthedevelopmentofpeta-scalehighper
formancecomputers,muchworkshouldfocusonreliabilitydesignofmulti-coreprocessorandth
eall-roundmemoryprotection,anditispointedoutthatbladearchitectureisbeneficialtothereali
zationofmodulaiizationalredundancyandonlinereplacementofcomponents.
　　Keywordshighperformancecomputer；reliability;faultavoidance；faulttolerance；
redundancy;on-linereplacement　
　　0引言
　　当前，高性能计算机(HPC)的设计规模已达到百万亿次（TFLOPS)数量级，正在向千万亿次(PFLOPS)数量级发展，所采用的处理器数量达到上万个甚至数十万个。随着系统硬件规模的不断扩大，带来的是可靠性水平的相应下降，系统平均无故障时间的降低.对于超大规模的高性能计算机，它们所面临的是许多必须长时间运行的关键任务，一旦发生故障而使系统无法工作，将会造成重大经济或军事损失。因此，在实现高性能的同时，必须确保系统的高可靠性。
　　1.HPC的可靠性需求
　　正如IBMBlueGene设计者所指出，可靠性是实现P级计算机面临的六大问题之一。
　　可靠性是指系统稳定运行的能力，可靠性指标通常用平均无故障时间（meantimebetweenfailureMTBF)表示.随着计算机规模越来越庞大，所使用的硬件资源也越来越多，从而导致机器的固有可靠性急剧下降.对T级和P级高性能计算机而言，采用的处理器数量从上万个到数十万个，即使器件的MTBF达到106h,系统级的MTBF也只能达到1~100h.当前使用的T级计算机中，IBMBlueGene/L(131072个CPU)的MTBF为53~158h,如要扩展到P级计算机，其规模将扩大为2.2倍哟290000个CPU)CRAYXT3/XT4(10880个CPU)的MTBF为7~72h,如扩展到P级，其规模将扩大为10倍（约100000个CPU）;用8000个X86-64AMD64CPU构建的Clusters系统的MTBF为1～3h,如扩展到P级,其规模将扩大为10倍(约100000个CPU)[2].从总的规模上来预测，P级计算机的故障每几小时就会出现，因此，机器将把大部分时间用于检查点恢复和重启，而一次系统级的检查点操作的时间为几十分钟以上，极大地影响机器的使用.此外，从单个芯片的可靠性上看，随着单个芯片规模的增加，集成电路尺寸的减小，电路抗高能粒子撞击的能力下降及片内噪声的影响，单个处理器和存储器等器件的故障率也会提高.因此，高性能计算机尤其是P级计算机的研制对可靠性提出了更高的要求。

　　论文部落提供核心期刊、国家级期刊、省级期刊、SCI期刊和EI期刊等咨询服务。
　　论文部落拥有一支经验丰富、高端专业的编辑团队，可帮助您指导各领域学术文章，您只需提出详细的论文写作要求和相关资料。
　　论文投稿客服QQ: 2863358778、 2316118108
　　论文投稿电话:15380085870
　　论文投稿邮箱:lunwenbuluo@126.com

分享到：新浪微博 QQ空间腾讯微博人人网点点网复制网址打印