期刊鉴别 论文检测 免费论文 特惠期刊 学术答疑 发表流程

高性能计算机的可靠性技术现状与趋势   (2)

时间:2016-03-10 11:19 文章来源:http://www.lunwenbuluo.com 作者:黄永勤 金利峰 刘耀 点击次数:


  2.HPC的可靠性技术现状
  在高性能计算机中,通常采用避错和容错技术来提高系统的可靠性.避错就是通过改进硬件的制造工艺和设计,防止错误的产生.容错就是如何保证计算机系统在出现错误的情况下仍然能够正常工作.容错技术包括静态冗余和动态冗余两种方式,高性能计算机在早期设计中主要采用静态冗余的方法来提高可靠性,近年来动态冗余技术也已得到广泛应用.此外,冗余技术结合在线替换技术,可使系统的故障部位恢复原有的冗余能九大大提高系统的RAS(reliability,availability,serviceability)特性。
  IBM,HP和CRAY等高性能计算机厂家都高度重视系统的可靠性,在设计中综合采取了避错、静态冗余、动态冗余和在线替换等可靠性技术。
  2.1避错技术
  避错技术是指采用正确的设计和质量控制方法尽量避免把故障引进系统以及尽量减少器件的失效率.依照美国军用标准MIL-MDBK-217F中电子器件的应力分析模型,器件的工作失效率与质量等级、使用环境、工作结温、电路规模和封装复杂度等因素有关.因此,避错技术通常包括元器件控制、热设计、降额设计和耐环境设计等可靠性设计技术。
  在高性能计算机的可靠性设计中,应尽量选用高可靠的器件,尽量选用高集成度的器件,减少器件的数目.例如IBMp系列服务器中,其CEC(centralelectroniccomplex)单兀中的组件,包括处理器、存储器和核心的I/O芯片,采用的是IBM等级1的组件,是按照更高标准进行设计和筛选测试的,其可靠性是等级3的同类工业标准产品的10倍以上。
  随着高性能计算机规模的扩大,功耗也越来越大,T级和P级计算机的功耗已达到MW级的水平,系统的热设计越来越受到重视.器件的结温对可靠性的影响较大,随着器件结温的增加,其失效率也呈指数增加.为了降低器件的结温,提高器件的可靠性,可采取的措施有:尽量选用低热阻的封装、低功耗的设计和高效的冷却方式.依照集成电路应力分析模型可以计算得到某种DRAM失效率随结温的变化关系,在我们设计的一种单元板中通过采取液冷,相对于风冷,使板上的存储器结温从51°C降低到34°C,存储器的失效率可从0.026X10一6/k降低到0.01X10—6h可靠性提高1.6倍。
  2.2静态冗余
  静态冗余技术也称故障屏蔽技术,是指在承认系统会有故障的前提下,通过硬件冗余或信息冗余的措施,使得在故障效应到达模块输出以前,通过隔离或校正来消除它们的影响.在高性能计算机的可靠性设计中,广泛地采用了故障屏蔽的设计技术。
  1.部件的冗余
  在关键部件及单点故障部位,如电源、风扇、时钟源、监控处理器等都采取了冗余.冗余可以是1+1,N+1或是N+M的冗余,其中N+1冗余的代价小且效率高。
  在高性能计算机中,电源故障在整个系统故障中占的比例较高,需要各层次全方位的电源冗余设计.例如:CRAYXT4的所有部件都配有冗余电源,包括所有系统刀片上都配有冗余的电压调节器模块。HP的Integrity动能服务器中的电源冗余设计措施有:AC电源采取1+1的冗余备份,可从两个不同的AC电源接收电源输入;AC-DC转换器采取N+1热备份冗余,在正常运行状态下所有电源转换器都运行,负载均衡且减轻了单个电源模块的负载,冗余的同时又达到降额设计效果;DC-DC调节器采取N+1冗余,在每个单元板、Crossbar背板以及I/O子系统上均集成了冗余的DC-DC调节器。
  在冗余的时钟源方面,IBMZ9服务器中CEC的中心板上插有两个冗余的振荡器卡。—个工作,另一个作为备份.两块卡上的震荡器动态切换,模块互相通信,当主卡发生故障时,时钟源可动态切换到从卡上的时钟发生器。
  2.数据通路的冗余
  数据通路的冗余也可理解为是一种部件的冗余,在许多高性能计算机中都采取了数据通路的冗余措施.例如,CRAYXT4系统对所有系统磁盘阵列RAID的访问都提供了备用路径;IBMZ9服务器则提供了到I/O机仓的冗余路径。
  3.信息冗余
  纠错码(errorcorrectcoding)是一种信息冗余技术,它通过在数据中附加冗余的信息以达到故障接口、Cache、片内RAM、存储器接口和数据总线等通常采用纠错码进行防护.例如,在HP采用双核安腾2处理器的rx3600和rx6600动能服务器中,在处理器内部的L1和L2Cache、处理器的数据总线、存储器接口、PCI-X总线等处都采取了ECC防护.对于DRAM来说,采用SEC-DED(ingleerrorcorrect,doubleerrordetect)纠错码防护与不米用纠错码防护相比,DRAM发生不可纠故障的次数降低20倍左右;而对于片内SRAM来说,主要错误类型为软单错,采用SEC-DED纠错可降低软错100~1000倍。
  2.3动态冗余
  动态冗余是指采用标准模块配置工作,一旦检测与诊断出故障发生的位置,系统能进行重组或恢复,继续正常运行.动态冗余包括故障检测与诊断、重组和恢复等环节。
   1.故障检测与诊断
  故障检测的作用是确定故障是否存在,故障诊断的作用是确定故障的位置.检测和诊断可以联机运行,也可以脱机运行,其中联机检测和诊断是提高系统可靠度的重要手段.通过故障检测与诊断来激活动态冗余.故障检测与诊断技术包括检错码与监视定时器等技术。

  •   论文部落提供核心期刊、国家级期刊、省级期刊、SCI期刊和EI期刊等咨询服务。
  •   论文部落拥有一支经验丰富、高端专业的编辑团队,可帮助您指导各领域学术文章,您只需提出详细的论文写作要求和相关资料。
  •  
  •   论文投稿客服QQ: 论文投稿2863358778 论文投稿2316118108
  •  
  •   论文投稿电话:15380085870
  •  
  •   论文投稿邮箱:lunwenbuluo@126.com

联系方式

  • 论文投稿客服QQ: 论文投稿2863358778
  • 论文投稿客服QQ: 论文投稿2316118108
  • 论文投稿电话:15380085870
  • 论文投稿邮箱:lunwenbuluo@126.com

热门排行

 
QQ在线咨询
咨询热线:
15380085870
微信号咨询:
lunwenbuluoli