高性能计算机的可靠性技术现状与趋势 (3)
时间:2016-03-10 11:19 文章来源:http://www.lunwenbuluo.com 作者:黄永勤 金利峰 刘耀 点击次数:
检错码包括奇偶校验码和循环冗余校验码(CRC)等编码技术.检错码可以自动地发现错误,但与故障屏蔽中用的纠错码所不同的是,检错码不具备自动纠正错误的能力.监视定时器常用于总线超时和网络连接的检测.在总线设计中,一个总线设备与总线控制器进行交互时,若没有在规定时间内收到回答信号,则认为某个环节发生了故障。
在故障的检测与诊断方面,IBMp系列服务器110米取FFDC(firstfailuredatacapture)方法,通过内置硬件错误检查器和故障隔离寄存器,能够精确地实时识别各种系统故障,定位哪个部件导致了故障的第1次发生.通过FFDC功能,在导致不可纠的错误及灾难性故障发生前,采取主动的措施避免。
2.重组技术
重组是动态冗余技术的重要实现步骤,主要功能是防止失效的产生影响到系统的操作.当检测出一个不可恢复故障(或可恢复故障的故障次数达到门槛值)后,系统用备用的部件替代有故障的部件,称为后援备份;如果没有备用的部件,可以隔离掉故障部件,从而实现系统降级使用,称为缓慢降级。
例如:IBM的p570服务器中,对不可恢复的故障部件可米取持久解除分配(persistentdeallocationofcomponents)措施,这属于缓慢降级;对故障处理器可动态地解除分配(dynamicprocessordeallo
cation),并用备用的处理器替代(dynamicprocessorsparing)。这属于后援备份。
2.恢复技术
重组是处理不可恢复故障的重要环节,而对于瞬态故障,可通过恢复的方法解决.恢复是检测到瞬态的可恢复故障,采取措施消除故障的影响,并使系统重新运行的重要环节。
重试(retry)是恢复技术中的一种重要方法.例如:对于失败的处理器操作,IBMp570服务器系统中有处理器指令重试(processorinstructionretry)功能。对于破坏的L1或L2Cache数据,IBMp570服务器采取重载的方法进行恢复,用存储层次中其他层次的副本进行重载。对于失败的总线数据传输,CrayXT4机器中SeaStar2芯片的每条链路运行一个支持硬件CRC和自动重发的可靠性协议。
2.4在线替换
通过在线替换故障部件,可使系统恢复到原有的配置规模,或恢复原有的冗余能力.部件的冗余技术配合在线替换特性,可大大提高系统的可靠性.例如:对于4+1冗余的电源模块系统来说,单个电源模块的MTBF为10000h,若电源模块是不可在线替换的,则电源系统的MTBF为4500h;若是可在线替换的,每次电源模块故障后完全替换,维修替换时间为2h,则电源系统的MTBF高达2504500h。
在高性能计算机中,可支持在线替换的部件有运算单元板、磁盘、风扇、电源、I/O卡等.例如,HPIntegrity动能服务器支持单元板的在线更换,允许在其他单元板继续运行的情况下,在线替换故障的单元板;HPIntegrity动能服务器也支持I/O适配器卡的在线替换151.CrayXT4系统中的SeaStar2芯片、RAS处理器模块、内存条、电压调节器模块以及AMDOpteron处理器都是可在线替换或升级的。
3趋势分析
近年来,高性能计算机在向P级计算机发展的过程中,多核处理器的应用、存储容量的增大、刀片式架构的繁荣等,都对可靠性提出了新的要求,需要针对性地研究新的可靠性设计技术。
3.1多核处理器的可靠性设计
随着处理器集成度的越来越高、半导体桂尺寸的缩小及频率越来越高,处理器中的故障越来越多.其中由于硅片和金属化的缺陷导致的故障称为硬错,而由于电噪声和外部粒子辐射引起的瞬态故障称为软错.目前,高性能计算机中的处理器普遍采用多核处理器.而多核处理器由于多核间的共享部件(如共享的多级Cache、共享的集成存储器控制器、共享的I/O接口),一个核的软错误可传播到另一个核中,因此多核处理器的软错问题更为严重。
针对多核处理器瞬态故障,可采取的措施包括冗余执行、微回卷、双核锁步执行和芯片级冗余多线程技术等可靠性设计方法.例如Intel的双核安腾2处理器Montvale支持双核锁步执行,一个内核可以映像执行另一个核的操作.多核处理器除了要加强存储部件(寄存器文件、Cache和内存)的防护外,还需要加强Cache控制器、存储器控制器、互连等部分的防护,需要加强各个核间的故障隔离。
高性能计算机中多核处理器的应用,在可靠性设计方面的挑战和机遇是并存的,多核处理器的设计需要加强硬件容错技术,同时高性能计算机的容错也可利用多核处理器的架构并从中受益。
3.2增强的全方位内存防护技术
由于内存故障在整个高性能计算机的故障中占的比例较高,因此对内存部分应采取全方位的高效的故障防护技术.针对内存的硬错和软错,在高性能计算机设计中,可以综合采取各种存储器避错和容错技术来提高内存的可靠性。
在避错措施上,有的高性能计算机中通过加固存储器的连接,来提高电气和机械连接的可靠性.例如HPIntegrity动能服务器中,针对内存条和插座间的机械连接可能会受到腐蚀或变形问题,采取了独特的内存模块封装:采用更大的接触焊盘,以及多个冗余插头,以确保关键信号具备稳定的电路连接,而在IBMBlueGene/L和Blue
Gene/P机器中,为了提高连接的可靠性,存储器是直接焊接在电路板上,而不是插内存条。
- 论文部落提供核心期刊、国家级期刊、省级期刊、SCI期刊和EI期刊等咨询服务。
- 论文部落拥有一支经验丰富、高端专业的编辑团队,可帮助您指导各领域学术文章,您只需提出详细的论文写作要求和相关资料。
-
- 论文投稿客服QQ:
2863358778、
2316118108
-
- 论文投稿电话:15380085870
-
- 论文投稿邮箱:lunwenbuluo@126.com