IBMBlueGene/P相对于BlueGene/在可靠性设计上的一个重要改进是,加强了对主存硬错和软错的ECC防护|15|.BlueGene/P系统中可以纠正单片16b存储器芯片或两片连续8b存储器芯片的故障,实现了对存储器的芯片级容错,IBM称为Chipkill技术.而在BlueGene/L中只可以纠正连续4b错,没有纠正单片8b16b存储器故障的能力。
Intel的四核安腾处理器Tukwila,除了延用当前处理器的可靠性设计技术之外,将增添DDDC(doubledevicedatacorrection)的可靠性设计特性161.DDDC可修复一个或两个存储器芯片上的硬错误,是可容两片存储器故障的Chipkill技术.DDDC技术不仅显著延长系统正常运行时间,还降低了需要更换内存条的可能性,整体服务成本也大大降低。
此外,很多高可靠的高性能计算机设计中,还综合采用了内存清洗、内存备件、内存镜像和热拨插等存储器可靠性设计技术。
3.3刀片式架构的发展
刀片式服务器是指在标准高度的架式机箱内插装多个卡式的服务器单元板,用以实现高可靠和高密度的高性能服务器.近年来,在TOP500中频频出现刀片式架构的超级计算机,如在2007年11月的TOP500排名中,排名第3的为SGI公司AltixICE8200刀片式计算平台,排名第4和第5位的都是HP公司米用BL460C刀片式服务器构成的ClusterPlatform3000平台。
在刀片式架构中,普遍采用了模块化的冗余结构,实现了背板、互连、电源、网络、风扇等关键系统部件的冗余和热插拔.例如:IBMeServerBladeCenterJS20刀片服务器中的所有部件都可以冗余配置,包括风扇、电源、交换机模块和管理模块等,甚至刀片中心的背板都是冗余的,从而消除了单点故障.另外,风扇、电源、交换机模块和管理模块等部件都是可以热插拔的。
4结束语
本文主要从高性能计算机硬件设计的角度出发,研究了可靠性技术的需求、现状和趋势.值得指出的是,在当前T级和P级高性能计算机的研制中,如何综合地采取各种硬件可靠性设计方法,结合软件的容错技术,构建一个高可靠的超大规模系统,始终是高性能计算机研制中面临的一个重要课题。
参考文献
[1]IBMCorporation.IBMBlueGene/P?Anoverviewofapetaflopcapab
lesystem[EB/OL].
2007[2008-10-10].http://www.nsc.liu.se/lcsc2007/presentations/LCSC_2007-
[2]DavedKeyes.Petaflopsseriously[EB/OL].(2007-04-09)
[2008-10-10].http//^vww
.teratecfr/pages/actualites/colloque/Path_to_Petascale_in_LS.pdf
[3]CrayCorporation.CrayXT4datasheet[EB/OL].(2006-10-06)
[2008-10-10].http://w
ww.cray.com/downloads/Cray_XT4_Datasheet.pdf
[4]HarrerH,etal.High-speedinterconnectandpackagingdesignof
theIBMsystem
Z9processorcage[J].IBMJournalofResearchandDevelopment,200751(1ll):37-52
[5]HelmichL,etal.RedundantI/Ointerconnect[J].IBMJournalofR
esearchandDevelo
pment,2007,51(1l)173-184
[6]IBMCorporation.IBMPOWER5processoi-basedservers:Ahighly
availabledes
ignforbusiness-criticalapplications[EB/OL].(2006~08-16)[2008~10-10].
[7]YuanYouguang.TheTheoryofFauh-TolerantComputing[M].
Harbin:HarbinEngi
neeringLniversityPress2006(inChinese)
(袁由光.容错计算原理[M].哈尔滨:哈尔滨工程大学出版社,2006)
[8]NidhiAggarwaletal.Motivatingcommoditymulti-coreproc
essordesignforsystem
-levelerrorprotection[EB/Ol].(2007-01-02)[2008-10-10].http://pages.cs.wisc.edu/?a
ggarwal/selse_2007.pdf
[9]IntelCorporation.Dual-coreIntel()Itanium(r)processor
9100series[EB/OL].2007[
2008-10-10].ftp://download,intel.com/products/processorItanium/dc_prod_brief,pdf
[10]CoteusP,etal.Packagingthebluegene/supercomputer[J].
IBMJournalofRese
archandDevelopment,2005,49(2l):213-248
[11]IBMBlueGeneTeam.OverviewoftheIBMbluegene/project[J].
IBMJournalofResea
rchandDevelopment,2008,52(11)199-220
[12]IntelCorporation.Intel?Itanium?updatebriefingandd
sclosures[EB/OL].(2007-06
-14)[2008-10-10].http://www.intel.com/pressroom/kits/itanium2/pdfItaniumBriefing.