期刊鉴别 论文检测 免费论文 特惠期刊 学术答疑 发表流程

多核处理器中改进的动态缓存优化技术(2)

时间:2015-10-21 10:13 文章来源:http://www.lunwenbuluo.com 作者:田进华,魏长宝 点击次数:


  3.1栈内作业分配
  栈内作业分配在考虑能效和热力学因素的条件下将作业分配给三维系统。基于有4个缓存区时的作业IPC(InstructionPerClock)相对只有1个缓存区时的提升估计值(^)进行分配。利用将在线性能计数数据作为模型输入的离线线性回归模型来估计值。首先将个作业随机分配给三维系统内的个内核,然后开始使用默认的预留缓存区使作业运行_段时间(每个内核有_个无法共享的256KB预留L2缓存区)。估计时使用的性能计数器包括L2缓存替代物、L2缓存写访问、L2缓存读取丢失、L2缓存指令丢失和周期数量。利用线性和交叉条目来构建线性回归模型,使用本文仿真中15个基准性能统计数据来训练回归模型,采用其余5个基准来证明模型的合理性。在仿真实验中发现系统实际性能的提升与预测误差不超过5%。
  根据作业的预测性能提升情况对所有作业进行排序,通过选择剩余排序列表中的最高值和最小值对这些作业两两分组。
  例如在图4中,4个作业按照排序为:义為厶為J3為/4。将这些作业两两分组A与J4,2与J3。通过使IPC较高的作业对更接近于散热片,可以将本文分配策略与热力学感知试探法H相集成。此时,将平均IPC较高的作业对分配给距离散热片最近的可用内核,如图4所示。做出该决策是因为相比距离散热器更远的内核,距离散热器较近的层上的内3.2缓存资源共享
  缓存资源共享为每个作业对内的缓存资源进行管理。为确定一个作业是否需要更多的缓存区,首先引入一种性能提升阈值(t)。该阈值表示作业使用额外缓存区时可以降低能量延迟乘积(Energy-delayProduct,EDP)的最小性能提升幅度。获得t的关键是基于如下假设:当作业可用的缓存区数量上升时,缓存渴求型工作负载的EDP将会下降,因此需要满足如下不等式:
  PowerPower+APower
  IPC2>(IPC+AIPC)2
  其中,/PC和Power表示增加缓存区数量时的性能和功率值;AIPC和APower表示作业使用额外缓存区时IPC和功率的变化量。利用该不等式可知:
  AIPCPower
  !Pc>t=槡+APower-1⑵
  当性能提升量大于t时,增加缓存区数量可以降低作业的EDP。根据实验中的20个SPEC基准,可将t平均确定为3%。
  利用阈值凡和来计算为每个作业分配的缓存区数量。如果作业的^大于9%时,则为其分配4个缓存区。否则,为每个作业保留1个分区。9%是根据缓存区从1个增加到4个时的阈值确定得到的。然后,如果满足如下3个条件,则不断增加缓存区数量:(1)凡>t;(2)作业还没有达到最大缓存区数量;(3)凡>p。分配4个缓存区的作业最大缓存区数量为7,而分配1个缓存区的作业最大缓存区数量为4。如果^<t,则将作业恢复到先前缓存区状态。如果到达最大缓存区数量,则保留获得当前缓存的作业。只有作业o/,和为同一缓存展开竞争时才检查最后_个条件。
  图5给出了一个缓存分配示例,其中_个作业对中的-个作业被分配了1个缓存区,而另-个作业被分配了4个缓存区,#PA及表示缓存区数量。在步骤(1)中,2个作业的性能提升大于阈值,同时为Coret和Core:增加1个缓存区,如步骤(2)所示。由于用完最后的可用缓存区,将缓存区分配给性能提升幅度较大的作业(Core」。可见,应用本文提出的缓存共享策略能够提高三维多核系统的能效,根据应用的缓存需求度分配缓存资源,实现缓存资源利用率的最大化。利用Gem5模拟器M构建本文目标系统的性能模拟基础设施,同时使用Gem5中的系统调用仿真模式和X86指令集结构。在多种L2缓存尺寸条件下进行Gem5单核仿真。通过将单核情景下的内存总线宽度设置为四核系统总线宽度的1/4,估计支持缓存资源共享的四核三维系统的性能结果。将单核仿真结果估计与Gem5模拟器上的四核仿真结果进行比较,发现IPC平均误差不高于1.7%。对每个基准利用2X107条指令进行快进式热身,对具体的无序CPU运行1x107条指令。使用文献[14]中的45nm线程McPAT0.7建模框架获得内核的动态功率。使用文献15]中的CACTI5.3计算L2缓存功率,应用L2缓存访问速率来调整动态功率。利用公开的IntelSCC和AMD功率数值来校准McPAT动态内核功率。采用文献16]中的指数公式模拟温度对泄漏功率的影响。通过把缓存渴求型应用与表2中列出的非缓存渴求型应用相结合,进_步获得具有4个线程的10组多程序负载集合。
  表2工作负载构成
  工作负载基准
  无缓存渴求型1bwavesgamesslibquantumzeusmp
  无缓存渴求型2calculixmilenamdleslie3d
  低度缓存渴求型1leslie3dlibquantumgamessomnetpp
  低度缓存渴求型2zeusmphmmernamdbzip2
  中等缓存渴求型1astarh264refsoplexmcf
  中等缓存渴求型2bzip2cactusADMhmmeromnetpp
  高等缓存渴求型1gromacsbzip2omnetppsoplex
  高等缓存渴求型2h264refbzip2omnetppsoplex
  完全缓存渴求型1soplexsoplexomnetppbzip2
  完全缓存渴求型2soplexbzip2soplexbzip2
  在本文缓存资源共享三维多核结构(3D~CRP)中,每个内核有一个1MB私有L2缓存。使用带有同质层的2个三维系统作为基准系统,在这2个基准系统上的每个内核分别有1MB和2MB静态私有L2缓存。
  图6(a)给出了低功耗系统的3D~CRP能效提升情况。可以发现,对所有工作负载,3D~CRP的EDP
  4更大规模的三维多核系统作业分配
  当三维多核系统一层内有多个内核时,将三维结构内垂直堆栈的所有内核称为_列。此时,在作业排序后增加_个步骤,通过负载均衡策略实现各列间的缓存渴求度的均衡。例如,在4层16核三维系统中有4个列,称为C1,C2,C3,C4。列C1和C4分别有4个和3个缓存渴求型作业,而列C2和C3只有1个缓存渴求型作业。在作业列间重新分配之后,C1中的2个作业与C2和C3间的2个作业交换,进而实现缓存渴求度的均衡。通过上述列间的作业分配,实现缓存需求均衡,提高了缓存资源的使用效率。
  为在工作负载发生变化时提升三维系统能效,每隔100ms重复运行一次本文策略。为应用对重新分配缓存区,每当重新分配时清洗缓存区。在最坏情况下,将一个作业的缓存区数量从4个降低到1个,于是缓存区需要被清洗3次。性能开销来自于作业分配阶段的作业迁移以及缓存资源共享阶段的缓存区,而且主要由缓存的冷启动效应决定。按照先前研究的估计,类似一个SPEC基准组的冷启动效应不大于1ms。因此,基于本文策略的额外性能开销可以忽略不计。
  5仿真实验与结果分析
  利用具有4个~16个内核的高性能、低功耗三维多核系统评估本文方法。低功耗系统的内核结构以文献12]中的IntelSCC内核为基础。对于高性能系统,根据AMDMagny-Cours处理器使用的AMD系列10h微体系结构来模拟内核结构。表1给出了内核结构参数。
  要低于1MB基准。对完全缓存渴求型工作负载,1MB基准的缓存尺寸较大,所以EDP最优。本文结果表明,与1MB基准相比,3D~CRP的EDP下降36.9%。因为模具成本与面积的4次方成正比,所以面积是评估三维系统性能的重要指标。使用能量延迟面积乘积(EnergyDelayAreaProduct,EDAP)作为评估能量面积效率的指标。如图6(b)所示,3D~CRP在所有工作负载集合中的性能均优于1MB基准系统,EDAP比1MB基准低57.2%。
  无低皮中度W度完全J:作负找求度(a>iE规化后的EDP
  无低皮中度卨度完全工作负栽级ft渴求度<bliE规化后的EDAP
  图6低功耗三维多核系统与1MB基准系统对比

  •   论文部落提供核心期刊、国家级期刊、省级期刊、SCI期刊和EI期刊等咨询服务。
  •   论文部落拥有一支经验丰富、高端专业的编辑团队,可帮助您指导各领域学术文章,您只需提出详细的论文写作要求和相关资料。
  •  
  •   论文投稿客服QQ: 论文投稿2863358778 论文投稿2316118108
  •  
  •   论文投稿电话:15380085870
  •  
  •   论文投稿邮箱:lunwenbuluo@126.com

联系方式

  • 论文投稿客服QQ: 论文投稿2863358778
  • 论文投稿客服QQ: 论文投稿2316118108
  • 论文投稿电话:15380085870
  • 论文投稿邮箱:lunwenbuluo@126.com

热门排行

 
QQ在线咨询
咨询热线:
15380085870
微信号咨询:
lunwenbuluoli