期刊鉴别 论文检测 免费论文 特惠期刊 学术答疑 发表流程

基于Hadoop的协同过滤推荐并行化研究(2)

时间:2016-06-24 09:53 文章来源:http://www.lunwenbuluo.com 作者:曹萍 点击次数:

  利用MapReduce并行计算模型实现CF算法的并行化,从原始的用户-评分矩阵计算出推荐结果,需要多个MapReduce过程,本章节具体分析。

  2.1用户相似度的计算

  根据公式⑴,分析得用户相似度计算的MapReduce过程如图1,共包含三个MapReduce过程,每个过程都可并行运行。

  输入:评分矩阵,当前用户id。

  输出:当前用户与其他用户的相似度值。

  最后,当目标用户需要推荐时,根据预测分值排序,返回TOP-N推荐集。至此,推荐完成。

  在所有阶段的MapReduce过程设计没有改变算法的数学计算关系,所以对算法的计算结果没有影响,在Hadoop平台上运行与非并行模式下运行的推荐结果是一样的,但是,并行模式Hadoop下的算法,有高效的大数据集计算能力,可扩展性较高。

  3PCF算法的实现及实验分析

  3.1实验设计

  实验的Hadoop平台使用6台PC机,搭建完全分布式环境。其中1台部署namenode和jobtracker,另5台部署datanode和tasktracker。集群配置如表4所示。

  3.2实验结果与分析

  根据实验结果,绘制加速比曲线图,如图3所示。

  随着节点数量的增加,加速比呈总体增长趋势,体现了良好的可扩展性。但当节点数增加到一定数量时,加速比趋于稳定。

  4结束语

  本文介绍了CF算法,Hadoop云平台概况,为了实现高效的推荐算法,以user-basedCF为例,分析了其在MapReduce并行编程上的过程设计,即PCF算法,并在开源云计算平台Hadoop上实现。通过变化集群节点数目和数据集规模大小,对加速比进行评估,实现较高计算效率的推荐。然而,一方面由于实验条件的限制,搭建的集群规模有限;另一方面,是对Hadoop平台的直接应用。下一步可以结合Hadoop中任务调度等方面的性能优化,进一步提高计算能力,以适应不断壮大的大数据。

  参考文献(References):

  [1]李树青.个性化信息检索技术综述[J].情报理论与实践,2009.32(5):107-113

  [2]LiuZB,QuWY,LiHT,etal.AHybridCollaborativeFilteringRecommendationMechanismforP2PNetworks[J].FutureGenera-tionComputerSystems,2010,26(8):1409-1417

  [3]Nature.BigData[EB/OL].[2012-10-02].http://www.nature.com/news/specials/bigdata/index.html

  [4]BryantRE,KatzRH,LazowskaED.Big-Datacomputing:Creatingrevolutionarybreakthroughsincommerce,science,andsociety[R].[2012-10-02].http://www.cra.org/ccc/docs/init/Big_Data.pdf

  [5]Science.Specialonlinecollection:Dealingwithdata[EB/

  OL].[2012-10-02].http://www.Sciencemag.org/sites/special/data/,2011.

  [6]ManyikaJ,ChuiM,BrownB,etal.Bigdata:Thenextfrontierforinnovation,competition,andproductivity[R/OL].[2012-10-22].http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_

  The_next_frontier_for_innovation

  [7]BigDataAcrosstheFederalGovernment[EB/OL].[2012-102].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf.

  [8]肖强,朱庆华,郑华,吴克文.Hadoop环境下的分布式协同过滤算法设计与实现[J].现代图书情报技术,2013.1:83-89

  [9]程苗,陈华平.基于Hadoop的Web日志挖掘[J]计算机工程,2011.37(11):37-39

  [10]张明辉.基于Hadoop的数据挖掘算法的分析与研究[D].昆明理工大学,2012.

  [11]李改,潘嵘,李章凤,李磊.基于大数据集的协同过滤算法的并行化研究[J].计算机工程与设计,2012.33(6):2437-2441

  [12]周源.基于云计算的推荐算法研究[D].电子科技大学,2012.

  [13]金龑.协同过滤算法及其并行化研究[D].南京大学,2012.

  [14]叶锡君,曹萍.ASUCF:基于平均相似度的协同过滤推荐算法[J].计算机工程与设计,2014.35(12):4217-4222

  [15]黄正.面向数据稀疏的协同过滤推荐算法研究与优化[D].华南理工大学,2012:25-29

  [16]陆嘉恒.Hadoop实战[M].机械工业出版社,2011.

  [17]陈全,邓倩妮.云计算及其关键技术[J].计算机应用,2009.29(9):2562-2567

  [18]Tom.White著.周敏奇,王晓玲,金澈清,钱卫宁译.Hadoop:权威指南[M].清华大学出版社,2011.


  •   论文部落提供核心期刊、国家级期刊、省级期刊、SCI期刊和EI期刊等咨询服务。
  •   论文部落拥有一支经验丰富、高端专业的编辑团队,可帮助您指导各领域学术文章,您只需提出详细的论文写作要求和相关资料。
  •  
  •   论文投稿客服QQ: 论文投稿2863358778 论文投稿2316118108
  •  
  •   论文投稿电话:15380085870
  •  
  •   论文投稿邮箱:lunwenbuluo@126.com

联系方式

  • 论文投稿客服QQ: 论文投稿2863358778
  • 论文投稿客服QQ: 论文投稿2316118108
  • 论文投稿电话:15380085870
  • 论文投稿邮箱:lunwenbuluo@126.com

热门排行

 
QQ在线咨询
咨询热线:
15380085870
微信号咨询:
lunwenbuluoli