时间:2016-06-24 09:53 文章来源:http://www.lunwenbuluo.com 作者:曹萍 点击次数:
利用MapReduce并行计算模型实现CF算法的并行化,从原始的用户-评分矩阵计算出推荐结果,需要多个MapReduce过程,本章节具体分析。
2.1用户相似度的计算
根据公式⑴,分析得用户相似度计算的MapReduce过程如图1,共包含三个MapReduce过程,每个过程都可并行运行。
输入:评分矩阵,当前用户id。
输出:当前用户与其他用户的相似度值。
最后,当目标用户需要推荐时,根据预测分值排序,返回TOP-N推荐集。至此,推荐完成。
在所有阶段的MapReduce过程设计没有改变算法的数学计算关系,所以对算法的计算结果没有影响,在Hadoop平台上运行与非并行模式下运行的推荐结果是一样的,但是,并行模式Hadoop下的算法,有高效的大数据集计算能力,可扩展性较高。
3PCF算法的实现及实验分析
3.1实验设计
实验的Hadoop平台使用6台PC机,搭建完全分布式环境。其中1台部署namenode和jobtracker,另5台部署datanode和tasktracker。集群配置如表4所示。
3.2实验结果与分析
根据实验结果,绘制加速比曲线图,如图3所示。
随着节点数量的增加,加速比呈总体增长趋势,体现了良好的可扩展性。但当节点数增加到一定数量时,加速比趋于稳定。
4结束语
本文介绍了CF算法,Hadoop云平台概况,为了实现高效的推荐算法,以user-basedCF为例,分析了其在MapReduce并行编程上的过程设计,即PCF算法,并在开源云计算平台Hadoop上实现。通过变化集群节点数目和数据集规模大小,对加速比进行评估,实现较高计算效率的推荐。然而,一方面由于实验条件的限制,搭建的集群规模有限;另一方面,是对Hadoop平台的直接应用。下一步可以结合Hadoop中任务调度等方面的性能优化,进一步提高计算能力,以适应不断壮大的大数据。
参考文献(References):
[1]李树青.个性化信息检索技术综述[J].情报理论与实践,2009.32(5):107-113
[2]LiuZB,QuWY,LiHT,etal.AHybridCollaborativeFilteringRecommendationMechanismforP2PNetworks[J].FutureGenera-tionComputerSystems,2010,26(8):1409-1417
[3]Nature.BigData[EB/OL].[2012-10-02].http://www.nature.com/news/specials/bigdata/index.html
[4]BryantRE,KatzRH,LazowskaED.Big-Datacomputing:Creatingrevolutionarybreakthroughsincommerce,science,andsociety[R].[2012-10-02].http://www.cra.org/ccc/docs/init/Big_Data.pdf
[5]Science.Specialonlinecollection:Dealingwithdata[EB/
OL].[2012-10-02].http://www.Sciencemag.org/sites/special/data/,2011.
[6]ManyikaJ,ChuiM,BrownB,etal.Bigdata:Thenextfrontierforinnovation,competition,andproductivity[R/OL].[2012-10-22].http://www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_
The_next_frontier_for_innovation
[7]BigDataAcrosstheFederalGovernment[EB/OL].[2012-102].http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf.
[8]肖强,朱庆华,郑华,吴克文.Hadoop环境下的分布式协同过滤算法设计与实现[J].现代图书情报技术,2013.1:83-89
[9]程苗,陈华平.基于Hadoop的Web日志挖掘[J]计算机工程,2011.37(11):37-39
[10]张明辉.基于Hadoop的数据挖掘算法的分析与研究[D].昆明理工大学,2012.
[11]李改,潘嵘,李章凤,李磊.基于大数据集的协同过滤算法的并行化研究[J].计算机工程与设计,2012.33(6):2437-2441
[12]周源.基于云计算的推荐算法研究[D].电子科技大学,2012.
[13]金龑.协同过滤算法及其并行化研究[D].南京大学,2012.
[14]叶锡君,曹萍.ASUCF:基于平均相似度的协同过滤推荐算法[J].计算机工程与设计,2014.35(12):4217-4222
[15]黄正.面向数据稀疏的协同过滤推荐算法研究与优化[D].华南理工大学,2012:25-29
[16]陆嘉恒.Hadoop实战[M].机械工业出版社,2011.
[17]陈全,邓倩妮.云计算及其关键技术[J].计算机应用,2009.29(9):2562-2567
[18]Tom.White著.周敏奇,王晓玲,金澈清,钱卫宁译.Hadoop:权威指南[M].清华大学出版社,2011.
联系方式
随机阅读
热门排行