论文投稿_医学论文投稿_核心期刊,职称论文投稿发表_论文部落

菁华学术联盟唯一授权论文服务平台
论文服务十佳互联网站点


期刊鉴别	论文检测	免费论文	特惠期刊	学术答疑	发表流程

热门期刊:

《金融教育研究》双月刊统计源核心《中国医药导刊》月刊国家级《机械传动》月刊国家级优秀科技刊

当前位置：论文部落专业发表论文网 > 论文范文 > 电子信息 > 计算机网络 >

基于Hadoop的协同过滤推荐并行化研究(2)

时间：2016-06-24 09:53 文章来源：http://www.lunwenbuluo.com 作者：曹萍点击次数：

　　利用MapReduce并行计算模型实现CF算法的并行化，从原始的用户-评分矩阵计算出推荐结果，需要多个MapReduce过程，本章节具体分析。

　　2.1用户相似度的计算

　　根据公式⑴，分析得用户相似度计算的MapReduce过程如图1，共包含三个MapReduce过程，每个过程都可并行运行。

　　输入：评分矩阵，当前用户id。

　　输出：当前用户与其他用户的相似度值。

　　最后，当目标用户需要推荐时，根据预测分值排序，返回TOP-N推荐集。至此，推荐完成。

　　在所有阶段的MapReduce过程设计没有改变算法的数学计算关系，所以对算法的计算结果没有影响，在Hadoop平台上运行与非并行模式下运行的推荐结果是一样的，但是，并行模式Hadoop下的算法，有高效的大数据集计算能力，可扩展性较高。

　　3PCF算法的实现及实验分析

　　3.1实验设计

　　实验的Hadoop平台使用6台PC机，搭建完全分布式环境。其中1台部署namenode和jobtracker，另5台部署datanode和tasktracker。集群配置如表4所示。

　　3.2实验结果与分析

　　根据实验结果，绘制加速比曲线图，如图3所示。

　　随着节点数量的增加，加速比呈总体增长趋势，体现了良好的可扩展性。但当节点数增加到一定数量时，加速比趋于稳定。

　　4结束语

　　本文介绍了CF算法，Hadoop云平台概况，为了实现高效的推荐算法，以user-basedCF为例，分析了其在MapReduce并行编程上的过程设计，即PCF算法，并在开源云计算平台Hadoop上实现。通过变化集群节点数目和数据集规模大小，对加速比进行评估，实现较高计算效率的推荐。然而，一方面由于实验条件的限制，搭建的集群规模有限；另一方面，是对Hadoop平台的直接应用。下一步可以结合Hadoop中任务调度等方面的性能优化，进一步提高计算能力，以适应不断壮大的大数据。

　　参考文献（References）：

　　[1]李树青.个性化信息检索技术综述[J].情报理论与实践，2009.32（5）：107-113

　　[2]LiuZB，QuWY，LiHT，etal.AHybridCollaborativeFilteringRecommendationMechanismforP2PNetworks[J].FutureGenera-tionComputerSystems，2010，26（8）：1409-1417

　　[3]Nature.BigData[EB/OL].[2012-10-02].http：//www.nature.com/news/specials/bigdata/index.html

　　[4]BryantRE，KatzRH，LazowskaED.Big-Datacomputing：Creatingrevolutionarybreakthroughsincommerce，science，andsociety[R].[2012-10-02].http：//www.cra.org/ccc/docs/init/Big_Data.pdf

　　[5]Science.Specialonlinecollection：Dealingwithdata[EB/

　　OL].[2012-10-02].http：//www.Sciencemag.org/sites/special/data/，2011.

　　[6]ManyikaJ，ChuiM，BrownB，etal.Bigdata：Thenextfrontierforinnovation，competition，andproductivity[R/OL].[2012-10-22].http：//www.mckinsey.com/Insights/MGI/Research/Technology_and_Innovation/Big_data_

　　The_next_frontier_for_innovation

　　[7]BigDataAcrosstheFederalGovernment[EB/OL].[2012-102].http：//www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf.

　　[8]肖强，朱庆华，郑华，吴克文.Hadoop环境下的分布式协同过滤算法设计与实现[J].现代图书情报技术，2013.1：83-89

　　[9]程苗，陈华平.基于Hadoop的Web日志挖掘[J]计算机工程，2011.37（11）：37-39

　　[10]张明辉.基于Hadoop的数据挖掘算法的分析与研究[D].昆明理工大学，2012.

　　[11]李改，潘嵘，李章凤，李磊.基于大数据集的协同过滤算法的并行化研究[J].计算机工程与设计，2012.33（6）：2437-2441

　　[12]周源.基于云计算的推荐算法研究[D].电子科技大学，2012.

　　[13]金龑.协同过滤算法及其并行化研究[D].南京大学，2012.

　　[14]叶锡君，曹萍.ASUCF：基于平均相似度的协同过滤推荐算法[J].计算机工程与设计，2014.35（12）：4217-4222

　　[15]黄正.面向数据稀疏的协同过滤推荐算法研究与优化[D].华南理工大学，2012：25-29

　　[16]陆嘉恒.Hadoop实战[M].机械工业出版社，2011.

　　[17]陈全，邓倩妮.云计算及其关键技术[J].计算机应用，2009.29（9）：2562-2567

　　[18]Tom.White著.周敏奇，王晓玲，金澈清，钱卫宁译.Hadoop：权威指南[M].清华大学出版社，2011.

　　论文部落提供核心期刊、国家级期刊、省级期刊、SCI期刊和EI期刊等咨询服务。
　　论文部落拥有一支经验丰富、高端专业的编辑团队，可帮助您指导各领域学术文章，您只需提出详细的论文写作要求和相关资料。
　　论文投稿客服QQ: 2863358778、 2316118108
　　论文投稿电话:15380085870
　　论文投稿邮箱:lunwenbuluo@126.com

分享到：新浪微博 QQ空间腾讯微博人人网点点网复制网址打印