期刊鉴别 论文检测 免费论文 特惠期刊 学术答疑 发表流程

基于文档向量和回归模型的评分预测框架(2)

时间:2016-06-24 09:59 文章来源:http://www.lunwenbuluo.com 作者: 穆云磊 周春晖 俞东 点击次数:

  值得注意的是,每一个评论都有一个有用性评分,直观上,有用性越高的评论,对产品的描述更加准确。有用性评分的形式一般为“有用/无用”,前者表示“认同”当前评论的用户数量,后者表示“不认同”当前评论的用户数量,为了将此形式的有用性评分转化到实数上来,定义:

  ⑵

  其中,puv和nuv分别为对评论duv的“认同”用户数和“不认同用”户数,a和b分别为控制转换的参数。因此,对于产品v的特征向量,可以使用有用性评分对产品的所有评论向量加权平均得到:

  ⑶

  ⑵用户和产品偏置

  除了使用评分向量构造的用户和产品特征之外,我们还使用用户和产品的偏置作为特征。

  直观上,不同的用户和不同的产品评分尺度都有所不同。例如,某用户是评分严格的用户,那么他的评分一般会低于全局平均分,而某个产品质量优于其他产品,那么它的评分则会高于平均评分。对于用户u,其偏置可以定义为其评分与全局平均差的均值:

  ⑷

  同理,对于产品v,其偏置可以定义为:

  ⑸

  最终,使用连接的方式构造特征实例,即对于用户-产品对(u,v),其特征实例为[xu,bu,xv,bv]。

  4回归模型

  回归模型是一类监督学习模型,每个输入实例通常由特征向量表示,记为x={x(1),x(2),…,x(i),…,x(n)},x(i)表示第i个特征。对于训练集的输入实例X和输出向量y,回归模型通过拟合它们得到一个拟合函数f使得f(X)=y,使用此函数可以预测未知的实例集合(测试集)的输出,即对于测试实例,求得。

  本文主要使用三个流行的回归模型进行评分预测,分别是k近邻回归模型、随机森林回归模型和梯度提升回归树模型。

  ⑴k近邻

  k近邻算法[6],简称k-NN,是一种非参数学习算法。在k近邻回归中,输入为包含特征空间中的k个最近训练实例,输出为对象的属性值,通过计算其k近邻值的均值求得。k-NN是一种基于实例的学习算法,也被称为惰性学习,其决策函数仅仅为局部近似,而且只有在需要回归时才进行计算。

  ⑵随机森林

  随机森林回归器[7]是集成学习中最重要的算法之一,它是一个包含多个树结构的回归器的集合,其中是相互独立分布的随机参数向量,回归的结果通过平均所有树的结果得到。

  在随机森林中,每一个子树都是一个分类与回归树(CART)[8]。CART是一种应用广泛的决策树学习方法,对于训练数据集X,Y,其通过递归将输入空间的每个区域划分为两个子区域并决定每个子区域上的输出值,构建二叉树。

  ⑶梯度提升回归树

  梯度提升回归树(GBRT)[9],又被称为多重累加回归树(MART)或树网(Tree-Net),是一种高效的提升(Boosting)学习方法。在一般的提升树模型中,损失函数通常采用平方误差损失,每一步只需拟合当前数据的残差,但对于一般的损失函数,如对数损失,其优化变得非常困难。GBRT通过计算损失函数的负梯度近似残差,以此拟合新的回归树。

  5评分预测框架构建

  我们在此探讨所提出的基于文档向量和回归模型的评分预测框的构建过程。首先介绍框架的冷启动评分预测器,然后介绍评分预测框架构建算法。

  5.1冷启动预测器

  当一个新用户或者新产品加入系统时,常用的方法是使用全局平均分来预测新用户或新产品的评分,我们在全局平均分的基础上,加上用户和产品的偏置来预测冷启动情况下的评分,具体预测方法为:

  ⑹

  其中,bu和bv为用户u和产品v的偏置,分别由式⑷和式⑸求得。

  5.2评分预测框架构建算法

  [算法1基于文档向量和回归模型的评分预测框架构建算法\&输入:评分和评论集合,

  输出:评分预测函数f(u,v)\&1.使用文档向量模型训练评论语料库,得到每个评论的向量表示。

  2.使用式⑴、⑶、⑷和⑸计算用户和产品的特征向量xu,xv和偏置bu,bv,对于输入的所有用户-产品对(u,v)∈Γ,连结得到训练实例集合。

  3.使用2中的训练实例集合分别训练多个回归模型:f1,…,fs。

  4.使用Stacking技术将3中多个模型的结果融合得到最终的评分预测模型:

  其中α1,…,αs为每个模型的权重,。\&]

  在该基于文档向量和回归模型的评分预测框架中,首先利用文档向量模型得到评论向量,并用评论向量构建训练特征实例,然后利用训练特征实例训练一个评分回归模型,最后使用融合方法得到最终的评分预测模型。

  算法1展示了该评分预测框架构建的详细步骤。第一步使用文档向量模型得到训练评论的向量表示。第二步将向量连结成特征实例。第三步训练多个回归模型。第四步使用Stacking技术将多个回归模型相融合。Stacking技术使用多个模型的输出作为输入,并使用交叉验证的方法获得最优的融合模型,其常用的融合方法是线性组合。

  6实验结果与分析

  本文使用的数据集是McAuley等[10]收集的著名电商网站Amazon的评分和评论数据集。数据集按照产品的类别被分为25个类别子数据集,数据集一共包含486万多用户,78万多产品,822万多条评分和评论。为了对比基于文档向量和回归模型的评分预测框架中单个回归模型,以及融合模型的评分预测的表现,本文将文档向量模型中的向量大小固定为100,并输出所有数据集的MSE值。

  所有子数据集上评分预测的MSE结果见表2。每个子数据集上最优的MSE结果已加粗显示,括号中为标准差。从MSE结果表中可以看出,在所有的25个子数据集上,基于文档向量和回归模型的评分预测框架的评分预测精度优于全局平均预测器和标准的潜在因子模型。

  相比于全局平均预测器(Offset)和标准潜在因子模型(LFM),基于文档向量和回归模型的评分预测框架的MSE结果有显著的提升。其三模型融合的评分预测效果在24个子模型上都是最优的,平均MSE为1.391。考虑单个回归模型情况,k近邻回归(KNR)表现最优,平均MSE为1.395。其次是梯度提升回归树(GBRT),平均MSE为1.416。效果最差的单回归模型是随机森林(RFR),平均MSE为1.439。它们的结果都远优于全局平均预测器并且显著优于潜在因子模型。

  相比于标准潜在因子模型的改进模型(SVD++),基于文档向量和回归模型的评分预测框架的评分预测效果也有明显提升。其平均MSE结果从1.434提升到1.391,并在23个子数据集上优于SVD++。

  综上所述,本文在真实的Amazon数据集上的实验表明,基于文档向量和回归模型的评分预测框架的评分预测效果确实明显优于作为基准的矩阵分解模型(LFM、SVD++)。

  7结束语

  评论数据中蕴含了丰富的信息,它是改善仅将评分作为单一数据源的传统协同过滤推荐方法的关键因素之一。如何分析非结构化的评论文本成为挖掘其中蕴含的丰富信息的关键问题。本文提出了一个基于文档向量和回归模型的评分预测框架,首先,介绍了特征构建方法,包括如何使用文档向量模型将评论映射到相同维度的向量空间中以及如何使用文档向量构建用户和产品特征向量,然后,介绍了多个回归模型,最后,介绍了整个框架的构建算法。虽然本文给出的例子主要是如何解决电子商务网站中对产品的评分预测问题,但上述算法也可用于诸如个性化岗位推荐等场景,其应用前景十分广阔。未来的研究可以从评分的角度考虑更多的用户和产品特征,扩充特征空间。

  参考文献(References):

  [1]刘建国,周涛,汪秉宏.个性化推荐系统的研究进展[J].自然科学进展,2009.19(1):1-15

  [2]邓爱林,朱扬勇,施伯乐.基于项目评分预测的协同过滤推荐算法[J].软件学报,2003.14(9):1621-1628

  [3]Schein,A.I.,Popescul,A.,Ungar,L.H.,Pennock,D.M.:Methodsandmetricsforcold-startrecommendations[C].Procofthe25thAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRe-trieval,August11-15,2002,Tampere,Finland,2002:253-260

  [4]QuocV.LeandTomasMikolov.Distributedrepresenta-

  tionsofsentencesanddocuments[C].Proceedingsofthe31thInternationalConferenceonMachineLearning,ICML2014.NewYork:ACM,2014:1188-1196

  [5]TomasMikolov,IlyaSutskever,KaiChen,GregCorrado,

  andJeffreyDean.DistributedRepresentationsofWordsandPhrasesandtheirCompositionality[C].AnnualConferenceonNeuralInformationProcessingSystems.MA:MITPress,2013:3111-3119

  [6]KilianQ.Weinberger,JohnBlitzer,andLawrenceK.Saul.

  Distancemetriclearningforlargemarginnearestneighborclassification[C].ProceedingsofAdvancesinNeuralInformationProcessingSystems.MA:MITPress,2005:1473-1480

  [7]LeoBreiman.Randomforests[J].MachineLearning,2001.45(1):5-32

  [8]LeoBreiman,J.H.Friedman,R.A.Olshen,andC.J.Stone.ClassificationandRegressionTrees[M].Wadsworth,1984.

  [9]J.H.Friedman.Greedyfunctionapproximation:Agradientboostingmachine[J].AnnalsofStatistics,2000.29:1189-1232

  [10]JulianJ.McAuley,JureLeskovec.Hiddenfactorsandhiddentopics:understandingratingdimensionswithreviewtext[C].Proceedingsofthe7thACMConferenceonRecommenderSystem.NewYork:ACM,2013:165-172


  •   论文部落提供核心期刊、国家级期刊、省级期刊、SCI期刊和EI期刊等咨询服务。
  •   论文部落拥有一支经验丰富、高端专业的编辑团队,可帮助您指导各领域学术文章,您只需提出详细的论文写作要求和相关资料。
  •  
  •   论文投稿客服QQ: 论文投稿2863358778 论文投稿2316118108
  •  
  •   论文投稿电话:15380085870
  •  
  •   论文投稿邮箱:lunwenbuluo@126.com

联系方式

  • 论文投稿客服QQ: 论文投稿2863358778
  • 论文投稿客服QQ: 论文投稿2316118108
  • 论文投稿电话:15380085870
  • 论文投稿邮箱:lunwenbuluo@126.com

热门排行

 
QQ在线咨询
咨询热线:
15380085870
微信号咨询:
lunwenbuluoli