时间:2015-04-16 11:47 文章来源:http://www.lunwenbuluo.com 作者:孟庆庆等 点击次数:
2.2 基于物品特征的相似度计算
将物品分类信息融入商品相似度计算中,由于每个商品可以属于多个不同的类别,以测试数据集movelens中的数据分类为例,电影类别数目一定,一部电影属于某个类别,则该类别属性的值设为1,否则类别属性设为0。根据类别属性值产生一个类别向量,通过计算类别向量在n维空间的夹角余弦来计算商品之间的特征相似度。
其中,α=相似物品数/设定的物品近邻数;β=(设定的物品近邻数-计算出的相似物品数)/设定的物品近邻数。上述组合评分计算,弥补了由于数据稀疏性即物品多、评分少带来的近邻数目不足的问题,改善推荐计算结果。
3 实验设计与结果分析
将基于物品的协同过滤算法,基于用户的协同过滤算法和本文提出的改进算法的实验结果进行对比。
3.1 实验数据集
验证实验所采用的数据集为MovieLens网站的电影评分数据ml-100k,MovieLens由GroupLens 项目组创办,是一个以研究为目的的实验性站点。ml-100k数据集包括用户属性信息文件u.user,用户评分数据文件u.base,u.test,电影信息文件u.item等。该数据集包含10万条用户评分记录,943位用户,1682部电影,每个用户至少对20部电影进行了评分。
3.2 实验度量指标
本实验结果的度量标准采用平均绝对误差MAE。通过计算算法预测评分和实际用户评分的偏差大小来度量算法的预测准确性。MAE计算公式如下:
3.3 实验结果
结合传统协同过滤算法进行反复试验,确定计算公式中权重估计值:
a=0.5,b=0.2,c=0.7,d=0.3,e=0.8,f=0.2。在上述权重值下进行基于用户协同过滤,基于物品协同过滤及基于用户特征和商品特征的组合协同过滤算法试验。
实验结果如图1所示。
由实验结果可以看出,结合用户属性特征和商品分类属性特征的组合协同过滤算法在不同的近邻数目取值下,度量指标平均绝对误差比传统的基于用户的协同过滤和基于物品的协同过滤低。可以看出,本文算法提高了推荐的准确度。
4 结语
本文将用户属性特征融入用户相似性计算,将商品分类特征融入商品相似性计算,改进了相似度计算方法,并将两种预测评分方法进行组合,一定程度上减少了数据稀疏性带来的问题。由实验结果可以看出,改进的算法提高了推荐精度。下一步研究需将该算法应用在其它推荐场景中,不局限于实验所采用的数据。
参考文献:
[1] 刘建国.个性化推荐系统的研究进展[J].自然科学进展,2009,19(1):1-15.
[2] RICCI F, ROKACH L, SHAPIRA B, KANTOR PB. Recommender systems handbook[M]. Berlin: Springer-Verlag, 2011.
[3] XU HL, WU X, LI XD, YAN BP. Comparison study of Internet recommendation system[J]. Journal of Software, 2009,20(2):350-362.
[4] LIU JG,ZHOU T,WANG BH. Personalized recommender systems:a survey of the state-of-the-art[J].Chinese Journal of Progress in Natural Science,2009,19(1):1-15.
[5] 梅田望夫.网络巨变元年—你必须参加的大未来[M].先觉:先觉出版社,2006.
[6] GREG LINDEN,BRENT SMITH,JEREMY YORK.Amazon.com recom-mendations:item-to-item collaborative filtering[J].IEEE In-ternet Computing,2003,7(1):76-80.
[7] G ADOMAVICIUS,A TUZHILIN.Toward the next generation of rec-ommender systems:a survey of the state-of-the-art and possibleextensions[J].IEEE Trans on Knowledge and Data Engineer-ing,2005,17(6):734-749.
[8] RICH E.User modeling via stereotypes[J].Cognitive Science,1979,3(4):329-354.
[9] 项亮.推荐系统实践[M].北京:人民邮电出版社,2012.
联系方式
随机阅读
热门排行