时间:2015-04-16 11:47 文章来源:http://www.lunwenbuluo.com 作者:王春才等 点击次数:
摘要:在目前众多的电子商务推荐方法中,协同过滤的研究和应用最为广泛。但由于其自身存在的一些诸如数据稀疏性与缺少个性化等问题,导致推荐的准确度与效率不高。而且User-Based协同过滤算法存在用户规模过大、不易寻找最近邻的问题。因此,引入了Web日志挖掘方法,并利用Item-Based等相关技术,以提高推荐准确度。
关键词:Web日志挖掘;Item-Based;协同过滤;电子商务
中图分类号:TP312
文献标识码:A 文章编号:1672-7800(2015)003-0046-03
0 引言
随着Internet的快速发展,大量电子商务网站应运而生。面对网络上海量的产品数据,如何为用户提供个性化服务、推荐其可能喜欢的产品以提高企业收益成为亟待解决的问题。
协同过滤(Collaborative Filtering)[1]是目前研究与应用十分广泛的推荐方法,论文发表可分为基于用户(User-Based)和基于项目(Item-Based)的算法。基于项目的协同过滤最主要的特点在于它是预先计算所有项目对之间的相似度,根据用户对项目的评分模式对项目进行比较,从而产生并推荐用户可能喜欢的项目。本文通过分析处理站点服务器日志,得到用户兴趣,隐性地提取用户信息,并与传统项目聚类技术相结合,为用户推荐其可能喜欢的产品。
1 Web日志处理
虽然Web日志中的数据记录了用户浏览信息,但由于其数据的不完整性,必须对Web日志进行相应处理,才能获得所需的结构化数据[2]。Web日志的预处理包括以下几个步骤:
1.1 数据清理
数据清理根据站点不同而不同,但其所涉及的工作主要是删除对分析无关的项,并采用适合的方式处理错误记录。如:删除样式文件、图片、音频、视频等信息;删除过渡页面,因为过渡页面不能表示用户对这些信息感兴趣;清理访问出错页面等。这些信息通常对数据分析任务没有用处。
1.2 用户识别
为了识别并区分独立访问者,在不考虑认证机制的前提下,通常方法是使用客户端的Cookies信息。但由于并非所有网站都使用Cookies,且有时Cookies会被禁用,因此仅通过IP地址不足以区分用户,需采取启发式规则:当IP地址相同时,可以通过操作系统、浏览器的不同对不同用户加以区分;当IP地址、浏览器和操作系统均相同时,则可以根据网站的拓扑结构区分用户。
1.3 会话识别
会话识别将用户的访问记录分解为单个会话过程。每个会话代表一个用户对站点一次访问过程中引用的所有页面。由于用户何时离开网站很难被察知,因此采用最大超时方法对此进行判断最为简便。即如果两个页面间的请求时间差超出一定界限,则可以认为会话已结束。研究表明30分钟为较合适的时限。
1.4 路径完善
会话识别后,通常所需进行的一项预处理任务是路径完善,其目的是为了对用户浏览过却未被日志文件记录下来的页面进行补充。客户端或代理端的缓存功能常导致被缓存的页面和对象的访问引用丢失,该丢失记录可以通过路径完善进行探索式补充。
1.5 兴趣度衡量
用户对某产品的兴趣可由其浏览或购买来表示,用户对产品的评分可以由其对产品的浏览次数与购买数量确定。约定用户浏览评分的最大值小于购买评分,即购买一件的兴趣度大于浏览的兴趣度,无论用户浏览产品多少次。将两评分相加,得到用户对该产品的最终评分。用Ru,i代表评分,u代表用户,i代表项目,Ru,i越大,表明用户对该项目越感兴趣。调查显示,用户平均每浏览4件产品,会购买1件。每种产品购买数量少于10件的情况占总购买数量的83.6%。综上所述,将评分表示为如下公式:
2.2 最近邻居选择
通过中心最近邻方法选择与目标项目最为相似的项目集。中心最近邻是目前最为成功与常用的方法。对于任意项目i,根据相似性矩阵sim中其它项目和i的相似性,将相似性按从大到小的顺序排序,并将相应项目编号存到最近邻矩阵的相应行中,形成关于项目i的最近邻集合。与i相似性最高的是第一最近邻,其次是第二最近邻,由此类推。
联系方式
随机阅读
热门排行