时间:2016-04-01 10:44 文章来源:http://www.lunwenbuluo.com 作者:张鸿博 点击次数:
摘要:为了解决当前普遍存在的用户身份认证问题,通过分析用户浏览行为,为每个用户以时间相似性为基础划分浏览过程,建立了基于支持度或提升度的特征向量的行为模型,通过向量间距离判定新浏览序列是否属于该用户。系统的误报率较低,且算法时间复杂度为O(n),可以配合其他身份认证手段共同使用。
关键词:身份认证;浏览行为;支持度;提升度;特征向量
Abstract: In order to solve user authentication problem, this paper analyzed the user browsing history, divided browsing process for each user based on the similarity of time, established the feature vector model based on the degree of support or lift, and determined whether new browser sequences belonging to the user by the distance between vectors. The system has low false positive rate, and the time complexity of the algorithm is O(n), and can be used with other authentication methods.
Key words: authentication; browsing behavior; support; lift; feature vector
1 概述
在电子商务所面临的安全性威胁中,用户身份盗用是一类发生率较高但仍未有有效防治策略的问题。目前,利用用户的浏览行为来对用户的身份进行认证是研究的一个热点[1]。在利用用户浏览行为建立用户模型方面,主要包括用Web日志挖掘用户行为模式[2]、基于用户查询意图识别的模型[3]、基于Web数据挖掘的用户浏览兴趣路径模型[4]、马尔科夫模型[5]及加权马尔科夫模型[6]等。然而,以上认证方法普遍存在误报率过高的问题。本文为了尝试解决当前用户身份认证系统中误报率过高的问题,设计了用户浏览行为模型及身份认证算法,并通过实验验证系统效果。
2 用户行为模型及身份认证方法
2.1 用户行为模型总体设计
本文使用提取特征向量的方法来为每个用户建立统计模型。对于每个用户的浏览记录,我们按照时间相似性将其划分为多个浏览过程。接下来,我们根据这些浏览过程,为每个用户挖掘5个最能代表该用户的域名。我们将所有用户挖掘到的所有域名的并集作为特征向量的分量。所有用户共享特征向量的分量,因此特征向量的分量本身并不能表示用户之间的区别。对于每个用户,我们计算特征向量中的每个域名对该用户的支持度或提升度,并将其作为该用户特征向量的值。这样,我们就为每个用户建立了特征向量,也就是该用户的行为模型。当我们需要验证一个新的浏览序列是否属于某个用户时,首先按照上文所述的方法为新的浏览序列求出特征向量的值,通过计算新的浏览序列特征向量与该用户特征向量间的距离判断新的序列是否属于该用户。如果新的浏览序列通过了认证,系统对用户特征向量进行更新,以反映用户习惯的变化。模型整体设计如图1所示。
2.2 建立用户行为模型
我们首先对用户的浏览记录划分浏览过程。用户浏览过程是指用户一次连续不间断浏览网页的过程,通常是指从浏览器打开到浏览器关闭期间浏览的网页。根据时间上的相似性,用户一次浏览过程中浏览网页的时间间隔总是小于一个值。因此,我们可以根据这一特性划分浏览过程。如果连续的网页浏览记录之间的时间间隔小于30分钟,将这些网页归为同一浏览过程;否则,划分为不同的浏览过程。
联系方式
随机阅读
热门排行