时间:2015-12-25 15:20 文章来源:http://www.lunwenbuluo.com 作者:鲁刚,张宏莉,叶麟 点击次数:
Karagiannis等人发现,P2P网络传输层连接的两个特征:一是大约2/3的P2P应用同时使用TCP和UDP协议,而其他少数应用中同时使用两种协议的仅仅包括NetBIOS,DNS,游戏等,这些少数应用大多使用固定端口进行通信,例如NetBIOS使用135,137,139和445端口,通过端口号可排除掉这些非P2P应用;二是在P2P文件共享网络中,对等体之间通常仅使用一条TCP连接进行文件传输;而对于Web等非P2P应用,客户端和服务器之间通常存在多条并发的TCP连接.Karagiannis利用这两个特征识别P2P流量,其具体的实现算法详见第2.4.2节PTP算法所述.该方法识别P2P流量的误报率在8%~12%之间.
Constantinou等人研究指出,与其他网络所形成的逻辑拓扑图相比,P2P网络具有更大的直径.他们通过记录每个节点与其他节点建立连接的情况而得到P2P网络的逻辑连接拓扑图,并计算其网络直径.若某个网络的直径大于规定的最大直径阈值,并且网络中的既是服务器又是客户端的结点数超过特定的阈值,则该网络是P2P网络.该方法识别P2P流量,平均漏报率约为10%.
(2)流行度
这里的流行度是指在时间t内网络中与某台主机建立连接的数量.一些P2P应用在使用时要发起大量的连接,流行度会突然增加,这是P2P网络的一个行为特征.
文献指出,流行度还不足以识别P2P流量,只能作为一种启发信息.在较短时间内,某台主机的流行度突然增加,这意味着两种可能情况:一是主机正运行P2P应用,二是主机正遭受恶意攻击.
(3)扰动性
在P2P网络中,对等体可以随时、任意地加入或离开网络,而其频繁加入或离开称为P2P网络的扰动性.
扰动性常用对等体的在线时间来衡量.对等体在线时间短且变化大是P2P网络扰动性的基本表现.在线时间一般需要通过主动测量技术得到.周丽娟利用P2P流媒体具有节点扰动性大、资源暂存性强的特征,对P2P流媒体应用识别的准确性在90%左右.
2.4.2基于P2P网络行为特征的流量识别算法
针对不同的网络行为特征可以设计出多种流量识别算法,本节仅详细阐述两种经典算法.
(1)PTP算法
PTP算法[57]首次利用P2P的连接模式来识别流量,该算法的设计思想在学术界已得到广泛的应用.其主要思想是,如果源主机与目的主机在预设时间t内既使用TCP又使用UDP协议进行通信,那么它们之间的数据流很可能是P2P流.PTP算法通过端口号排除掉非P2P应用流,并将排除后剩余的IP地址和端口号记录到{IP,Port}
列表中.如果列表中IP地址数目与端口数目的差值在某个预设的阈值内,那么该源IP与目的IP地址之间的数据流被确认为P2P流.
PTP算法主要是根据国外网络环境中P2P应用的传输层行为特征提出的,而国内大量使用网络地址翻译技术和被动式FTP等技术,这使得PTP算法还不能够直接应用于国内网络环境.徐鹏等人针对国内网络环境,提出了3条改进策略:①基于非P2P知名端口的过滤机制;②基于有效数据流的计数机制;③基于反向流的FTP过滤机制.他们对P2P流识别准确率接近95%,对P2P字节识别准确率约为99%.
(2)应用层连接同质性(linkhomophilyintheapplicationlayer)算法应用层连接同质性是指运行同一种应用的IP主机所产生的流的倾向性.应用层连接同质性算法首次将统计关联学习和图挖掘方法应用于流量识别,为基于网络行为特征的流量识别技术提供了新的思路.Gallagher等人给出了计算应用层连接同质性的算法.其基本思想是,基于给定的网络流量建立网络踪迹图G,图G的节点为IP主机,而IP主机间的流作为图的边.如果两条边有共同的节点,那么这两条边被视作邻边.给定已标记类别的边l,其连接同质性为:与l有相同类别的邻边所占的比例.类别的同质性是指图G中所有标记为该类别的边l的连接同质性的和.
基于连接同质性的分类算法由两部分构成:NLC(neighboringlinkclassifier,邻接边分类器)和NLC+RL(neighboringlinkclassifierwithrelaxationlabeling,带有松弛标签的邻接边分类器).NLC算法计算图G中每个无标记的边u属于类别c的连接同质性.NLC+RL算法将NLC算法执行多次,选择连接同质性最大的类别作为边u的类别标记.该算法识别P2P流量的准确率在90%以上.
基于网络行为特征的P2P流量识别技术不依赖于应用层负载特征,其识别的对象主要是P2P网络中的对等体,将对等体之间传输的数据流视为P2P流.该技术在实际应用中面临的主要问题:一是它仅能够粗粒度地识别P2P流,不能将P2P流细化到具体的协议,例如eDonkey协议、Bittorrent协议等等;二是它需监控网络中每台主机的行为模式,但由于一台主机常运行多个应用,如P2P,Web,E-mail等,该技术很难从中识别出P2P应用的行为模式;三是可以看出,提取P2P网络行为特征的时间开销和空间开销较大,此技术一般不适用于高速网络环境下的流量识别.
3、P2P流量识别技术的研究成果
本节从实际应用角度总结了目前国内外P2P流量识别技术的研究成果,并比较了各种P2P流量识别技术的特点.
定量地比较P2P流量识别技术易受到两个条件的约束:一是缺少可信的评估数据集.目前已发布的数据集并未包含应用层的数据信息,这使得部分技术在这些数据集上分类不可行;二是准确性评价指标并不统一.
因此,列出了当前主流P2P流量识别技术的研究成果.基于端口的流量识别技术由于仅需要检测数据包头部,不采用复杂的计算,实现简单,可用于高速网络环境下实时流量分类.但由于P2P应用常使用动态端口,使得该技术识别的召回率较低.
DPI流量识别技术由于其准确性较好且可用于在线识别,已被广泛应用于商业产品,可是该技术侵犯用户隐私且对加密流量的识别召回率较低.基于机器学习的流量识别技术弥补了DPI技术的不足,可用于在线识别加密流量.由于流量统计特征受网络环境的影响较大,这导致该技术健壮性较差.目前,实现机器学习技术的流量分类工具只有Tstat2.0,而Tstat2.0仅能够识别Skype流量,尚无法利用机器学习技术识别所有应用流量.基于网络行为特征的流量识别技术不检测数据包的负载信息,保护了用户隐私,也可用于识别加密流量.可是,它仅能够粗粒度地识别P2P流,且不适用于高速网络环境下在线实时识别流量.文献提出的BLINC系统利用主机的行为模式识别P2P流量.该系统仅适合于部署到单宿主边缘网络(single-homededgenetwork)的边界连接处,而不适合于部署到骨干网连接处.
实际上,每一种流量识别技术都有其优缺点,各种技术的有效结合是很有必要的.混合流量识别技术是当前学术界研究的热点之一.可以看出,目前工作常将DPI技术和基于网络行为特征的流量识别技术结合在一起,以求获得更好的识别效果.
4、下一步主要研究工作
目前,P2P流量识别技术是网络流量工程的研究热点.该技术面临的主要困难总结如下:
(1)P2P网络的自身复杂特性
P2P网络最本质的特征是动态性.P2P流量的动态性使得某些状况下,P2P流量不具备区别于其他流量的明显特征;P2P网络行为的动态性,使得基于机器学习的P2P流量识别极易出现概念飘移情况.
(2)P2P网络自身发展特性
P2P网络作为一种新型的网络应用也在不断的发展与完善.目前,P2P应用软件正在不断地更新,新的P2P应用软件不断涌现.不同P2P应用软件的网络行为不同,同一种应用软件的不同版本网络行为也有所差异,所以流量识别技术也需要不断地改进以适应P2P网络自身发展特性.
鉴于P2P流量识别技术的研究现状,下一步的研究工作主要概括为以下6个方面:
(1)P2P流量识别首先要进行数据采集,而目前网络速度不断提高,在内存资源有限的前提下,不可能采集所有的流量数据.结合流抽样和包抽样的P2P流量识别技术,国内外已经有部分研究,但是单独基于包抽样的P2P流量识别研究相对较少.包抽样技术可以不维护流的状态信息,有助于提高流量识别效率.此外,面向P2P应用的抽样技术也可以作为进一步的研究方向.
(2)迅雷是目前国内用户使用较广泛的P2SP(peertoserverandpeer)下载软件,识别迅雷流量的困难在于:一是其负载内容加密且协议文档不公开;二是迅雷支持多种协议下载方式,网络行为模式不显著.对迅雷流量的进一步识别以及建立迅雷应用的网络行为模型可以作为进一步的研究方向.
(3)Kazaa和Gnutella目前采用协议伪装技术躲避流量检测.他们将自身流量伪装成HTTP协议流量进行文件下载传输.对于协议伪装的P2P流量识别,可以作为进一步研究方向.
(4)基于机器学习的P2P流量识别技术经常面临概念飘移情况.引起概念漂移的情况有很多,例如网络时空环境发生变化、网络应用分布发生变化等.如何克服概念漂移、提高P2P流量识别的健壮性,可作为进一步研究方向.
(5)网络流量分布状况常常是不平衡的,即一些应用的网络流占据了很大比例,而另外一些应用的网络流所占比例很小.以往基于机器学习的流量识别技术常常把比例很小的网络应用流忽略掉,这是不可取的.因为即使这些应用的流数所占比例很小,但是其字节比例可能会很大(例如P2P文件共享数据流).因此,利用机器学习技术分类不平衡的网络数据流可以作为进一步的研究方向.
(6)部分网络常采用隧道技术保障用户数据的隐私,但这也隐藏了网络应用的行为.目前,对于一种P2P应用仅使用一个加密隧道的流量识别情况,国内外已有相关研究.但实际情况下,多个P2P应用可同时复用同一个加密隧道.对于这种复杂情况下的P2P流量识别,可以作为进一步的研究方向.
参考文献:
相关内容
联系方式
随机阅读
热门排行