时间:2015-12-25 15:16 文章来源:http://www.lunwenbuluo.com 作者:张宾,杨家海,吴建平 点击次数:
2004年,Karagiannis等人通过分析Tier1ISP的骨干链路流量发现,目前高带宽和高聚合的链路流量在亚秒尺度下近似稳定泊松过程,而在多秒尺度下流量表现出不稳定性.这种时间相关的、不稳定的泊松过程,与在大时间尺度上流量的长相关和自相似特性是一致的.
Gy.rgy和Tibor基于Karagiannis等人的工作,用新的方法重新分析了文献中的流量.尽管包间隔接近指数分布,但由于Kolmogorov-Smirnov测试反驳了这样的包序列符合Gamma分布,因此相应的流量不可能是泊松过程.为了找到一个更好的分布来刻画包间隔分布,Gy.rgy和Tibor选用Lévy过程族(泊松过程是限定间隔为独立、同质且指数分布的一个简单的Lévy过程,改变这个限定可以得到许多Lévy过程来建模包间隔),通过分析测试发现,族中SmoothlyTruncatedLévyFlights(STLF)过程用于刻画包间隔分布较为合适.通过调整STLF参数,使其尽量符合真实流量.分析调整后的参数显示,真实流量接近泊松过程,但仍然符合自相似特征.这说明,相比以往的流量,目前的高带宽和高聚合的链路流量由于叠加了许多不同的流使得突发性明显减弱.对于相同的流量,针对时间序列的包长分布,Gy.rgy和Tibor利用自相似模型和线性分形模型的分析验证了相同的情况.即,目前高速流量的相关性和突发性在下降.
Pierre等人通过分析7年贯穿太平洋主干链路的每天的流量数据发现,LRD仍然保持强烈、持续和稳定,聚合流量的边缘分布趋向高斯的演化在时间上保持稳定.这些都说明,即使随着实际链路的带宽和负载都增加了,流量到达也不会是泊松过程,泊松模型仍然难以刻画互联网络的流量特性.Rahman等人考虑到在目前高带宽网络下用传统的细粒度方法分析流量特性比较困难和费时,提出了FuzzyGroupModel,用Fuzzy逻辑大大减少了数学运算的复杂性.此模型定义了包间隔的一个阈值,按阈值把流量分成不同的组,按每个组的大小把组划分为大、中、小,按组间的间隔大小把间隔分为大、中、小,然后按组大小和间隔大小用Fuzzy逻辑得出流量的参数R的值,用以指示流量的排队特性.R∈(0,1),R越大,表示队列越长.通过实验分析,此模型的参数R比传统模型的参数H能够更好地反映流量的排队特性.
5.2近年其他模型的发展
5.2.1流量预测模型
随着智能算法的不断发展,其良好的非线性映射能力、灵活有效的学习方式在预测领域的应用中表现出较大的优势和潜力,如神经网络理论、模糊理论、混沌理论等,已应用于通信、交通、气象、水文等多种预测领域.
(1)基于神经网路的模型
人工神经网络(artificialneuralnetwork,简称ANN)是基于生物学中神经网络的基本原理、按照控制工程的思路和数学描述的方法建立起来的数学模型.ANN预测模型是通过采集历史流量数据整理成神经网络的训练集,通过训练确定网络模型,并用该模型估计未来指定时间的流量.网络流量预测问题实质上是一个时序预测问题.就目前利用神经网络来进行预测而言,并没有通用的网络结构和算法.目前来说,神经网络技术还有很多有待于改进的地方,其性能还不十分稳定;而且预测时需要大量的训练样本和迭代,不断修正模型,从而增加了时间和空间复杂性.此外,单、多步长的预测关系、短长范围的预测关系及神经网络自身等还有很多工作有待研究.
(2)混沌理论模型
混沌是一种复杂的运动形式,具有不可长期预报性、不可分解性和稠密的无穷多个周期轨道,如何判定时间序列的混沌特性一直是国内外学者研究的重点.网络业务流量具有混沌性,从混沌时间序列的角度来研究自相似的业务流速率是可行的.最早的模型是Pruthi等人提出来的确定性的混沌映射模型,我国学者在这方面进行了大胆的尝试.陆锦军等人在wolf算法的基础上提出了一个混沌模型,其基本思想是,基于最大Lyapunov指数的预测方法是直接根据数据序列本身所蕴含的规律来进行预测,不需要事先建立主观的分析模型,它具有精度高、可信度高的优点.基于混沌理论的网络流量预测是一个很有意义的尝试,随着对网络流量混沌现象本质的进一步深入研究,预测的可靠性和精度将更高,速度将更快.
(3)模糊理论模型
模糊理论(fuzzytheory)是处理不确定性、非线性等问题的一种有力工具,比较适合于表达那些模糊或定性的知识.由于网络流量是一个非平稳的时间序列,而模糊理论能够对时间序列进行预测,因而可以把模糊理论引入到网络流量的建模和预测的研究中.此外,模糊理论与ANN结合组成模糊神经网络在流量预测中也有不少应用.王兆霞等人在利用神经网络进行流量建模的过程中,在前端增加了模糊预处理过程,通过分类可以减少神经网络的输入节点,而使得神经网络系统可以处理定量和定性两方面的数据样本,提出了一种基于模糊神经网络的模型;另一方面,通过在ANN输出端增加一个模糊组件,可以对ANN预测出来的结果加入某些网络环境的定性因素来进行修正.
(4)混合模型
单一的预测模型,如泊松模型、AR模型、马尔可夫模型、ARMA模型、小波模型等,由于只刻画了流量的泊松过程或自相似特性而不能很好地对业务流进行预测.采用混合的预测模型可以更加准确、全面地描述和预测实际网络流量.黄晓璐等人引入半马尔可夫模型描述网络流量特性,通过忙阈值和闲阈值的设定将网络流量划分为4种状态:忙、空闲、上升和下降,研究各种状态下的网络流量特性及各种状态间的相互转换关系.通过网络协议性能分析,在一定的假设条件下推出IP网络流量在处于忙状态时服从几何布朗运动,在空闲状态下服从正态分布,在上升或下降状态下服从指数分布.洪飞等人通过把ARIMA线性预测方法引入小波域内,提出一个基于多重分形小波模型的网络流量预测模型.限于篇幅,其他文献这里不再一一列举.当应用混合模型来预测流量时,可以拟合多个模型的优点,更全面地刻画复杂的流量特性.基于此,可以认为,采用混合的预测模型可以更加准确、全面地描述和预测实际网络流量.目前,这方面的工作仍在探讨与研究中.采用混合模型得到的预测效果,相较于单一模型都具有良好的预测效果.但是,建立混合模型的主要难点在于确定合适的网络业务特性及其适用方法.
5.2.2多分形模型
自相似在相对较大的时间尺度上刻画了流量的长相关特性,但无法描述业务的局部特征;在较小的时间尺度上(sub-RTT),流量体现出更为复杂的变化规律,尤其是局部具有突发性,这种细小尺度下的突发性可以用多分形描述.当a(t0)>1时,流量在t0附近是低谷;当a(t0)<1时,流量在t0附近是尖峰.对网络流量进行高频细节上的研究表明此时已无法用单一的Hurst指数描述流量在处处发生的突变程度.传统的多重分形时间维度分析方法无助于确定自相似和多重分形在何种尺度出现转变,进而无助于进一步分析多重分形的成因.当时间尺度趋于微细时,流量更多地体现了多重分形特性.
根据Cascade模型中对于TCP协议的特性对流量由粗粒度到细粒度的行为进行了阐述,相关研究证明,出现转变的尺度可能与TCP/IP协议从应用层到传输层的工作机制有关.此后,又有一些研究提出自己的看法,认为工作在RTT时间粒度上的TCP协议,其使用慢启动等拥塞控制机制来调节网络面临压力时的发包速率,是造成细节处的局部突发不规律的主要原因.总的来说,网络协议的分级级联是多重分形的重要原因.除了前述的多重分形小波模型MWM(multi-fractalwaveletmodel)以外,Gabriel等人用多分形布朗运动(multifractionalBrownianmotion,简称mBm)代替分形布朗运动(FBM),从而扩展了Norros提出的FBM模型.
扩展后的mBm模型既能匹配流量在小尺度下的多分形,又能匹配流量在大时间尺度下的长相关.我国学者王升辉等人通过分析树型多重分形结构的相关性发现,多重分形可以把非平稳且具有长相关和分形特性的网络流量序列转化为可用短相关(SRD)模型表示的序列组.利用多重分形这种将时间序列分解为多层的能力,提出了一种结合多重分形的FIR神经网络流量预测模型(multifractalFIRnetwork,简称MF-FIR).MF-FIR合理地利用了流量序列的LRD信息,具有很好的多步预测性能,可以满足通信系统在线预测的要求.
6、展望
从流量模型的发展过程来看,流量模型的发展基本遵循一个“短相关-自相似-多分形”的发展历程,不同的模型所描述的流量特征的本质是不同的.短相关模型描述流量中包的到达是一个泊松过程,刻画了流量的短相关特性,因此适合于小缓冲区的排队系统分析;自相似模型描述流量自相似和长相关特性,刻画流量的长相关特征,因此适合于大缓冲区的排队系统分析;多分形模型更多地用于流量的细节分析,流量预测模型主要用于预测未来到达流量的大小等等.
到目前为止,Internet网络流量建模已经取得了一定的研究成果,但是与理想和适用的要求还存在很大的差距.总结前面所述的互联网络流量模型可以看到:(1)度量参数相对单一,目前的网络模型大部分基于流量时间序列的自相似特性及其度量参数H上;(2)基于小尺度的流量行为研究和相关的应用尚处于初始阶段,目前主要是小尺度下的多重分形模型的研究;(3)目前的流量模型侧重于数学模型描述流量特征,而物理模型的发展还远远不够,难点在于如何把负载、网络架构、协议、传输技术和用户行为等相关特征组合起来,建模成一个能够持续、有效地描述网络系统的物理模型;(4)大部分模型是为了符合某些实际流量的特征,如自相似等,而真正适合某些具体应用的模型的发展还不够,难点在于如何结合具体的应用来选择合适的时间尺度或用其他方式来建模,而不局限于表征自相似程度的H参数上;(5)流量模型的复杂程度与描述流量特征的准确性之间存在一定的矛盾,难点在于取一个很好的折衷来用尽量简单的模型描述流量的特征.
基于流量模型发展上的以上不足,我们从以下几个方面来展望流量模型的发展:
(1)新的流量特性及其度量参数的发现
目前的网络模型大部分基于流量时间序列的自相似特性及其度量参数H上,实际流量中到底存在哪些未知特性仍有待探索;而对于已发现的特性,如自相似和长相关特性、小尺度下的多分形性、混沌和周期特性等来说,研究这些特性的生成机理和相互关系以及如何刻画,并利用这些特性对实际网络性能进行改善等,也都是今后的研究重点.另外,目前的网络流量模型生成的流量均基于流量的时间特性,而没有考虑其空间特性,即生成的流量不含空间信息(如每个包的五元组信息).2008年,Fonseca等人[79]用信息熵的方法发现流量空间上的信息单元存在长程互相关特性,不仅为流量建模开辟了新的方向,也为新的应用领域指引了新的方向.即新模型产生的流量除了在时间序列上符合已有特性外,每个包要与实际流量一样含有空间信息.在空间上信息符合长程互相关特性、含有空间信息的流量模型必然极大地拓展了流量模型的应用领域.
(2)网络流量的小尺度行为研究和相关的应用
网络技术日新月异,各种新型的网络业务也在不断涌现,这都使网络行为的复杂性不断提高;并且由于用户形态的不同,包括无线的接入等问题都已经慢慢出现.因此,网络流量的小尺度行为的研究将是高性能协议设计、网络设备开发、网络设计与规划、网络管理与操作的基础.从目前的情况来看,网络拥塞的原因有很多,我们可以结合网络行为对网络拥塞的成因进行研究,从而修正和设计新的网络协议,并且将网络队列分析和网络实时预测等研究结合到网络的实际控制之中,以提供更优良的网络服务.这也必将是我们今后的研究方向.
(3)新的物理模型的发展
目前的物理模型发展还比较滞后,由于物理模型能够很好地解释网络特性的成因,对应于网络的行为,将来应该有更好的、更实用的、能够解释实际网络行为的物理模型被发展起来.而正是这些网络行为,导致了流量的自相似和小时间尺度上的多分形.模型不仅要能够很好地解释动态的网络行为和相应流量特征的关系,还应能解释网络拓扑结构、协议、传输技术和用户行为等流量特征的相关关系.相信随着空间信息自相似特性的发现,必然会有新的、相应的物理模型被发展起来以解释这些特性.一种简单的思路是拓展现有的重尾分布ON/OFF模型,使其在ON态发包时含有五元组信息,信息在生成时在空间上符合重尾或幂律分布(如Pareto分布).这样生成的流量不仅在时间序列上具有自相似性,且其空间的信息结构也具有自相似性.
(4)新的应用领域及相关模型的发展
目前,流量模型主要用在QoS、网络性能管理、准入控制领域,这种局限性与已有的流量模型不含空间信息有关.如果将来的流量模型生成的流量与实际流量一样含有类似特性的空间信息,必将极大地扩展流量模型的应用领域,如在网络设备设计、未来互联网设计、网络运行管理与异常监测、网络应用的优化设计等方面都会取得实际的应用.另外,在应用深度上也必定加强,如排队应用中被用于分析包的丢失率和延迟,却很少用于抖动方面的研究,新的模型必然会弥补这些方面的不足.新的流量建模方法一方面依赖于新的流量特性的发现,另一方面也与应用紧密相关.基于目前的应用和流量特性,勇于创新,用新的思路针对某类具体应用发展更适合其应用、更具适用价值的模型和度量指标,也是一个很好的发展方向.一个很好的例子就是第5.1节提到的针对排队的FuzzyGroup模型,所提出的参数R比传统模型的参数H能够更好地反映流量的排队特性.另外,用混合模型弥补单一模型的不足也是很值得研究的方向.
联系方式
随机阅读
热门排行