时间:2015-12-25 15:16 文章来源:http://www.lunwenbuluo.com 作者:张宾,杨家海,吴建平 点击次数:
自从1994年流量的自相似特性被发现后,各种基于自相似性的流量模型被不断地提出.基于网络流量的自相似性,有两类建模方式:一类是构造建模(物理模型),这类方式试图利用己知的传输知识来解释所观察到的数据特征,如由于资源共享而导致大量信源叠加的事实,这类建模方式中具有代表性的有重尾分布的ON/OFF模型、A1pha-Betaon/off模型以及M/G/∞排队模型;另一类是行为建模(统计模型),这类方法试图用数据拟合方法模拟所测量真实数据的变化趋势,代表模型有FBM模型和基于小波的模型等.
4.1重尾分布的ON/OFF模型
模型定义为叠加大量的ON/OFF源,每个源都有两个周期交替的ON和OFF状态.在ON状态,数据源以连续的速率发送数据包;在OFF状态,不发送任何数据包.其中,每个发送源ON或OFF的时长独立地符合重尾分布(如Pareto分布).传统的ON/OFF模型假定ON态和OFF态的持续时间均以指数形式分布.扩展这种模型使ON态和OFF态的持续时间有无限的方差(即高可变性或Noah效应),这样,无数个源的叠加就呈现出长相关性(Joseph效应).A1pha-Betaon/off模型在ON/OFF模型的基础上进一步把高速率、高容量的连接定义为Alpha流量,把低速率、低容量的连接定义为Beta流量.Alpha流量占全部连接的很少一部分(少于0.1%),而对整个流量的属性有很大的影响,Beta流量基本上表现为高斯边缘分布.此模型分别用相应的ON/OFF模型生成对应的A1pha-Beta流量,然后合成.
用ON/OFF模型叠加产生自相似流量可以解释产生自相似的部分原因:经检测发现,若文件大小符合重尾分布,则对应的文件传输均导致链路层的自相似性,而与所用的传输协议等相关较小.这种模型包含明确的物理意义,有助于深入地了解自相似的本质.其缺点在于,假设前提过于严格,即各个源端必须是独立同分布的,且输出速率为常数,而大多数网络业务的分布是无法建立在此前提上的.这些都使得它在实际应用中受到很大限制.
4.2M/G/∞排队模型
排队论的基本思想是1910年丹麦电话工程师Erlang在解决自动电话设计问题时开始形成的,当时称为话务理论.排队系统包括3个组成部分:输入过程、排队规则和服务机构.排队系统一般是以顾客相继到达系统的间隔时间分布、服务时间的分布和服务台数目为分类标志.现代常用的分类方法是英国数学家肯德尔提出的分类方法,即用肯德尔记号X/Y/Z进行分类.X处填写相继到达间隔时间的分布,Y处填写服务时间分布,Z处填写并列的服务台数目.各种分布符号有:M-负指数分布,D-确定型,Ek-k阶埃尔朗分布,GI-一般相互独立分布,G-一般随机分布等.
用M/G/∞排队模型构造自相似序列的方法最早是由Cox提出来的,于1998年被Krunzy用于视频流量的建模[50].结果显示,此模型能够较好地反映实际流量的排队性能.M/G/∞模型表示:输入顾客流服从参数为λ的Poisson过程(因M表示相继到达的时间间隔呈负指数分布),系统内有无穷个服务设备,每个服务设备的服务时间T服从独立同分布G.M/G/∞序列是指排队系统中的顾客总数在时间轴上构成的序列.M/G/∞模型可以通过选取不同的G使序列具有长/短相关的结构,系统的服务时间G服从Pareto分布的时候,顾客总数序列构成一个渐进自相似过程.M/G/∞序列无法直接用概率密度或分布函数描述.改进后的M/G/∞模型[28](包间隔即顾客流用Pareto分布代替指数分布)生成的流量更能反映真实流量的排队特性.
M/G/∞排队模型也是一种采用构造方式的自相似网络流量模型.由于现在IP网络设备都基于分组交换,并且在设备的接口上都采用了统计复用的实现方式,所以该模型的一个优点在于从排队系统的角度解释了网络流量产生自相似特性的原因;另外一个优点是该模型比较适合于分析自相似网络流量输入时的排队性能.但是,该模型假设了服务器一直处于忙期,主要凭借服务时间的随机性来描述自相似特性,因此对网络流量的突发性描述方面存在不足.
4.3FBM/FGN模型
分形布朗运动(fractionalBrownianmotion,简称FBM)是由Manderbrot和VanNess提出的一种统计自相似过程的数学模型,主要用于生成布朗运动过程.当H=1/2时,FBM即为一般布朗运动.FBM是一种不平稳的自相似过程,其自相似系数为H.FBM是一个均值为0的连续高斯过程,其平稳增量过程是分形高斯噪声FGN(fractionalGaussiannoise).令ZH(k)=XH(k).XH(k.1),则ZH(k)即为FGN,FGN是平稳的严格二阶自相似过程.
在此基础上,Norros提出了一个自相似网络业务流模型.令(i)At为第i个信源在时间[0,t]内输入的网络业务流,其输入平均到达速率为m,网络的聚合业务流的形式化表示如下:At=mt+amXt,t∈(0,+∞)(4)At表示到时刻t为止的所有网络业务流.其中,m为整个网络流量的平均到达速率,a>0为方差系数,Xt为标准的分形布朗运动且其自相似系数H满足0.5<H<1.产生分形布朗运动的主要算法是RMD法,但此算法生成业务的Hurst系数与期望值不一致:当0.5<H<0.75时,其值偏大;而当0.75<H<1时,其值偏小;尤其是当H=0.5时,生成的业务数据与标准的布朗运动有较大偏差.另一种方法是通过对分形高斯噪声的频谱进行快速傅里叶逆变换而获得业务数据,所生成的业务源Hurst指数具有较好的一致性,而且业务数据样本的边缘分布非常接近高斯分布.此外,还有采用小波变换的方法和线性近似的方法产生分形布朗运动.
FBM模型能够描述网络业务流的自相似特性,只需要平均速率m、方差a和Hurst参数3个参数就可以完整地刻画整个模型,在数学上有坚实的理论基础且比较好处理,因而可以很方便地应用于流量的实时仿真和特性分析.FBM模型分析网络流量时也存在一些不足:由于FBM是严格自相似的过程,模型的参数较少使得其描述能力有限,可以用来对长相关数据进行建模,但无法描述业务的短相关特性,从而不能对既有长相关特性又有短相关性的流量准确建模;而且,FBM模型带有高斯性,对于非负的信号(即非高斯性的信号)也不能很好地分析.
4.4FARIMA模型
分形ARIMA(p,d,q)过程(fractionalautoregressiveintegratedmovingaverage)是ARMA(p,q)的一个扩展形式,在d为0时即为ARMA(p,q)模型,因此,FARIMA(p,d,q)是二阶渐进自相似过程,且具有自相似参数H=d+1/2.FARIMA是一个时间序列模型,通过p,d,q这3个参数来控制自相关结构,用p+q+1个参数刻画样本中的短相关结构;采用d=H.0.5描述样本的长相关结构.参数d的取值区间不同,FARIMA过程的特性也不同.如果p=q=0,即FARIMA(0,d,0),它是FARIMA(p,d,q)过程的最简单的形式,一般称为分形差分噪声.事实上,当0<d<0.5时,FARIMA(p,d,q)过程可以被看作是一个分形差分噪声FARIMA(0,d,0)驱动的ARMA(p,q)过程,其数学表达为Xk=φ.1(B)θ(B)Yk(7)其中,Yk=Δ.dεk是FARIMA(0,d,0)中的分形差分噪声.分形FARIMA(p,d,q)算法其实就是先产生分形差分噪声FARIMA(0,d,0),然后利用分形差分噪声驱动ARMA模型获得FARIMA模型.实现分形差分算子是FARIMA网络流量建模的一个关键,可以利用第1.1节的Hurst参数估计法间接地对d进行近似估计.
FARIMA(p,d,q)是一种渐近二阶自相似过程,可以有效地描述样本流量的长相关特性,同时也能很好地表示具有短相关结构的业务流量.但是,由于模型本身的复杂性和参数较多,计算量很大,算法复杂性为O(n2),使其在实际应用中存在一定的局限性.
4.5基于小波的模型
小波变换是20世纪80年代后期在泛函分析、数值分析、逼近论和傅里叶分析基础上发展起来的一个应用数学分支.经过多年的发展,小波分析被广泛地应用于信号处理、图像处理、模式识别、数字水印等相关领域中.具有多分辨率,也叫多尺度的特点,可以由粗及细地逐步观察信号.小波分析是一种窗口大小(即窗口面积)固定但其形状可以改变、时间窗和频率窗都可以改变的时频局部化分析方法(即在低频部分有较高的频率分辨率和较低的时间分辨率,在高频部分具有较高的时间分辨率和较低的频率分辨率),可以根据实际分析需要自适应地调节时频窗口,能够聚焦到信号时域和频域的任意细节.自20世纪90年代开始,研究人员逐渐将其引入到网络模型的研究中,依靠它的多尺度特性来进一步揭示网络中的流量特征.
从上面的分析可以看到,小波变换具有对信号的自适应性,能够保持分析对象的尺度不变性.由于网络流量的自相似性是在统计意义上具有尺度不变性的一种随机过程,因此,小波变换在数学上具有其自身特有的优势,下面的小波模型都是建立在对网络流量多尺度分析的基础上.
(1)小波域独立高斯WIG(wavelet-domainindependentGaussian)模型
小波域独立高斯WIG模型可以用来合成一个高斯过程,基本过程是按所示逐步由j层的尺度系数和小波系数生成j+1尺度下的尺度系数,其具体合成方法如下:1)首先生成小波尺度系数树的根节点U0,0,它是一个高斯随机变量;2)然后生成尺度j上的各个小波系数Wj,k,它们是相互独立的零均值高斯分布随机变量,只要在不同尺度j上小波系数的方差满足幂律衰减,就可以实现对分形布朗运动或是分形高斯噪声的合成;3)要计算更小尺度上的尺度系数,可以用生成的上一级尺度系数和相应的小波系数由上面的变换公式得出.通过递归计算,直至求得最精细尺度n上的2n个尺度系数为止,最终可以得到尺度系数序列{Un,k},从而获得所求的合成长相关信号X(k),对于合成长度为N的信号,这种合成方法的计算复杂度只有O(n).WIG不仅能够表达随机过程中的长相关结构,还能表达其中的短相关结构.WIG是一个单分形的加法模型,可以同时对流量的长、短相关特性进行描述,其研究价值非常大.同时,WIG的计算复杂度低,使其可以被方便地应用到实际中.但是,WIG模型仍然是高斯的,对于突发的网络流量参数无法进行完整的描述;当方差大于平均值时,WIG合成的数据会出现负数,这也与实际不相符.
(2)多重分形小波模型MWM(multi-fractalwaveletmodel)
由于独立小波模型的高斯本性,使用WIG并不能对实际网络中的小时间尺度下的突发状况进行把握,并且由独立小波模型产生的信号量不能保证非负性.因此,独立小波模型并不能完全体现实际网络的真实特性.具有非高斯性质的MWM为了保证尺度系数的非负性,对Haar小波变换作了特殊的限制,将小波能量的衰减看作尺度的函数,用于网络业务的突发性建模,对小波系数和尺度系数增加一些限定条件,以此来保证信号的非负性.
注意到小波逆变换迭代过程中,只要最粗糙尺度的尺度系数非负,并且满足|Wj,k|<Uj,k,则迭代的每个公式都能保证尺度系数非负.MWM模型中引入了因子Aj,k,并使得Wj,k=Aj,k×Uj,k(16)其中,A是[.1,1]之间的独立随机变量,可以保证迭代中所有的尺度系数非负.MWM模型产生模拟流量数据序列的过程可以简要描述如下:1)j=0,生成一个最粗糙的(根)尺度系数U0,0;2)在尺度j上,产生随机变量Aj,k(可选Aj,k为对称β分布),并通过Wj,k=Aj,k×Uj,k计算Wj,k,k=0,1,…,2j.1;3)在尺度j上,用Uj,k和Wj,k由小波逆变换计算出尺度j+1的Uj+1,2k和Uj+1,2k+1,k=0,1,…,2j.1;4)增加j,重复步骤2)、步骤3),直至达到尺度j=n为止.
MWM模型是一个多分形的乘法模型,用较少的参数就能对网络流量中的短相关和长相关进行描述,还能匹配实际流量小尺度下的多分形特性,且能达到比较快速的收敛.其算法复杂度也是O(n),可以很好地匹配实际网络流量.不足之处是,小波变换系数并非在每个尺度下都独立,而且小波基的选取也影响模型的质量.
4.6自相似模型小结
这一时期还有许多其他的自相似模型,如确定性的混沌映射模型、基于MMFM的改进模型、基于WIG的改进模型、基于流的模型、基于α稳态分布的模型等,这里不再一一介绍.自相似流量模型与传统流量模型的不同之处在于:自相似模型是建立在网络特性的基础上,可以描述流量的突发性和长相关性,刻画了业务流量的自相似特性,有助于全面地认识网络业务流在各个方面的内在规律.表1对文中的自相似模型作了一个简单的对比.
5、流量建模新发展
2004年,Karagiannis等人通过分析Tier1ISP的骨干链路流量发现,目前高带宽和高聚合的链路流量在极小尺度下近似泊松过程,从而引发了人们对网络流量特征及建模的新思索和争论.之所以这样划分,并不表示近时期的流量模型不具有自相似的特征,主要是为了更清晰地了解近些年网络流量模型的发展情况.
5.1泊松回归的争论
联系方式
随机阅读
热门排行