时间:2016-01-16 10:27 文章来源:http://www.lunwenbuluo.com 作者:徐程,曲昭伟,陶鹏飞, 点击次数:
摘要:针对实际中检测器原始交通数据存在的大量缺失与异常的实际情况,论文通过分析数据采样间隔与交通流三参数内在关系等因素的影响,设计了4步骤的数据筛选方法,包括初步筛选、阈值筛选、交通流理论筛选和质量控制筛选;提出了基于时间序列、历史数据、空间位置及时空相关性的四种在不同条件下应用的数据恢复方法;以此为基础建立了标准的数据预处理流程。通过北京快速路实际数据验证表明,算法能够有效剔除异常数据,异常数据恢复精度低于10%,同时具有很强的实时性和稳定性,能够满足工程实际的应用。
关键词:采样间隔;数据筛选;数据恢复;多元质量控制
动态交通数据是进行城市交通智能化管控的前提与基础。实时动态交通数据的采集、处理、分析与应用是智能交通系统(IntelligentTransportationSystems,ITS)的重要组成部分之一。失去了精确的交通流实时数据的支撑,智能交通系统将无法发挥其应有的作用。国内外的相关研究表明,先进的交通管理系统中实时数据的准确率平均值仅为67%左右,交通流实时数据的精度和有效性是制约交通管理系统发挥效益的瓶颈之一。因此,通过对采集的交通流实时数据进行预处理过程,保证智能交通系统数据输入的完整性与有效性是一个亟待解决的关键科学问题。国外相关的交通流异常数据筛选与恢复的研究工作从20世纪60年代开始,伴随着交通监视系统、交通管理系统应用而逐步发展,相关的理论与算法已经开发成系统并应用于实际工程项目。Turochy等在前人研究工作的基础上提出了一种比较完善和保守的异常数据识别流程。
维吉尼亚大学交通研究中心对不同的交通流异常数据恢复方法进行了详细的对比与评价。国内许多研究机构针对具体数据特性提出了对应的异常数据筛选和恢复方法,并给出了基于数据相关性的数据恢复方法。然而上述研究主要是借鉴其他系统的时间序列异常数据处理方法与流程,缺乏对动态交通流数据内在规律的分析。交通流数据具有时空相关的特性,特别是交通流三参数之间也存在内在逻辑规律,只有深入挖掘交通流数据之间的内在规律,才能建立适应交通流数据特点的异常数据筛选与恢复方法。本文正是从这个角度出发,建立动态交通异常数据的筛选与恢复方法,形成一套适合工程应用的异常数据处理标准化流程,为动态交通数据的后续应用奠定基础。
1、数据采样间隔特性
交通系统是具有离散随机特性的系统,对交通系统的各种复杂时变特性进行描述,就需要通过检测在一定连续时间间隔内的交通流特征参数,通过特征参数来表征观测时间间隔内的交通流平均特性。在研究不同的交通流特性问题,就需要采用不同的数据采样间隔,数据采样间隔会对数据采集精度和交通流特征参数产生明显的影响。因此,在实际工程中往往通过经验分析,根据具体的研究环境、研究内容与研究方法来区别的设置交通流数据的采样间隔。当研究交通事件检测时,就需要采用较小的数据采样间隔以描述数据的微观波动变化特性;而进行交通管理控制时,就需要采用较大的数据采样间隔以避免因为数据波动造成交通管控方案的不稳定。
为了定量的描述这种数据离散特性与数据采样间隔之间的关系,本文提出了一种平滑滤波方法来定量衡量数据的波动程度。采用实际检测数据与经过平滑滤波后的数值间的均方根误差来表征数据的离散程度。根据数据特性,采用Tukey平滑算法对原始数据进行处理,该方法采用中位数进行鲁棒估计,具有很好的稳定性。Tukey平滑算法的基本思想是通过原始数据产生一个曲面的进而得到平滑估计值,其算法步骤如下:
1)通过原始的交通流时间序列参数x(i)构造一个新的时间序列x′(i)。具体方法是取x(i),x(i+1),…,x(i+4)的中位数得到x′(i+2),然后舍去x(i)加入x(i+5)取中位数得到x′(i+3),以此类推;
2)用类似的方法在序列x′(i)相邻的三个数据中选取中位数构成新序列x′′(i);
3)最后由序列x′′(i)按式(1)的方式构成最终序列x′′′(i)。
通过上述3个步骤得到的时间序列x′′′(i)可以认为是原始交通流数据较为稳定的平滑值,根据实际数据与平滑值之间的误差程度可以定量的描述原始数据的波动程度。这种误差值可以采用均方根误差计算公式得到:nixixiRMSEn=.′′′=.(2)根据不同采样间隔下计算得到了流量和速度的RMSE值,可以建立RMSE与采样间隔的函数关系,随着采样间隔的逐渐增加,流量和速度的均方根误差均存在明显的下降。在采样间隔较小时,均方根误差下降明显;随着采样间隔的逐渐增大,下降趋势逐渐减缓。采用幂函数进行曲线拟合,表明两者具有较强的相关性。因此,可以利用这一关系来分析采样间隔对数据波动性的影响。
2、数据筛选方法
通过交通流检测器获取的实时交通流参数(主要是流量、速度和时间占有率)由于受到外界因素的影响,会存在缺失、突变、错误等异常情况,因而不能直接作为交通管理系统的数据输入。对于采样数据中的异常值筛选问题,在许多其他领域都形成了较为完善的理论与技术体系。然而,交通流数据具体突变、波动、时空相关等特性,有别于其他采样数据。通过深入挖掘交通流数据的内在规律,文本提出了四步骤的动态交通数据异常值筛选方法。
2.1初步筛选
初步筛选是指利用交通流参数流量(q)、速度(v)和时间占有率(o)之间简单的数值关系,将三参数作为统一整体进行筛选,利用三者之间的相关关系把明显错误的组合形式筛选出来。
2.2阈值筛选
阈值筛选是指设置某些交通流参数临界值,对超出临界值的交通流参数进行筛选的方法,保证了交通流参数在合理的范围之内。阈值筛选的关键是确定合适的临界阈值,而这一阈值是与不同的地点、交通环境与数据采样间隔密切相关的。通过上述对采样间隔的影响数据波动性的分析,本文提出了考虑数据采样间隔的临界阈值计算公式:xmax=x0+3f(T)(3)式中,xmax为交通流参数的临界阈值;x0为交通流参数的基本限值,流量一般取车道通行能力,速度一般取路段最高限速;T为数据的采样间隔;f()为交通流参数均方根误差与采样间隔T的拟合函数,根据经验数据得到。
2.3交通流理论筛选
交通流理论筛选是指根据交通流理论中三参数关系模型或车辆到达特性分布等交通流理论模型来判断实时数据是否存在异常值。虽然单个交通流参数符合阈值筛选要求,但若得到一组交通流参数不符合交通流理论筛选原则,则认为这整组数据都是异常值,应予以剔除。交通流理论筛选主要针对以下三方面的情况。
2.3.1数据都为零时的筛选
针对三参数数据全部为零的情况,主要存在如下两种可能性:第一,流量极低,在采样间隔内无车通过;第二,受到数据传输中断等因素影响,数据丢失。针对此种情况,需要加以区分,以免误判。
在极低流量情况下,车辆的到达服从泊松分布,其概率函数表达式为:mxempxxx.==.(4)式中,p(x)为采样间隔内到达x辆车的概率密度函数;m为采样间隔内平均到达车辆数;e为自然对数的底。
则在置信水平α下,采样间隔内有车辆到达的概率(即x>0的概率)为:0(0)1(0)110!mempxpα.>=.=.=.(5)因此,m=.lnα。若m>.lnα,则有1.α的概率不会出现流量为零的情况。通过设置水平α即可得到判别零流量是否异常的数据筛选准则。
2.3.2时间占有率为零时的最大流量筛选
从理论上来说,当时间占有率为零时,即可以表示在采样间隔内无车通过。但是考虑到时间占有率都采用两位有效数字存储,且在速度较大时检测器的灵敏度不足以检测到车辆通过。因此,在实际数据中会存在一部分时间占有率数据为零,而流量速度数据非零的情况,这一比例可以达到2%以上。
因此,对这一类数据进行有效筛选就显得很有必要。根据交通流三参数基本关系模型:suqlo=(6)式中,su为区间平均速度(km/h);q为流量(veh/h);o为时间占有率;l为平均有效车身长度(km)。上式的变换即可得到最大流量限值maxsq=oul。通过设置合理的平均速度、平均有效车长和时间占有率值,即可以通过最大流量限制筛选出错误数据。
2.3.3平均有效车身长度筛选
针对时间占有率不为零的数据,采用公式(6)变换得到的平均有效车身长度sl=ouq来进行数据有效性的判断。将采样间隔内实时的流量、速度和时间占有率数据代入计算得到的平均有效车身长度。通过设定平均有效车身长度的取值范围来判断数据是否属于异常值并进行后续处理。
2.4质量控制筛选
联系方式
随机阅读
热门排行