时间:2016-06-21 10:56 文章来源:http://www.lunwenbuluo.com 作者: 李玲 点击次数:
KDDCUP99数据集中的数据中存在连续变量和离散变量,根据本实验设计,需要将离散型变量做连续化的处理。一共7个离散型变量中,flag、land、logged_in、is_host_login和is_guest_login5个属性特征均只包括两种状态:0或者1。因此,这里只用对提取的数据集的protocol_type(协议类型)和service(网络服务)特征转换成连续化特征变量,如表2和表3。为了在计算的时候不产生误差,还要确保每条记录间同一离散型特征之间的距离相等[8]。
接着用谱聚类的NJW算法对数据进行降维和归一化处理[8],得到新的数据源。
2.4实验结果及分析
将处理后得到的新数据源所获得的重要特征应用到谱聚类算法和传统的聚类算法K-means中,并进行比较。实验结果用检测率(DR)和误检率(Fdr)2个参数作为评价标准,既要保证较低的误检率,又要获得尽可能高的检测率。聚类结果如表3。
3结束语
本文在经典的入侵检测KDDCUP99数据集上进行实验,采用基于谱聚类的异常检测算法,在选取的数据集中能达到较好的检测率和较低的误检率。相对于K-means算法,克服了随机选取初始聚类中心和容易受到局部最优解的缺陷[1]。在后续研究中,除了在真实环境下检验本实验方法的有效性,还将实验谱聚类算法与其他方法相结合用于异常检测中,提高聚类精度和速度。
参考文献(References):
[1]杜强,孙敏.基于改进聚类分析算法的入侵检测系统研究[J].
计算机工程与应用,2011.47(11):106-108
[2]李斌,王劲松,黄玮.一种大数据环境下的新聚类算法[J].计算
机科学,2015.42(12):247-250
[3]李玲俐.一种基于属性分解的FCM融合聚类算法[J].计算机
应用与软件,2013.30(8):65-67
[4]蔡晓妍,戴冠中,杨黎斌.谱聚类算法综述[J].计算机科学,
2008.35(7):14-18
[5]张新有,华燊,贾磊.入侵检测数据集KDDCUP99研究[J].计
算机工程与设计,2010.31(22):4809-4812
[6]KDDCUP99数据集[EB/OL].[2011-11-18].http://blog.
csdn.net/com_stu_zhang/article/details/6987632.
[7]吴建胜,张文鹏,马垣.KDDCUP99数据集的数据分析研究[J].
计算机应用与软件,2014.31(11):321-325
[8]朱正伟.谱聚类研究及其在入侵检测中的应用[D].重庆大学,
2010.
联系方式
随机阅读
热门排行