时间:2016-02-25 10:47 文章来源:http://www.lunwenbuluo.com 作者:赵曦滨,井然哲,顾明 点击次数:
摘要:为了提高入侵检测系统的检测率,降低错检率,在分析现有入侵检测方法基础上提出一种基于粗糙集的入侵检测算法,将粗糙集算法和入侵检测技术结合起来实现系统的安全检测。对收集到的入侵数据进行预处理、数据离散化,属性约简,并依据生成的检测规则来分析入侵数据。实验结果表明:与基于BP(backpropagation)神经网络和支持向量机的入侵检测算法比较,该算法的检测率提高10%左右,能很好地为信息系统提供入侵检测服务。
关键词:粗糙集;计算机网络安全;知识约简;入侵检测;检测规则
随着网络技术的发展和网络规模的扩大,网络安全问题逐渐显露,建立有效的入侵检测系统以保护信息系统的安全变得越来越重要。入侵检测系统(intrusiondetectionsystem,IDS)是对计算机或计算机网络系统中的攻击行为进行检测的自动系统。入侵检测由传统电子数据处理、安全审计以及统计技术发展而来并在很多的安全系统中得到应用。
目前,入侵检测技术得到了很大的发展,但仍存在误报和漏检、缺少自我防御功能、时间性差和协调性低等问题。很多学者提出了改进的方法:把入侵检测看作是区分正常和非正常的过程,提出了基于免疫模型的入侵检测技术;把支持向量机技术应用于入侵检测系统,该方法避免了基于传统机器学习的局限性,保证了较强的推广能力;利用神经网络来提取特征和分类;提出一种强化规则学习的入侵检测方法,将规则学习算法应用到入侵检测模型中,有效降低了误报率;从数据挖掘技术角度探讨了入侵检测的实现问题。
但是,将数据挖掘应用于入侵检测必须依托于大量的数据。利用支持向量机方法训练时间较长,建立入侵检测模型较困难,而采用基于粗糙集的方法进行检测知识约简,能够发现潜在的、有效的检测规则,使系统的检测性能得到了进一步的提高。本文将粗糙集理论和入侵检测技术相结合,通过知识约简产生最小分类检测规则,判断数据和行为的正常和异常情况,从而有效提高检测率,降低错检率,以更好地为入侵检测系统服务。
1、粗糙集理论基础
粗糙集是波兰华沙理工大学Pawlak教授于1982年提出的一种处理不完备信息的方法。它不需要任何先验信息,能够有效分析和处理不完备、不一致、不精确的数据。通过对大量数据进行分析,根据论域中的两个等价关系的依赖关系来剔除相容信息,并抽取潜在有价值的规则知识。该方法已经在知识获取、规则提取、机器学习、决策分析、模式识别、数据挖掘等领域获得了广泛的应用,非常适合安全规则的学习和发现。本文尝试采用粗糙集产生的规则来有效检测用户的数据和发出的行为。
定义1给定集合U和等价关系集合R,在等价关系集合R下对数据集合U的划分,称为知识,记为U/R。
定义2一个给定的知识库是一个关系系统K=(U,R),U为论域,R是U上等价关系的一个族集。令XU,R为U上的一个等价关系。当X能表达成某些R基本范畴的并时,称X是R可定义的,否则称X为R不可定义的。R可定义集也称作R精确集,而R不可定义集也称为R非精确集或R粗糙集。对于粗糙集可以近似地定义,使用两个精确集,即粗糙集的上近似和下近似来描述。
定义3X的R下近似:RX=∪{Y∈U/R|YX}.
定义4X的R上近似:RX=∪{Y∈U/R|Y∩X≠Υ}.知识约简是粗糙集中的核心内容之一,所谓知识约简,就是在保持知识库分类能力不变的情况下,删除其中不相关或不重要的知识。
定义5设QP,若Q是独立的,且ind(Q)=ind(P),则称Q为P的一个约简。P中所有必要关系组成的集合称为P的核,记作core(P)。核与约简有如下关系:core(P)=∩red(P)。
定义6一个知识表达系统是一个四元组S=(U,A,V,f),其中,U:对象的非空有限集合,称为论域;A:属性的非空有限集合;V:∪a∈AVa,Va是属性a的值域;f:U×A→V是一个信息函数,它为每个对象的每个属性赋予一个信息值,即:a∈A,x∈U,f(x,a)∈Va.决策表是一类特殊而重要的知识表达系统。多数决策问题都可以用决策表形式来表达,这一工具在决策应用中起着非常重要的作用。
定义7设S=(U,A,V,f)为一知识表达系统,A=C∪D,C∩D=Υ,C称为条件属性集,D称为决策属性集,具有条件属性和决策属性的知识表达系统称为决策表。
定义8(a,v),(a表示属性值,v表示属性的取值)是原子公式;原子公式也是公式。
定义9如果A和B是公式,那么A,A∪B,A∩B,(A),A→B都是公式。
定义10只有按定义4.8和定义4.9组成的式子是公式。
定义11公式A→B的逻辑含义成为决策规则,A成为规则前件,B称为规则后件,它们表达一种因果关系。其中公式A中所包含的原子公式中只有决策表中的条件属性,B中所包含的原子公式中只有决策表中的结果属性。
2、粗糙集入侵检测模型
本文提出的基于粗糙集的入侵检测模型,先对收集的数据进行数据预处理,选择训练样本,权值离散化,进行决策表属性的约简,产生约简输出规则,从而构造安全系统的规则库,产生入侵检测器,建立初始的检测模型,并在以后系统运行中逐步完善和改进模型,以达到最好的检测效果。
由检测模型可以清楚地看到,入侵检测算法主要涉及以下几个基本问题。
1)入侵数据离散化。入侵检测系统待分析的数据包括网络数据和主机数据,网络数据包的分析是当前入侵检测研究中的一个侧重点。与主机日志数据相比,网络数据更加复杂多样,而基于网络攻击的检测难度也大大增加。为了提高检测的效果,需要对采集到的大量数据进行离散化,离散化方法采用等频率划分的方法。
2)入侵属性约简。对收集的数据集进行属性规整,对入侵检测属性进行约简(即在关系数据库中删除重复的行),去除冗余入侵属性。
3)入侵检测规则的产生。经过属性约简后,将多余的属性值删除即可完成值约简,构建决策表,然后从决策表中导出规则。对形成的规则进行检测和核实,放到规则库,安全检测器根据规则库里的规则进行数据和行为的入侵检测。
3、基于粗糙集入侵检测算法
入侵检测算法可分为2个阶段进行,检测规则生成和检测模型的学习更新,基于粗糙集入侵检测算法思想描述如下:算法基于粗糙集的入侵检测算法输入系统采集到的用户使用数据和行为数据集S={si|si∈UserdataorActdata},表示为粗糙集中的属性集A。
输出数据和行为的检测规则R={r|Wi=>Ci},然后加入到安全规则库K={ki|ki∈IDRBase}。
阶段Ⅰ设置入侵检测规则
步骤1收集入侵数据集S,进行数据预处理,删去重复和多余的属性a0,A=A-a0补齐决策表ST。
联系方式
随机阅读
热门排行