期刊鉴别 论文检测 免费论文 特惠期刊 学术答疑 发表流程

基于K近邻相似的决策树算法在学生就业管理中的应用(2)

时间:2013-11-30 10:14 文章来源:http://www.lunwenbuluo.com 作者:韦金日 李雪萍 点击次数:


  信息增益偏向于多值属性,信息增益率在此基础上调整了多值属性,但是倾向于不平衡的分裂,而Gini指标不仅偏向于多值属性,而且当类的数量很大时会有困难,并且还倾向于导致相等大小的划分和纯度。考虑到数据集的实际情况,本文采用信息增益率作为属性度量选择方法。二、K近邻相似的决策树算法
  (一)数据的预处理
  在数据挖掘中,数据集的数据好坏对最后的结果有很大的影响,因此很大的一部分精力都要用于数据的预处理。从数据库中导出的原始数据有62个维度,这其中有很多的维度与我们最终要分析的结果无关,为了不让这些数据影响到最终处理结果,因此要手动进行降维,最后要分析的维度为30个维度。其中的类标识是就业单位性质,为了进行数据的处理,将这些不同的类别分别用数字表示,总共有九个类别,分别是无业、自主创业、营企业、国有企业、读书深造、公务员、部队、事业单位与合资企业,分别对应着0~8这八个数字。
  由于选择的剩余29个维度都是分类属性的数据,因此不需要进行数据的离散化,但是需要对这些数据进行数值化的处理,每个属性的值为P■(i=1...n),其中n是每个属性含有的不同的分类属性值。
  (二)K近邻相似的决策树算法
  数据集中有一些缺失的数据,因此需要对这些缺失数据进行填充,通常处理缺失数据的方式是设定一些默认值或者取某个属性的众数,但是这样会造成最终数据的失真率比较高,因此本文采用一种近邻填充缺失值的方法:对于特征空间中的每个训练实例xi,距离该点比其他点更近的所有点组成一个区域,叫作单元。每个训练实例点拥有一个单元,所有训练实例点的单元构成特征空间的一个划分。最近邻法将实例xi的类yi作为其单元中所有点的类标记,其中每个区域中有k个实例。
  采用余弦相似函数作为两个不同实例的距离度量,将每个实例看作是一个向量,将每个属性的值看作向量的一个元素,两个向量分别记作X和Y,X和Y的距离为,其中和分别是向量X和Y的范数,取与每个向量最接近的k个向量,本文中k设为100,对缺失值做以下的处理:找出k个向量中当前属性下有值的n个向量,缺失值填充为这n个向量当前属性的和的n分之一。当填充完所有的缺失值之后,就进行决策树的构建。采用经典的C4.5算法来构建决策树,并通过信息增益率进行每次的分裂属性选择。
  三、结果分析
  (一)实验环境及软件
  本文的实验环境如下:Intel(R)Core(TM)i7CPU,4G内存,500G硬盘;开发语言为Java,环境为JDK1.6,编程工具为Eclipse;所用数据库为:MySQL5.5.10。
  (二)数据属性和数据集
  数据来源于学校学生管理信息系统中的实际数据,由于某些数据对我们的目标没有帮助,所以在实验前必须对所需数据进行归纳整理。选取的数据集中含有三年的数据,因此将前两年的数据作为训练数据,第三年的数据作为预测数据。总共的样本大小是9598,其中训练集大小是6308,测试集大小是3295。
  样本的维度总共有25个,分别是学号、入学时间、毕业时间、性别、民族、政治面貌、考生类别、生源地、系部名称、班级、专业方向、家庭经济情况、个人身高、个人特长、在校任职、所获奖励、能力证书、就业意向、意向月薪、学籍变动、就业时间、就业形式、就业区域、派遣单位名称和就业单位性质。
  其中的个人身高需要进行离散化的处理,将具体的身高划分为150~155、156~160、161~165、166~170、171~175、176~180以及180以上这七个类别,由于其中有些数据在统计时缺失了,因此使用本文提出的K近邻相似进行缺失值的填充。对于就业意向和意向月薪也进行类似的处理。
  通过程序分别计算每个属性的信息增益率,由每个属性的信息增益率大小可知,专业方向的信息增益率最大,从而将专业方向作为决策树的根节点。分别进行迭代计算可以构建出整个决策树。
  (三)实验结果
  通过采用众数进行缺失值填充和采用最近邻法进行填充的预测效果进行比较,如表所示:
  通过数据可以发现,使用了最近邻填充缺失数据的方法精度有了比较大的提高,因此证明本方法是切实有效的。
  不过,由于进行k近邻比较的时候需要两层扫描训练集,其复杂度达到了O(n■),因此需要借助于MapReduce进行并行化的操作。
  四、结论
  在目前就业形势严峻的环境下,本文将K近邻相似的决策树算法应用于高校就业,挖掘学生数据与就业有关的关系,为就业指导提供决策依据。利用这些预测信息,学生可以合理规划就业方向,学校就业指导者可以在毕业生就业宣传,就业计划投放等方面做出正确的决策,提高学生的就业率、增强学校竞争力。
  [参考文献]
  [1]金莹.决策树算法在高校学生就业中的应用研究[D].合肥工业大学计算机与信息学院,2009.
  [2]张嘉赢.基于数据挖掘技术的高校毕业生就业管理信息系统的设计与实现[D].东北大学信息科学与工程学院,2009.
  [3]贺爱香,袁雪松.C4.5决策树算法在应用型本科高校就业管理中的应用研究[J].滁州学院学报,2012,14(5).
  [4]李航.统计学习方法[M].北京:清华大学出版社,2012.
  [5]JiaweiHan,MichelineKamber.DataMiningConceptsandTechniques,SecondEdition[M].范明,孟小峰,译.北京:机械工业出版社,2007.
  [6]S.B.Kotsiantis.Decisiontrees:arecentoverview[J].ArtificialIntelligenceReview,2013,39,261-283.

  •   论文部落提供核心期刊、国家级期刊、省级期刊、SCI期刊和EI期刊等咨询服务。
  •   论文部落拥有一支经验丰富、高端专业的编辑团队,可帮助您指导各领域学术文章,您只需提出详细的论文写作要求和相关资料。
  •  
  •   论文投稿客服QQ: 论文投稿2863358778 论文投稿2316118108
  •  
  •   论文投稿电话:15380085870
  •  
  •   论文投稿邮箱:lunwenbuluo@126.com

联系方式

  • 论文投稿客服QQ: 论文投稿2863358778
  • 论文投稿客服QQ: 论文投稿2316118108
  • 论文投稿电话:15380085870
  • 论文投稿邮箱:lunwenbuluo@126.com

热门排行

 
QQ在线咨询
咨询热线:
15380085870
微信号咨询:
lunwenbuluoli