期刊鉴别 论文检测 免费论文 特惠期刊 学术答疑 发表流程

基于密度和层次的快速聚类算法在数据挖掘中的设计及实现

时间:2013-08-28 13:39 文章来源:http://www.lunwenbuluo.com 作者:张艳 点击次数:

  1前言

  聚类其实就是将数据对象分组成多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。

  基于密度的DBSCAN聚类方法能够发现任意形状的聚类结果,这类方法将簇看作是数据空间中被低密度区域分割开的高密度对象区域。但是,该算法的时间复杂性是O(n2),用这种复杂度的算法聚类大型数据库是不太现实的。层次聚类CURE算法选择基于质心和基于代表对象方法之间的中间策略。使用CURE形成代表点的思想来形成DBSCAN算法所需要的m(m<2基于密度和层次的快速聚类算法设计

  多维空间与二维空间的距离计算相似,为了方便地描述算法,在本文中以二维空间为例来分析基于密度和层次的聚类算法。

  本算法采用的是凝聚的层次聚类方法,即自底向上的方法。该凝聚过程由三层组成,如图1所示。最底层所有的数据对象被视为各自处于一个簇中,作为该算法的输入参数。将整个数据集中的数据凝聚为以候选代表点为中心的一个个集合,并通过密度阈值筛选,去掉一些过稀疏的候选代表点,如图中代表集和“ab”的代表点,留下的代表点即为排除孤立点的中间层聚类结果。论文发表最高层,也就是最终的聚类结果层,它是在中间层的基础上,将邻接代表点聚类形成的簇,一个簇中由多于一个的代表点构成,使得它能够适应非球形的几何形状。

  算法的具体设计如下:

  (5)将新的矩阵U作为输入对象进行检测,如果U为被处理(归为某个簇或者标记为噪声),则检查其邻域,若包含的对象数不小于,建立新簇C,将中所有点加入C。

  (6)对C中所有尚未被处理的对象q,检查其邻域,若中至少包含个对象,则将中未归入任何一个簇的对象加入C。

  (7)重复步骤6,继续检查C中未处理的对象,知道没有新的对象加入当前簇C。

  (8)重复步骤5-7,直到所有对象都归入了某个簇或标记为噪声。最终得到以Cl作为类代表点的聚类为C。

  3快速聚类算法在数据挖掘中的实现及分析

  3.1算法实现

  3.2聚类效果的比较

  测试数据集是某公司的客户信息数据库,数据量为181200。实验的硬件环境是PC计算机,CPU为PⅣ2.0G,内存为256M;软件环境是:操作系统为WindowsProfessional2000,编程环境VisualC++6.0。

  4结束语

  本文以改进当前已存在的聚类算法的效率与效果为目的,在对现存算法进行大量的学习与研究的基础上提出了一种基于密度和层次的快速聚类算法。为了对该算法进行透彻的分析与试验,构建了基于该算法进行聚类的数据挖掘系统。从试验的结果来看,本文算法达到了与DBSCAN相近的聚类效果,达到了良好聚类的标准:发现任意形状簇、处理噪声数据的能力。通过理论分析和试验结果数据表明将该算法推广到实际应用中是可行的。

  参考文献

  [1]叶培松,顾国松.数据挖掘中密度聚类算法研究[J].福建电脑,2010(03):224-225.

  [2]刘兴波.凝聚型层次聚类算法的研究[J].科技信息(科学教研),2008(11):34-36.

  [3]张勇,丁建林.赛博空间态势感知技术研究[J].信息网络安全,2012,(03):42-44.

  [4]吴轩亮.三网融合下城域网DDoS攻击的监测及防范技术研究[J].信息网络安全,2012,(03):45-48.


  •   论文部落提供核心期刊、国家级期刊、省级期刊、SCI期刊和EI期刊等咨询服务。
  •   论文部落拥有一支经验丰富、高端专业的编辑团队,可帮助您指导各领域学术文章,您只需提出详细的论文写作要求和相关资料。
  •  
  •   论文投稿客服QQ: 论文投稿2863358778 论文投稿2316118108
  •  
  •   论文投稿电话:15380085870
  •  
  •   论文投稿邮箱:lunwenbuluo@126.com

    联系方式

    • 论文投稿客服QQ: 论文投稿2863358778
    • 论文投稿客服QQ: 论文投稿2316118108
    • 论文投稿电话:15380085870
    • 论文投稿邮箱:lunwenbuluo@126.com

    热门排行

     
    QQ在线咨询
    咨询热线:
    15380085870
    微信号咨询:
    lunwenbuluoli