期刊鉴别 论文检测 免费论文 特惠期刊 学术答疑 发表流程

云数据管理系统中查询技术研究综述(上)(2)

时间:2016-03-01 14:55 文章来源:http://www.lunwenbuluo.com 作者:史英杰 孟小峰 点击次数:


  2.1云数据管理系统的应用场景
  与传统的关系数据库相比,云数据管理系统具有良好的扩展性和容错性,利用云计算平台中大规模计算资源和存储资源管理海量异构数据,为用户提供高性价比的数据管理方式.目前云数据管理系统在实际生产环境中得到了广泛的应用,主要集中在两个方面:海量数据分析和大规模Web数据管理。
  数据分析主要用于生成报表、数据挖掘和决策支持等.与事务型数据处理不同,在分析型的数据处理中,数据是一次写多次读的,更新操作较少.数据分析可以在并行数据库上完成,但是随着数据规模的扩大以及对性能要求的提高,并行数据库系统的维护需耗费大量的资金及人力.云数据管理系统在扩展性和性价比上均占有天然的优势,其中类BigTable系统[7](BigTable、HBase②、Hypertable?)、HadoopDB[8]和Hive[9]等支持MapReduce框架的系统是面向数据分析型应用的。
  随着Web2.0技术的发展,超大规模和高并发的社交网站逐渐兴起,参与人数迅速攀升.以微博网站Twiter为例,2010年2月用户每日发送的微博数量是5千万,而到了2011年3月用户每日发送的微博数量达到1亿4千万④,用户和网站交互产生大量动态信息.这种海量Web数据管理应用要求数据库能够满足高并发的数据读写和高效实时的数据访问,同时要求数据库具备可扩展性以应付数据的不断快速增长.关系数据库在这些需求面前显得力不从心,云数据管理系统则以灵活的扩展性和高性能的数据读写受到Web2.0网站的青睐,其中Cassandra、CouchDB⑥和PNUTS[4]等系统广泛应用在Face-book、Twitter和Yahoo!等大型网站中。
  2.2云数据的特点
  云计算将大量用网络连接的计算资源进行统一管理和调度,以服务的方式为用户提供计算资源、存储资源和软硬件资源,其最鲜明的特点是可扩展性、高可用性和按需服务性.云计算环境中存储和管理的数据具备如下特点[1,8,10-11]:
  (1)海量性.随着移动设备的普及、传感器技术的发展以及社交网络的扩大,云计算平台存储和管理的数据量十分庞大,了B级别和PB级别的数据规模十分常见。
  (2)种类多样性.随着Web2.0的兴起,互联网应用不断推陈出新.一些新兴应用领域(微博、社交网络等)所处理的数据除了传统数据库里的结构化数据,还包括半结构化数据和非结构化数据,使得云计算平台中的数据种类纷繁多样。
  (3)异地备份.数据的高可用性是云计算的重要特征之一,而这种面临软硬件错误的高水平容错性是通过对用户透明的数据异地备份实现的。
  云数据的特征导致了传统的关系数据库无法满足其多样化的应用需求.云数据管理系统必须提供灵活的数据模型以有效管理多样化的数据,并针对数据分布和冗余的特性设计相应的存储方式和查询优化策略,从而向用户提供"按需所取"、可靠的、高性能的数据存取与查询服务。
  2.3云数据查询处理的目标
  为了提供高效可靠的云数据管理服务,云数据的查询处理技术需要达到以下目标
  (1)可扩展性.云平台的规模大小不一,小的私有云平台规模为十几个节点,大的公有云平台规模可达到几千个节点①[15].此外,云计算提供的是一种"按需计费"的服务方式,随着应用需求的变化,云平台的规模也会发生变化.这就要求云数据管理系统中的查询处理及优化算法具备良好的扩展性,不仅能够扩展到庞大规模的云平台上,而且能够实现资源的可动态增长及其带来的性能提升。
  (2)可用性.云平台由大量廉价计算机构成,与高性能服务器构成的分布式系统相比,云平台的硬件出错率较高.云数据管理系统需要将软硬件错误看成系统运行的常态,错误发生时既要保证数据不丢失,又要保证数据的读写操作能够正常进行。
  (3)在异构环境运行的能力.随着应用的发展以及数据量的不断增长,云平台势必要通过增加新的节点来提高计算和存储能力.因此,保证一个云平台中所有节点的硬件配置同构是非常困难的.即使在一个硬件配置相同的环境中,不同节点的软硬件性能也会出现波动[16].云数据的查询技术要有在异构环境运行的能力,从而避免性能较差的节点影响整个系统的运行效率这种"木桶效应"的出现。
  (4)丰富灵活的用户接口.一方面,云数据管理系统要提供SQL接口,这样习惯于关系数据库查询语言的用户不必重新学习新的接口或者编程方法,而原来基于关系数据库的各种应用也可以平滑的转移到云上;另一方面,云数据管理系统还要提供UDF(UserDefinedFunction)接口,用户可以根据业务需求自己定义数据查询操作。
  (5)高效的数据存取性能.云数据管理系统的软硬件成本远远低于高性能分布式数据库,其处理海量数据的效率也是云计算用户关注的重要问题.云数据管理系统应当针对云数据的特点设计数据分布策略和查询优化相关算法,从而提高其管理海量数据的能力。
  云数据管理系统可以通过云计算平台的资源虚拟以及MapRedUCe[15]框架的使用而得到良好的扩展性和可用性,也可以在并行任务调度过程中采取投机任务(speculativetask)[16]等措施保证其在异构环境中运行的能力.从支持的查询接口看,目前大部分云数据管理系统只提供了简单的数据存取接口或者极小化的查询语言,这限制了其对复杂数据查询和分析的支持.从查询性能来看,目前云数据管理系统的查询优化主要针对键值进行,而对非键值的查询主要是依靠批量的全表扫描.因此,用户接口和查询性能是目前云数据管理系统亟待提高的两个方面。
  2.4云数据管理系统中查询处理的特征
  传统关系数据库中的查询技术无法同时满足上节提到的目标,特别是可扩展性和可用性.现有的云数据管理系统的查询技术和传统关系数据库系统的查询技术在处理的数据类型、容错性和支持接口等方面表现出明显差异,表1从多个方面对二者进行了对比。
  传统关系数据库的查询主要面向结构化数据,其数据模型基于关系模型.云数据管理系统处理的数据对象除了结构化数据,还包括半结构化和非结构化数据,其数据模型包括key-value模型、文档模型和简化的关系模型[3+9].之所以称其为简化的数据模型是因为它虽然以表的形式管理数据,但不提供实体完整性和参照完整性.除此以外,关系数据库的数据模型是一种模式优(schema
-fcst)的逻辑结构,即在数据入库之前设计好数据模式.而云数据管理系统中的数据模型是从数据到模式(from-data-to^schema)数据模式可以是松散的、滞后的,可以在数据入库时根据数据内容定义数据模式。

  •   论文部落提供核心期刊、国家级期刊、省级期刊、SCI期刊和EI期刊等咨询服务。
  •   论文部落拥有一支经验丰富、高端专业的编辑团队,可帮助您指导各领域学术文章,您只需提出详细的论文写作要求和相关资料。
  •  
  •   论文投稿客服QQ: 论文投稿2863358778 论文投稿2316118108
  •  
  •   论文投稿电话:15380085870
  •  
  •   论文投稿邮箱:lunwenbuluo@126.com

联系方式

  • 论文投稿客服QQ: 论文投稿2863358778
  • 论文投稿客服QQ: 论文投稿2316118108
  • 论文投稿电话:15380085870
  • 论文投稿邮箱:lunwenbuluo@126.com

热门排行

 
QQ在线咨询
咨询热线:
15380085870
微信号咨询:
lunwenbuluoli