期刊鉴别 论文检测 免费论文 特惠期刊 学术答疑 发表流程

云数据管理系统中查询技术研究综述(上)(3)

时间:2016-03-01 14:55 文章来源:http://www.lunwenbuluo.com 作者:史英杰 孟小峰 点击次数:


  查询容错是指一个查询运行过程中出现了硬件错误,该查询不必重新开始.传统的关系数据库系统一般不保证查询容错.云数据管理系统把硬件错误看成一种常态,它同时保证数据容错和查询容错.因为云平台上硬件错误率较高,如果每次出现错误都需要重启查询,那么一个耗时较长的查询很可能无法完成.从服务方式来看,传统关系数据库是一种pay-before-yoirgo的方式,即通过需求分析设计数据库模式并构建数据库软硬件,并在较长时间内保持相对稳定,因此查询优化的目标是在已有的软硬件环境下获得最好的查询性能.而云数据管理系统是一种paya-yoirgo的方式,用户根据使用的计算资源和存储资源向服务提供商付费,因而查询优化的目标是如何利用更少的计算资源获得用户期望的查询性能.从查询接口和查询优化技术来看,关系数据库支持复杂的SQL语言,而且查询优化技术也非常成熟.相比之下,现有的云数据管理系统支持的查询语言比较匮乏,而且已有的查询优化技术主要集中在基于规则的优化,因此在这两个方面亟待加强。
  3云数据管理系统中查询技术研究
  作为一种新型数据管理技术,云数据管理系统的研究仍处于起步阶段.这种新兴的数据管理技术可以扩展到大量廉价节点上,为用户提供按需所取、高性价比的数据管理服务.本节首先提出云数据管理系统的整体框架,然后从数据存储与索引技术、查询处理及优化、在线聚集几个方面对云数据查询相关工作和研究成果进行分析总结.
  3.1云数据管理系统基本框架
  为了有效管理海量、种类多样的云数据,并提供"按需所取"的云服务,云数据管理系统必须具有可扩展性、可裁剪性、可用性以及在异构环境中运行的能力.这使得云数据管理系统在面临查询处理、查询优化和索引管理等问题时采用不同于传统数据库的全新解决方法.同时,一些在传统数据库中提出但是没有得到广泛应用的研究问题在云环境下显现出重要的意义,例如查询进程估计和在线聚集等.目前已有的数据管理系统大都面向某一类特定应用,因此系统架构和实现方式各有不同.我们结合云计算中数据管理应用的特点以及数据查询处理的目标,提出了云数据管理系统的整体架构。
  (1)应用接口层.负责接收用户提交的请求并交给查询处理层相应的模块进行处理.提供查询语言接口、用户自定义接口UDF(key/value操作)、数据分析和在线聚集等应用.用户不仅可以通过查询接口和UDF接口进行数据操作,还可以通过可视化工具执行数据分析和在线聚集。
  (2)查询处理层.对上层提交的查询语句进行解析和逻辑优化后转化成操作符树,进而生成MapReduce执行计划;如果上层提交的是用户自定义操作,则直接生成MapReduce执行计划.如何根据查询类型和数据分布等信息生成合适的查询计划,以及如何利用云数据的特点对查询计划进行逻辑优化是查询处理层的主要任务,也是云数据管理领域备受关注的研究问题。
  ()数据控制层.该层主要负责3个方面的工作:利用全局索引和元数据信息进行数据定位;备份数据的一致性处理和数据迁移;在线聚集过程中进行数据采样和进程估计.数据层涉及到查询执行和在线聚集的核心部分,目前的研究工作主要围绕查询处理优化、索引构建、数据采样和查询结果估计。
  (4)数据存储层.负责数据的实际存储以及在各节点范围内数据的索引设计、缓冲区管理和曰志管理.存储层的节点可通过多种方式组织,例如主-从结构或者点对点结构等,主要通过不同的通信协议体现.无论采用哪种结构,数据都被分区到多个节点存储.如何在保证数据分布均衡的情况下提高每个节点上数据存取的效率是存储层必须解决的问题。
  (5)服务管理模块.负责元数据的管理、操作管理和系统监控.元数据管理部分为查询处理层提供访问接口,同时保证元数据与数据模式之间的一致性.操作管理主要面向数据控制层,包括数据读写锁机制、容错机制以及负载均衡.系统监控模块从数据存储层收集监控信息,并通过图形界面将其展示给用户.资源分配模块负责管理系统中的负载,节点能够被动态地添加或删除以适应工作负载的变化。
  3.2云数据管理系统关键技术研究
  依据云数据管理系统的整体框架,可以看出云数据的查询领域存在许多研究问题:数据存储与索引设计、基于MapReduce的查询处理、查询优化、在线聚集过程中的数据采样与置信区间计算等.目前索引管理、查询处理、查询优化以及在线聚集等问题已经得到了初步的研究,本节对目前已有的相关工作进行分析总结。
  3.2.1索引技术
  现有的云数据管理系统大都以key-value方式存储数据,能够提供基于键值的快速查询,但是对于非键值的查询只能通过全表扫描来完成.尽管可以通过MapReduce实现并发扫描,但是面对海量数据,对于选择度比较高的查询来说,全表扫描的效率仍然比较低.目前很多学者对云数据管理系统中的索引技术进行了研究.根据索引的实现方式,本文把已有的索引分成3类:双层索引[17-21、二级索引①②[22]和基于线性化技术的全局索引[23]。
  (1)双层索引
  云数据管理系统中的双层索引框架由Wu等人[17]在2009年提出,后续双层索引方案的研究工作大都基于该框架,其结构如图2所示.索引由局部索引和全局索引两部分构成.为每个节点的数据建立局部索弓I,该索引只负责本地节点上的数据.除局部索引外,每个计算节点还要共享一部分存储空间来存储全局索引.全局索引依据局部索引构建,由于存储空间的限制和查询效率的要求,并不是所有的局部索引都发布到全局索引中,而是按照一定的规则对索引节点进行选择。

  •   论文部落提供核心期刊、国家级期刊、省级期刊、SCI期刊和EI期刊等咨询服务。
  •   论文部落拥有一支经验丰富、高端专业的编辑团队,可帮助您指导各领域学术文章,您只需提出详细的论文写作要求和相关资料。
  •  
  •   论文投稿客服QQ: 论文投稿2863358778 论文投稿2316118108
  •  
  •   论文投稿电话:15380085870
  •  
  •   论文投稿邮箱:lunwenbuluo@126.com

联系方式

  • 论文投稿客服QQ: 论文投稿2863358778
  • 论文投稿客服QQ: 论文投稿2316118108
  • 论文投稿电话:15380085870
  • 论文投稿邮箱:lunwenbuluo@126.com

热门排行

 
QQ在线咨询
咨询热线:
15380085870
微信号咨询:
lunwenbuluoli