(5)基于多表的在线聚集算法.从聚集结果估计和置信区间的计算来看,已有的相关工作主要侧重在包含一个MapReduce作业聚集查询的OLA算法设计.实际应用中经常涉及到基于多表的复杂查询,他们往往由多个MapReduce作业构成,实现这种查询的在线聚集是一个亟待解决的问题.在传统的MapReduce作业处理流程中,每个操作任务完成后将输出数据写入文件,后面的操作任务才能开始.OLA要求数据以增量的方式进行处理,因此多MapReduce作业的OLA必须在处理过程流水线化的MapReduce上实现.在设计聚集查询处理和置信区间计算算法时还需要结合Map
Reduce以及云计算环境的特点提高在线聚集的处理速度,比如减少混洗过程中数据传输量和reduce阶段的工作,尽量避免增量计算过程中的重复工作等.从数据采样的实现过程来看,样本的随机性和无偏性会直接影响查询结果估计的准确性以及置信区间的收敛速度,已有的研究工作往往假设数据以随机顺序存储或者假设一个随机数据队列的存在,从队头读取数据即可达到随机的效果.然而在实际应用中,数据的存储顺序往往与某个属性相关,如何从这种非随机分布的数据上进行随机采样是在线聚集过程中的一个关键问题.数据的随机采样技术在单机数据库上有很多研究工作[56'64,9-7〇],提出的方法包括堆文件扫描[56]、索引扫描[64]、伯努利模型采样[69]等.云计算环境下数据分布在大量节点上,而且数据的读写以块为单位进行,这些特点增加了随机采样的难度,值得深入研究.文献[0]针对直方图估计提出了以数据块为单位的采样方法,并利用交叉验证的思想推导出估计值的准确性与样本大小和数据分布的关系公式,其思想可以借鉴到云数据在线聚集的采样算法中.不同之处是该文献提出的算法是一个一次性采样的过程,而在线聚集要求采样算法是在线并且增量的过程,即它能够保证样本大小平缓增长而且时刻保持随机的顺序.在线采样过程中不仅要保证数据随机性,还必须保证每步采样的数据与已采样本数据不重复,这也是算法设计中必须考虑的问题。
5结论
随着信息产业的不断发展,计算机要处理的数据规模呈指数级增长,各种应用对数据管理的需求也变得多样化,统一而复杂的关系数据库已经不能满足纷繁多样的应用.云数据管理系统为海量数据管理提供了一种高性价比的解决方案,日益成为学术界和工业界共同关注的热门问题.本文对近几年国内外在云数据查询领域的主要研究成果进行了总结,综述了云数据管理系统中查询技术若干主要问题的研究现状,包括云数据的索引管理、查询处理、查询优化以及在线聚集等,并对相关技术进行了深入的对比分析,最后指出仍然存在的问题和可能的解决办法.总的来说,云数据管理系统中查询技术的研究仍然处于刚刚起步的阶段,仍然有大量具有挑战性的关键问题需要深入研究,为国内的数据库研究者提供了广阔的研究空间。
参考文献
[1]
AbadiDJ. Data management in the cloud: Limitations and opportunities. Bulletin of the IEEE Computer Society Tec^h- nical Committee on Data Engineering,2009,32(1) : 3-12
[2]
Zhou Ao-Ying. Data inl^ensive computing-challenges of data management techniques. Communications of CCF, 2009, 5(7): 50-54(in Chinese)
[3]
ChangF,Dean J,Ghemawat S,Ilsieh W C,Wallach D A, Burrows M,Chandra T,Fikes A, Gruber R E. Bigtable: A distributed storage system for structured data//Proceedings of the 7th Conference on Symposium on Operating Systems Design and Implementation(OSDI2006). Seattle,2006 : 7-15
[4] Cooper B F,Ramakrishnan R,Srivastava U,Silberstein A, Bohannon P, Jacobsen II,Puz N, Weaver D,Yemeni R. PNUTS: Yahoo! ?s hosted data serving plat!orm//Proceed- ings of the 34th Conference on Very Large Databases (VLDB2008). Auckland,2008: 1277-1288
[5]
Pavlo A,Paulson E,RasinA,Abadi D J,DeWitt D J,Mad- den S" Stonebraker M. A comparison of approaches to large - scale data analysis//Proceedings of the 2010 International Conference on Management of Data (SIGMOD2009). Rhode Island,2009: 165-178
[6]
Stonebraker MJ,Abadi D,DeWitt D J,Madden S, Paulson E,Pavlo A,Rasin A. MapReduce and parallel DBMSs: friends or foes? Communications of the ACM,2010,53(1): 64-71
[7] Shi Y,Meng X,Zhao J,IIu X,Liu B,Wang II. Bench marking cloud-based data management systems//Proceeding so the 2nd Workshop on Cloud Data Management(CloudDB2010). Toronto,2010: 47-54
[8]
Abouzeid A, Pawlikowski K B, Abadi D, Silberschatz A, Rasin A. HadoopDB: An architectural hybrid of MapReduce and DBMS technologies for analytical workloads//Proceedings of the 35th Conference on Very Large Databases (VLDB2009). Lyon,2009: 922-933
[9]
ThusooA,Sarma J,JainN,Shao Z,Chakka P,Anthony S, Liu II,Wyckoff P, Murthy R. Hive: A warehousing solution over a map-reduce framework//Proceedings of the 35 th Conference on Very Large Databases (VLDB2009). Lyon, 2009: 1626-1629
[10] Robert L G, Yunhong G. On the varieties of clouds for data intensive computing. Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 2009,32(1):44-50