时间:2016-12-01 14:16 文章来源:http://www.lunwenbuluo.com 作者:肖钰麟 田新 点击次数:
3.物联网数据处理的变化与挑战
通过物联网传感器产生的数据以指数级速度增加。数据的异构性、规模性、及时性、复杂性和数据隐私问题阻碍了数据从采集到创造价值各个进展的所有阶段。加上数据正日益变得更加多样化、复杂化和去结构化,对数据的迅速处理己势在必行。满足这样的需求对传统数据库构成了巨大的挑战。它需要巩固电子基础设施平台,以确保研究连续性和跨学科协作、提供持续的服务,与之适应的治理模式,还有升级所需的架构满足这些需求。这种大数据根本上的需求需要大规模分布式架构和大规模并行处理管理和分析数据。
巨大的物联网数据被3个主要数据库管理:收集数据库、查询数据库和管理数据库。所有这些主要的挑战是数据通信。通信成本远远高于处理成本,通信成本最小化,同时满足额外的存储和数据需求。网络带宽和延迟是网络2个主要的性能,网络性能将影响客户端和数据服务器间的通信。
4.大数据管理相关技术
相关研究人员在大规模数据管理方面已作了大量的工作。冈萨雷斯提出RFID-Cuboids模型,存储大规模RFID数据。也有许多作者提出一对一的模型和多对多模型存储的WSN(无线传感器网络)数据。为管理从不同设备提取的异构数据,杨斌提出了基于SOA(面向服务的体系结构)的物联网数据管理解决方案,但是,SOA架构应用程序的效率可能会降低。此外,上述解决方案的主要缺点是,它们只对特定的数据格式,缺乏系统性。针对大规模物联网数据处理的挑战,杨斌工作组集中关注其系统性方面,提出基于SOA物联网数据的框架来支持大规模物联网数据管理。但是丁治明解决方案的核心是RDBMS(关系数据库管理系统),尽管联合运算避免所有的数据存储在一个表中,但不支持并发控制,因为RDBMS采用了加锁机制。
Tingli Li提出了基于NoSQL的物联网存储管理架构,被称为IOTMDB,满足了物联网数据存储的需求。IOTMDB不仅关注如何合理和有效地存储大量的物联网数据,而且还关注到数据共享和协作。结合RNS物联网公共服务平台和基于本体的数据抽象,能够轻松地搜索和定位数据,最终实现不同的物联网应用程序之间的数据共享。物联网数据存储策略包括预处理机制和数据分布策略,以满足通用需求、特定需求和统一数据表达的需求。这些策略有利于提高数据聚集和存储的有效性。
目前占主导地位的大数据技术商业化代表是Apache的Hadoop和NoSOL。NoSQL数据库(Not Only SOL意为“不仅仅是SQL”)通常被认为是一项全新的非关系型的数据库,可以为大数据建立快速、可扩展的存储库,具有实时事件检测过程;也可以被看作是数据分析功能的促成技术,如上下文搜索应用程序。因为NoSQL模型具有灵活性,该模型可以根据数据的范围和格式,自动识别查询的维度,而不是由开发人员预先确定。这对数据科学家和业务数据分析师来讲尤其重要,他们通常在数据分析的初期使用这种敏捷的方法进行推测,以免使用的常规的方法信息被掩盖或受限制。
Hadoop是数据密集型的分布式应用程序软件框架,根据大量公开发表的学术论文,由谷歌公司研究并行处理领域的科研人员开发。Hadoop有2个主要组件:一个是Hadoop文件系统(HDFS)。一个高度可扩展的、便携式文件系统来存储数据;另外一个是Map-Reduce(映射一归约)模式。使用并行编程模型来处理数据。使用Map-Reduce模式框架允许分析数据分布式和高度可扩展性,并且Hadoop生态系统包括一系列工具来简化分析或管理更大规模的数据。这些工具创建Map-Reduce模式程序然后在HDFs系统中执行。分析工具主要包括:(1)Apache Hive接口工具。Apache Hive是数据仓库工具,提供一个简单的类似SQL的接口,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduee任务进行运行。(2)Apache Pig高级过程语言。该语言适用于Hadoop和MapReduee平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似SQL的查询,Pig可以简化Hadoop的使用。(3)Apache Mahout数据挖掘。通过灵活的机器学习来构建智能应用程序,进行数据分析。
Hadoop是专为大规模数据设计开发的软件,面向批处理,一个简单的查询可能仅需要几分钟就可返回结果。在典型的面向大数据分析环境中,数据专家使用这一系列工具,首先会选择通过一些小的数据集,把它以某种方式进行转换,然后与数据仓库中关系数据进行组合,进行数据分析。大数据分析通常具有探索性和迭代性特征,与传统信息管理案例相比可能需要更多的自由。
Hadoop提供了使用Map-Reduce模式框架这种基本功能分析数据,以及其他一系列的分析工具,同时,在每个分析过程中Hadoop还需要一个预备步骤。另外,Hadoop低成本的数据存储模型有助于提供一个数据池,这些数据池的每一项价值对组织来讲可能是有限的,但对于任何给定的业务问题可能每一项都是不可或缺的环节。数据可能被选中、转换和加强,然后转移到另外一个相关设备,与企业传统数据进行组合,执行更多的互动分析。Hadoop面向批处理,为了支持实时交互,要求其他技术也要同时具备。当前,这一领域最常见的技术是复杂事件处理(CEP)、内存分布式数据网格、内存数据库和传统的关系数据库。NoSQL数据库等相关技术也支持这些新技术,要么用于Hadoop集群的顶层使用,要么在特定的数据存储层使用。
5.结论
在海量数据的推动下,人们正进入一个研究异构计算驱动的新纪元。大数据的异构性、规模性、及时性、复杂性以及隐私问题成为数据创造价值进展过程中的阻力。设计一个可扩展的系统,在灵活并行性、灵活分区和灵活可扩展性方面进行开创性研究,以实现对现实世界数据集的分析、处理和挖掘,这种大规模的数据技术时代将创造出很多令人激动的研究机会和挑战。
联系方式
随机阅读
热门排行