时间:2015-11-02 15:41 文章来源:http://www.lunwenbuluo.com 作者:谢榕 刘亚文 李翔翔 点击次数:
摘要: 建立卫星对地观测数据集成系统是遥感卫星数据信息资源有效管理与应用的重要手段。从我国对地观测重大需求以及前沿科学问题入手,提出大数据环境下卫星对地观测数据集成系统建立中亟待解决的关键技术,包括大容量异构对地观测数据集成的语义技术、基于网格的遥感图像快速处理技术、遥感大数据深度分析技术、多数据中心协同处理及云平台技术,为实现集成卫星图像、地面观测数据和模拟模型的元数据管理、几何精度纠正和卫星数据质量评价、海量卫星图像数据的空间分析与知识发现、分布式高性能卫星图像数据管理和归档等基本功能,为解决海量卫星数据分布式存储与计算、数据集成与互操作、空间数据分析与地学知识发现提供新思路、新技术与新方法。
关键词: 卫星观测数据集成系统; 语义技术; 网格计算; 大数据深度分析; 云平台中图分类号: P208 文献标志码: A 文章编号: 1001-8166( 2015) 08-0855-081 引言
世界各国相继发射各类遥感卫星,全球对地观测高分时代到来,卫星遥感对地观测范围越来越广泛,覆盖水与能量循环、陆地、海洋等多方面[1],并由此呈现出“三高”特点,即高空间分辨率、高时间分辨率和高光谱分辨率[2]。在经济全球化和网络信息技术飞速发展的背景下,快速获取、高效处理和有效应用对地观测数据成为世界各国的共同需求[3]。面临卫星遥感对地面观测所形成的地球空间海量信息流,一方面如何对卫星图像、地面观测数据以及各种模拟模型等多源、异构、不同平台的数据进行有效集成,另一方面如何将其中未经加工的数据转变成可供用户直接利用的有价值信息[4,5],建立卫星对地观测数据集成系统正成为遥感卫星数据信息资源有效管理与应用的重要手段[6]。
1. 1 对地观测基础科学问题
在对地观测基础科学问题[2,7]中,卫星图像数据与地面观测数据的有效集成方法是其中主要问题之一。从认知科学来看,研究很大程度上沿着“信号—数据—信息—知识”的数字化信息化过程展开,具有显著的信息学基本特征。同时,从知识工程角度来看,对地观测活动从海量遥感数据的获取、存储、处理,到地学知识分析、发现、分发,也体现出信号传输—数据获取—信息处理—知识呈现”的数据处理生命周期。因此,除地球科学方法论以外,认知理论、信息学、知识工程方法论也对对地观测的研究与应用起着十分重要的指导意义与推进作用。
1. 2 大数据下对地观测研究的技术难点和瓶颈大数据[8 ~ 11]的出现给对地观测研究带来了全新挑战、发展机遇和解决思路[12]。超大规模数据、海量数据、大数据可看作是三代数据管理技术的标签[13]。“超大规模”数据研究重点是数据模型、事务管理、索引技术与查询优化等方面。“海量数据”主要考虑各种非结构化数据有效管理、多数据源集成等问题。而“大数据”的技术难点和瓶颈[14, 15]归纳起来主要表现为以下3 个方面,需要研究更有效、更实用的大数据管理与分析技术。
( 1) 数据量的膨胀。遥感平台技术的进步使得获取的观测数据量大幅度增大。以ZY3 卫星为例,在轨工作期间每天获取的观测数据量可高达10 TB以上。同样,当前大量传感器部署在卫星、飞机等飞行平台上,未来10 年全球天、空、地部署的数百万计传感器每天获取的观测数据将超过10 PB,呈现出显著的大数据“4V”特征,即海量数据规模( Volume)、多样数据类型( Variety) 、动态数据体系( Velocity)和巨大数据价值( Value) 。从对地观测过程的信息学特征可以清晰地看到此领域大数据的发展趋势,需要解决对地观测数据量增大所带来的遥感大数据存储与处理问题[12]。
( 2) 数据深度分析需求的增长。遥感技术发展初期,专业人员通过目视判读对信息进行解译及修正。当观测数据量较小时,传统数据挖掘手段已能成功地解决一定地学知识的定量查询与分析以及单一内容应用服务,但它们不能满足日益增大的观测数据量和日益复杂的应用模式需求。在数据维度和规模不断增大、信息提取精度不断提高的情况下,层级深度与复杂性也随之增大。在大数据深度分析( Deep Analysis) 的挑战下,传统数据挖掘技术的扩展性遇到了前所未有的困难[16 ~ 18],对PB 级以上的大数据分析还需要研究新的方法[19],依赖于计算机处理的数据深度分析新模式的出现以及以数据为核心的知识发现方法来解决分析较大地理尺度上的复杂地学问题。
( 3) 多源数据的高度异构与分散自治。对地观测数据集成的最终目标是建立能使用户直接获取有价值信息的卫星集成数据管理与归档系统。信息化与网络化的飞速发展与深入应用,遍布全球的多个数据观测中心都积聚了巨大的海量数据,它们高度异构、分散自治和动态更新。集成系统的建设涉及到众多领域、众多部门,目前这些子系统、组件和服务被独立开发和部署,协调困难,难以实现卫星遥感信息资源在领域之间和部门之间的交流与共享。如何提供一个高效的数据管理与信息整合的途径或平台,支持分布式环境下这些大规模数据的逻辑关联表达、语义集成、协同综合管理以及共享归档成为迫切需要和亟待解决的难题。
1. 3 国际卫星标准计划
国际标准组织ISO/TC211,OGC( Open GIS Consortium)等正在制定一系列地理信息元数据、卫星图像相关的标准计划[20, 21]来有效地管理地理信息,如ISO 制定了19115 地理信息元数据( Geographic Information-Metadata) 、19115-2 地理信息元数据PartII: 影像和栅格数据的扩展( Metadata Extensions forImagery and Gridded Data) 、19130 地理信息影像与栅格数据的传感器数据模型( Sensor Data Model forImagery and Gridded Data) 、19139 地理信息元数据-XML 模式实现( Metadata-XML Schema Implementation)等; OGC 制定了Topic 15 图像使用服务( ImageExploitation Service) 、Topic 16 图像坐标转换服务( Image Coordinate Transformation Service) 以及地球影像( Earth Imagery Case) 等。然而这些标准并不能完全满足卫星数据集成系统开发的需要,具体表现在:
( 1) 卫星数据模型尚缺乏表达卫星图像数据的地理定位、地理参考等语义信息,特别是缺乏一个统一的卫星图像元数据模型来描述和集成卫星图像、地面观测和仿真模拟等数据。
( 2) 缺乏卫星影像与地面栅格之间的空间对应关系的定义,不能满足地面坐标转换的几何纠正服务功能和精度的要求。
( 3) 缺乏标准化卫星集成数据仓库和知识库,以及集数据集成、空间查询与知识发现为一体的卫星数据分析功能,不能满足为用户自动提取有用信息的应用服务。
1. 4 我国卫星应用现状及主要问题
在我国,卫星遥感信息已成为不可或缺的战略资源和经济资源,未来5 ~ 10 年自主遥感卫星数据将呈爆炸性增长,遥感卫星应用产业蕴藏着巨大的跨越式发展机遇[22]。我国国家重大专项项目“高分辨率对地观测系统”[23]把实施目标确定为全面提升我国自主获取高分辨率观测数据的能力,加快我国856 地球科学进展空间信息应用体系的建设,推动卫星及应用技术的跨越发展。然而,国内对地观测系统建立以及对地观测集成标准化建设的严重不足也直接影响了自主遥感卫星数据的开放利用,存在卫星数据“不能用、不好用、不会用、得不到”等现实问题[24],迫切需要对多源卫星和航空遥感数据、不同平台卫星遥感数据之间、卫星数据与地面观测数据之间进行整合,建立完整的卫星应用技术支撑体系。
针对对地观测的重大需求以及前沿科学问题,结合当今计算机科学与技术领域中大数据应用的最新技术,本文提出大数据环境下卫星对地观测数据集成系统建立与应用中亟待解决的关键技术。
2 卫星对地观测数据集成系统及其总体技术框架
2. 1 卫星对地观测数据集成系统的定义与内涵面临卫星对地面遥感所形成的地球空间海量信息流,对卫星图像数据、地面观测数据以及仿真模型等多源、异构、不同平台的数据进行有效集成,建立能反映地面参数时空变化与信息关联的卫星图像知识库,面向海量卫星数据开发集数据集成、空间查询与知识发现为一体的卫星大数据分析功能,并进行几何精度纠正和卫星数据质量评价,最终形成能使用户直接获取有价值信息的分布式高性能的卫星集成数据管理与归档云平台。
2. 2 基于大数据技术的系统总体技术框架
数据集成系统总体技术框架。卫星观测数据集成系统包括标准化卫星数据集成元数据管理、几何精度纠正和卫星数据质量评价、海量卫星遥感图像数据分析与知识发现、分布式高性能卫星图像数据管理与归档云平台这些基本功能。在系统建立过程中贯穿运用大数据技术体系( 包括大数据存储与管理、大数据计算模式、大数据分析与挖掘) ,其中关键实现技术包括大容量异构对地观测数据集成的语义技术、基于网格的遥感图像快速处理技术、卫星遥感大数据深度分析与地学知识发现技术、基于共享知识库的多数据中心协同处理及云平台技术。充分利用国际标准组织ISO/TC211,OGC 等一系列卫星数据国际标准计划以及国内标准,对它们进行扩展与集成,使得通过建立共同的标准和协议联接全球分布式网络化卫星遥感数据库,确保卫星数据与服务的兼容性和互用性,使所有的卫星遥感数据都可以通过网络实现规范化共享与应用。
3 大容量异构对地观测数据集成的语义技术
对卫星图像、地面观测数据、模型模拟结果等异构数据源数据以及不同数据归档系统之间数据进行有效集成,可建立如图2所示的标准化卫星数据集图1 卫星观测数据集成系统及其大数据技术应用的总体技术框架Fig. 1 Overall technical framework of satellite data integration system based on big data technologies第8 期谢榕等: 大数据环境下卫星对地观测数据集成系统的关键技术857图2 基于语义技术的大容量异构对地观测数据集成Fig. 2 Massive heterogeneous Earth observation data integration based on semantic technologies成元数据模型。基于时空间信息认知模式,通过语义技术,将卫星数据、地面观测数据及仿真模型相集成的通用元数据模型与图像元数据模型进行语义集成,实现对卫星元数据的高效管理。
3. 1 时空间信息认知模式
从时空间信息的认知机理出发,建立一种形式化数据结构方式来表达概念的内涵和外延以及概念与概念之间的不同层次的抽象关系,同时描述时空数据时间、空间概念的形成、时空概念的结构关系。
利用形式化的理论和方法,表达与描述卫星遥感时空数据分析过程中时间、空间概念的形成、时空概念的结构关系,反映遥感数据的时空特点,形成统一框架下“概念—关系”为中心[25] 的认知模式与语义模型。
3. 2 卫星遥感语义模型
地理定位信息是定义图像数据地理定位的重要信息,但这些信息在ISO 19115, 19115-2 中没有得到定义,而ISO 19130 仅支持地理定位和传感器特性。
因此,为了把图像数据运用于地理信息,并能有效地描述图像元数据,需要对ISO 元数据标准( ISO19115,19115-2 ) 进行扩展,并结合ISO 图像标准( ISO 19130) 中的地理定位信息和传感器特性。在ISO 19115, 19115-2 和19130 的基础上,开发卫星数据集成通用元数据模型以及图像元数据模型。通过定义元数据元素公共集、元数据的定义和内在的关联以及元数据的扩展,运用Protégé 工具对卫星数据的抽象结构和内容进行描述,并将不同来源的异构数据映射成一种规范化形式的本体数据类型,构建卫星遥感语义模型。
3. 3 高效卫星元数据管理
大容量异构卫星数据的集成,需要解决卫星数据目录功能复杂性问题,因此建立标准化卫星数据集成元数据模型,对卫星遥感、地面观测、仿真模型等异构数据源以及不同数据归档系统之间数据进行有效集成。一个完整的元数据模型可包含多个元数据包[26],包括主类定义、支撑类定义和描述图像的扩展类定义和特殊类定义。每个元数据包包含一个或多个元数据实体。元数据实体由一系列元数据元素组成。元数据元素可包括3 类成分,即核心元素、特殊类元素和扩展类元素。其中,核心元素定义每个数据集应该包含的元数据最小集; 扩展类元素则定义描述图像的扩展元数据; 特殊类元素包括专业元素和组织机构专用元素。图像元数据类包括元数据集信息、识别信息、数据质量信息、空间信息表示、参考系统信息、内容信息。
在此基础上,采用分布式数据管理架构[27],将元数据分散在多个节点上,以目录为粒度对元数据进行划分,并根据集群负载状况建立目录子树,实现元数据在集群中的合理分布与存储,解决元数据服务器性能瓶颈问题,提高可扩展性。
4 基于网格的遥感图像快速处理技术
快速生产标准遥感产品需要开发系统具有大吞吐量的、高精度的以及自动化的数据处理能力。海量遥感数据的高效处理及其标准产品的快速生成属于数据密集型的计算工作,而传统计算模式无法满858 地球科学进展无法满足这种遥感图像实时快速处理的应用需求,因此,需要充分利用庞大的网络计算资源,通过集群计算、分布式处理等技术来实现网络化大容量数据处理及多机分布式并行处理。基于网格计算模式,开发基于网格计算的图像处理中间件,以及影像处理算法和数据质量评价,可集中实现对海量遥感图像的快速处理及应用。
4. 1 网格计算模式
利用网格技术[28]可以把分散于不同地理位置的计算机集中起来组织成一个虚拟超级计算机,为完成数据密集型的计算任务提供高吞吐量、高性能的计算环境; 同时充分利用网络上一些闲置资源设备及其处理能力,完成传统计算模式下难以完成的各种大数据量的计算任务,保证卫星数据快速处理以及标准产品生成。
4. 2 图像处理中间件
根据用户具体任务以及网格计算资源实际情况,对图像处理任务进行分割管理[29],并将分割任务及其执行任务所需程序和参数提交给中央管理服务器,通过中央管理器分发给网格计算资源中各个节点。完成图像处理后,再将各个计算节点上作业的计算执行结果返回到中央管理节点服务器进行数据合成。在处理过程中,还需要监控网格平台中计算资源的状况,包括工作状态、闲置状态以及各节点上作业执行情况等。
联系方式
随机阅读
热门排行