引 言
随着地理空间信息技术的飞速发展,获取数据的手段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、网络、GPS,RS 和 GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器( 重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等) ,具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLEGLASS 和智能手表等) ,使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息( VolunteerGeographic Information) 的出现,使这些普通民众也加入到了提供数据者的行列。
以上各种获取手段和途径的汇集,就使每天获取的数据增长量达到 GB 级、TB 级乃至 PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达 260 TB,并以每年 15 TB 的数据量增长。比如 2011 年退役的Landsat5 卫星在其 29 年的在轨工作期间,平均每年获取8.6 万景影像,每天获取 67 GB 的观测数据。而 2012 年发射的资源三号( ZY3) 卫星,每天的观测数据获取量可以达到 10TB 以上。类似的传感器现在已经大量部署在卫星、飞机等飞行平台上,未来 10 年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过 10 PB。这预示着一个时代的到来,那就是大数据时代。大数据具有“4V”特性,即数据体量大( Volume) 、数据来源和类型繁多( Variety) 、数据的真实性难以保证( Veracity) 、数据增加和变化的速度快( Velocity) 。对地观测的系统如图 1所示。
图1.对地观测系统
在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限,受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将数据“坟墓”变成“知识金块”。这一需求使得数据挖掘在大数据时代再度受到人们的重视。同时,大数据时代的研究方法和数据处理技术也给空间数据挖掘研究的发展带来了新的机遇。
1 传统空间数据挖掘存在的问题
1989 年 8 月于美国底特律市召开的第一届国际联合人工智能学术会议上,首次出现了从数据库中发现知识( Knowledge Discovery in Database,简称 KDD) 。空间数据挖掘研究比一般的关系数据库或事务数据库的数据挖掘研究晚。1994 年在渥太华举行的 GIS 国际会议上,李德仁院士第一次提出了从 GIS 数据库中发现知识( Knowledge Discovery from GIS,简称 KDG) 的概念,并系统分析了空间知识发现的特点和方法,认为它能够把 GIS 有限的数据变成无限的知识,精炼和更新 GIS 数据,促使 GIS 成为智能化的信息系统。从此,空间数据挖掘就成为数据库和信息决策领域的一个重要研究方向,虽然取得了一定的进展,但还有很多问题需要研究。空间数据挖掘的基本过程如图 2 所示。
1.1 空间挖掘理论和算法研究
经过近年来的研究,空间数据挖掘继承和发展相关的基础学科( 如机器学习、统计学等) 已有成果,并探索出独具特色的理论体系,但也存在一些问题,主要表现为以下几点:
1) 多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。
2) 空间数据含有随机不确定性和模糊性,但目前的空间数据挖掘方法对空间数据的不确定性处理还存在一些问题。有的方法根本没有考虑空间数据的不确定性;有的方法考虑了随机不确定性; 有的方法考虑空间数据的模糊性。还没有一种方法既能较好地考虑空间数据随机不确定性又考虑空间数据模糊性。
3) 空间数据挖掘的智能化。目前空间数据挖掘已经应用了人工神经网络等智能算法,但现有的空间数据挖掘系统的智能化程度比较低,还需要进一步提高。例如依据数据的特点自动选择合适的挖掘算法,在此过程中不需要或者需要少量的人工干预。
4) 空间数据挖掘质量评价。空间数据挖掘的知识很多,但挖掘的程度如何、挖掘的效益如何等这些问题目前还没有进行研究。空间数据挖掘结果可能会发现数以千计的模式,其中有些模式是错误的,对于给定的用户,许多模式未必是感兴趣的,因此,如何提供给用户有用的、确定的和可表示性的知识是一个需要研究的课题。
5) 私有性、安全性与空间数据挖掘问题。知识发现可能导致对于私有权的入侵,研究采取哪些措施防止暴露敏感信息是十分重要的。当从不同角度和不同抽象级上观察空间数据时,数据安全性将受到严重威胁。这时空间数据保护和空间数据挖掘可能会造成一些矛盾的结果。
1. 2 空间数据挖掘技术研究
目前,在空间数据挖掘系统研究过程中存在以下问题:
1) 空间数据集成问题。许多空间数据集中包含着复杂的数据类型,如关系型数据、半结构化数据、非结构化数据、复杂的空间数据对象、超文本数据和多媒体数据、时空数据、视频数据、声音数据等,局域网和广域网、国际互联网上更是连接了更多的空间数据源并形成了巨大、变化、分布式、分层、异构的空间数据仓库。具有不同数据语义,来自不同的数据源随时都有可能改变的空间数据集,对空间数据挖掘提出了新的挑战,目前并不存在一个强有力的空间能使数据挖掘系统有效地处理这些复杂的数据类型。
2) 空间数据挖掘系统适用范围有限。国际上最著名且有代表性的通用 SDM 系统有: GeoMiner,Descartes 和ArcViewGIS 的 S_PLUS 接口。以上 SDM 系统的共同优点是可以把传统 DM 与地图可视化结合起来,提供聚类、分类等多种挖掘模式,但它们在空间数据的操作上实现方式不尽相同。Descartes 是专门的空间数据可视化工具,它和 DM 工具 Kepler 两者联合在一起才能完成 SDM 任务。GeoMiner 是在 MapInfo 平台上进行二次开发而成,系统庞大,造成较大的资源浪费。S_PLUS 的局限在于,它是一种解释性语言( Script) ,功能的实现比用 C 和 C + +直接实现要慢得多,所以只能在非常小的数据库中使用。
3) 没有公认的标准化空间数据挖掘查询语言。虽然GeoMiner 在 Oracle Spatial SQL 语言的基础上设计了GMQL( Geo - Mining Query Language) ,方便了空间数据挖掘,但毕竟 GeoMiner 只是加拿大 Simon 大学开发的,原型系统不够成熟,属于实验阶段,并未投入实际应用和后续开发。
4) 空间挖掘方法和用户交互问题。由于不同的用户可能对不同类型的知识感兴趣,空间数据系统应该覆盖范围很广的数据分析和知识发现任务,在相同的空间数据上发现不同的知识,有必要提供交互式手段,开发不同的空间数据挖掘技术。而目前,空间数据挖掘知识发现系统普遍交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好地掌控空间数据挖掘过程。
5) 性能问题。许多现有的空间数据挖掘算法往往适合于常驻内存的、小数据集的空间数据挖掘,而如今大数据时代,大型空间数据库中存放了 TB 级的数据,所有的空间数据无法同时导入内存,所以有效性和可伸缩性是实现空间数据挖掘系统的关键问题。
在大数据时代,以上研究都会遇到数据密集( Data intensity) 、计算密集 ( Computing intensity) 、并发访问密集( Concurrent intensity) 和时空密集( Spatiotemporal intensity) 的问题。海量的、分布的、异构的空间数据给数据挖掘系统的实现带来了难题。处理这些数据的复杂度很高,系统的存储能力、计算能力、并发访问能力很难达到要求,此时传统的单机服务器所能提供的有限资源往往不能满足要求,需要借助分布式计算技术来实现大规模空间数据的存储和并行计算。
2 大数据时代空间数据挖掘进展
云计算( CloudComputing) 是网格计算( GridComputing) 、分布式计算( DistributedComputing) 、并行计算( ParallelComputing) 、效用计算 ( UtilityComputing) 、网络存储
( NetworkStorageTechnologies) 、虚拟化( Virtualization) 、负载均衡( LoadBalance) 等传统计算机技术和网络技术发展融合的产物。它旨在通过网络把多个成本相对较低的计算实体整合成一个具有强大计算能力的完善系统。基于云计算的数据挖掘系统搭建于“云”之上,透明地为各种终端的用户提供界面服务; 为基于该系统开发的程序提供开放接口,用户可以通过其他应用程序调用系统提供的开放接口来间接地使用系统提供的各种服务。用户不需要了解系统是怎样实现的,也不需要担心系统的计算与存储能力,只需要选择合适的算法来处理数据,最终以任务的方式部署给系统区执行,得到数据挖掘的结果。基于云计算的数据挖掘系统设计如图 3 所示。
.
图3.基于云计算的数据挖掘系统设计
2.1 国内进展
1) 数据挖掘系统研究。中国移动研究院研发的基于云计算平台的并行数据挖掘工具( BC - PDM,Blue Carrierbased Parallel Data Mining) ,采用云计算技术,实现海量数
据的存储、分析、处理、挖掘。厦门大学数据挖掘研究中心与台湾铭传大学资讯工程系、中华资料采矿协会合作开发的一套基于云计算的数据挖掘决策支持系统———云端数据挖掘决策系统( MCU Smart Score) 。该系统是厦门数据挖掘研究中心统计与数据挖掘云端系统的部分阶段性成果。基于 Hadoop,中科院计算所研制了并行数据挖掘工具平台 PDMiner。针对海量数据,分别从数据挖掘模式和方法等方面进行相关的研究。与此同时,中科院深圳先进技术研究院还研制了一套分布式数据挖掘系统AlphaMiner。以上这些云端数据挖掘系统只是实现了对事务性海量数据的挖掘,并没有针对空间数据进行设计,还无法高效存储、查询和挖掘空间数据。
2) 数据挖掘算法研究。在一些大学和研究机构,基于 MapReduce 模式的数据挖掘算法研究较多。如大连理工大学李钰研究了空间数据 RkNN 算法,但仅限于低维空间数据。河南工业大学赵广才研究了基于改进 K - means空间聚类算法,但存在模型简单化、聚类结果容易出现误差的问题。
2.2 国外进展
Apache 组织近年来组织了 Mahout 开源项目,设计用于云平台的数据挖掘算法。但 Mahout 项目目前还缺少数据准备、数据展示和用户交互,还不能完全适合海量数据挖掘并行算法的性能评估。SpatialHadoop 由明尼苏达大学计算科学与工程系 Ahmed Eldawy 和 Mohamed F. Mokbel 两人开发,是对开源的 MapReduce 一个扩展,专门用来在 Apache Hadoop 上处理海量的空间数据。SpatialHadoop 内置高级空间查询语言、支持基本空间数据类型( 点、矩形、多边形) 和空间索引( 分为本地索引和全局索引) ,可以高效进行一些空间操作( 范围查询、K 最近邻分类、空间合并) 。但此项目还处在实验阶段,存在支持的数据类型有限、交互性不强、功能单一的问题。以上基于云计算的数据挖掘系统都是基于通用的云计算平台和大数据处理工具开发的,并未在底层设计时考虑到地理空间科学的特点,所以对于空间数据的处理,效果都不是很理想。而且大多基于 Hadoop技术开发,无法完成数据流的实时挖掘处理。
3 结束语
从数据挖掘技术的发展历史看,随着互联网的蓬勃发展,数据的规模越来越大,从 KB 级发展到 TB 级甚至PB 级海量数据; 数据挖掘的对象也变得越来越复杂,从数据库到多媒体数据和复杂社会网络; 数据挖掘的需求也从分类、聚类关联到复杂的演化和预测分析; 挖掘过程中的交互方式从单一的人机交互发展到现在社会网络群体的交互。通过云计算的海量数据存储和分布计算,为云计算环境下的海量数据挖掘提供了新的方法和手段,有效解决了海量数据挖掘的分布存储和高效计算问题。但是,这些云计算平台自诞生之日起,就不是为处理空间数据而设计,所以它们都在底层对空间数据不敏感。2011年由 Yang Chaowei ( 美国乔治梅森大学制图与地理信息科学系) ,Michael Goodchild( 加利福尼亚大学制图系) 等多位学者在《空间云计算: 地理空间科学如何利用和塑造云计算》一文中,定义了空间云计算( Spatial Cloud Computing) ,是指由地理空间科学推动的,并经时空原则优化的云计算范式,它可以进行地理科学发现和在分布式环境中进行云计算。笔者认为,专门为地理科学设计的云计算才更适合空间数据的挖掘和处理,也是地理信息领域研究人员今后努力的一个方向。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:大数据时代的空间数据挖掘综述
本文网址:http://www.toberp.com/html/consultation/10819916614.html