在一台物理服务器之上构建虚拟化抽象层,采用虚拟机监视器或虚拟化平台2种实现方式,负责服务器的抽象、资源的调度与管理,将项目管理与综合管理系统分别运行在2个独立的虚拟机之上,从而提高服务器的资源利用率。在虚拟机的运行过程中,采用实时迁移技术将虚拟机的完整运行状态快速、平滑地迁移到新的服务器上,用于故障服务器的维护,并通过虚拟机动态调度方法,对资源进一步整合,实现资源的动态分配与调度,从而进一步提高服务器的资源利用率。
在提高服务器资源利用率的同时,应解决可靠性和性能开销问题。解决可靠性的有效方法是采用隔离机制,在服务器之上存在多个虚拟机实例情况下,应确保虚拟机之间的完全隔离,即一个虚拟机崩溃不会影响到其他的虚拟机,能及时从故障中恢复。目前,电力数据中心的业务应用系统普遍采用企业级J2EE 应用服务器,通过国际商用机器公司(IBM)和VMware对Web Sphere和VMware ESX的性能测试可以看出,服务器虚拟化会付出系统开销,但性能下降的幅度已经变得可以接受。
2.3 电力数据中心云计算平台
2.3.1 Hadoop的技术架构及其特征
电力数据中心云计算平台是一个面向智能电网业务应用的私有云。以Google与Amazon为代表的商用型云计算技术主要应用于各自企业的搜索引擎与电子商务等典型互联网应用,无法直接应用于电力数据中心云计算平台。
Hadoop作为一个开源的云计算框架,其核心包括Hadoop分布式文件系统、分布式数据处理和分布式结构化数据表,可以满足电力数据中心的需要,保证其高可靠性、高可用性与可伸缩性,主要体现在以下方面。
1)Hadoop分布式文件系统具备较为完善的冗余备份和故障恢复机制,可以部署在廉价硬件之上,能够高容错、高可靠存储智能电网海量数据。
2)Hadoop分布式文件系统将支持负载均衡策略,保证可伸缩性。若某个节点的空闲空间下降到一定程度,会自动将数据搬移到其他节点。这样,在负载变大的时候可提高自身的能力以适应负载。
3)分布式数据处理和分布式结构化数据表可支持结构化存储,屏蔽底层分布式编程,降低开发难度,保证对智能电网大规模数据集的高吞吐量访问。
4)Hadoop是Google云计算平台的开源实现,已经被中国移动、雅虎等企业作为各自海量数据存储与处理平台的基本技术。开源化便于针对智能电网业务应用进行研究与二次开发,以确保自主知识产权。
2.3.2 基于Hadoop的电力数据中心云计算平台
电力数据中心建设的最终目的是为各个业务系统、数据挖掘与辅助支持等应用提供数据存储、管理与高性能计算环境。为了满足智能电网对电力数据中心的更高需求,设计了基于Hadoop的电力数据中心云计算平台,如图4所示。
图4 基于Hadoop的电力数据中心云计算平台
整个平台采用主从架构,从电力数据中心的虚拟化服务器集群中选择一个服务器作为主节点,其他节点作为从节点。NameNode部署在主节点,负责管理分布式文件系统的元数据,执行文件的打开、关闭与重命名等命名空间操作,并协调客户端对文件的访问。DataNode负责处理客户端对数据块的创建、复制、删除及读写请求。每个文件被分成默认大小为64 MB 的数据块,冗余存储在从节点的DataNode,例如,当复制因子为3时,一个数据块副本存放在本地机架的DataNode中,另一个副本存放在同一个机架的另一个DataNode中,最后一个副本存放在其他机架的DataNode中。这种方法实现简单,通过冗余备份和故障恢复机制,可以确保电力数据中心对大规模智能电网信息的可靠存储。
采用MapReduce作为处理电力数据中海量数据的并行编程模型和计算框架。对于大规模数据集的操作,采用任务分解与结果汇总的方法。例如,将计算状态监测信息的最大值、最小值、平均值、同比与环比等数据进行二次加工操作,分发给JobTracker(部署在主节点)管理下的各个TaskTracker(部署在从节点)共同完成,然后整合各个TaskTracker的中间结果,获得最终的计算结果。另外,采用建立在MapReduce编程模型之上的高级数据流语言Pig,用于简化MapReduce任务的开发过程。上述方法将计算节点TaskTracker与存储节点DataNode部署在同一服务器,能够避免网络带宽瓶颈,有效减少传统分布式计算中数据在网络中的传输,为电力数据中心提供高性能的分布式计算环境。
数据库与数据仓库是电力数据中心实现数据挖掘与辅助决策的基础。采用HBase作为电力数据中心所要求的高可靠、高性能、实时读写的分布式数据库系统,将粗粒度、结构化的数据按列族存储在一张巨大的稀疏表中,按照行键将表划分成多个Region,分布在从节点的RegionServer之上,并将Region以文件的形式存储在分布式文件系统中。RegionServer负责客户端对Region的读写请求与操作,而主节点的MasterServer负责Region的分配,协调RegionServer的负载并进行状态的维护。另外,采用Hive作为电力数据中心的数据仓库平台,对分布式文件系统上的智能电网业务数据进行ETL,构建数据仓库,采用类似于结构化查询语言(SQL)的HiveQL实现对大规模数据集的查询与分析。分布式数据分析处理与传统SQL相结合有利于传统系统向新平台的迁移。
3 现有电力数据中心向云计算的迁移策略
3.1 迁移的目的
电力数据中心的设计与建设是一项庞大的系统工程。现有的数据中心由国家电网公司统一规划建设,但各地的信息化水平、业务系统应用与成熟程度不同,使得各个网省公司数据中心建设有其自身的特点,部分电力数据中心已经引入了虚拟化技术,初步具备了云计算能力,而多数电力数据中心仍然停留在传统数据中心的水平,远未达到新一代数据中心对智能电网海量数据存储与高效计算、高可靠性、高可用性与可伸缩性的要求。
基于云计算的新一代电力数据中心是未来的发展方向。考虑到电力数据中心已经初步建立,智能电网仍处于初级建设阶段,应确保现有电力数据中心向新一代云计算数据中心的分阶段平稳过渡,一方面保障现有电力数据中心的正常运行,另一方面逐步适应智能电网发展的需要。
3.2 迁移策略及需要解决的难点问题
给出现有电力数据中心向基于云计算的新一代电力数据中心的分阶段迁移策略,以确保平稳过渡。
1)逐步将公司总部以及各个网省公司的电力数据中心升级为云节点。将数据中心的基础设施虚拟化,提升服务的可用性与弹性可扩展性,升级或改造为面向云计算的数据中心,即云节点。
2)将各个云节点连接成电力企业内部的私有云。各个电力数据中心部署为高可用、可扩展的云节点后,将各个云节点连接在一起,构成一个多中心的私有云,如图5所示。
图5 电力数据中心私有云
在基于云计算的新一代电力数据中心的建设和迁移过程中,面临着如下需要重点解决的问题。
1)在电力数据中心升级为云节点的过程中,需要重点解决基础设施虚拟化的问题。目前存在多种虚拟化解决方案,例如IBM 的zVM 与PowerVM,VMware的VMware ESX Server,微软的Hyper-V等。在选择解决方案时应充分考虑与现有电力数据中心的兼容性,减少迁移成本。
2)在电力数据中心私有云中,各个网省公司数据中心与公司总部数据中心之间需要传送大量的业务数据,可以在各个云节点设置负载均衡设备,构建电力系统广域网的加速通道,以解决数据传输瓶颈问题。
3)安全性是云计算在电力数据中心应用过程中需要解决的一个重要问题。基于云计算的新一代电力数据中心是在电力企业内部建立的私有云,可自我管理与维护,业务数据通过电力系统广域专网传输。电力数据中心在电力安全分区体系中属于管理信息大区(安全区Ⅲ),可以设置电力专用的单向安全隔离装置,在物理层面上实现与生产控制大区及外部公共信息网的安全隔离。
4)在电力数据中心私有云之上,统一部署基于Hadoop的云计算平台。在Hadoop技术的基础上自主研发云计算平台,将是建设新一代电力数据中心的关键,相关研究工作正在进一步开展,研究成果将另文讨论。
4 结语
本文通过研究服务器虚拟化、实时迁移、Hadoop等技术问题,给出了电力企业云计算数据中心的整体架构,并设计了基于Hadoop的电力数据中心云计算平台,以符合新一代数据中心的发展趋势,满足智能电网的业务需要。云计算作为新兴技术,其体系结构、虚拟化、数据存储及资源管理等问题仍然有待进一步研究。后续拟针对智能电网的具体业务应用与信息服务,研究作业的分配策略与调度算法,并采用云仿真工具CloudSim 进行性能比较和优化。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:基于云计算的电力数据中心基础架构及其关键技术(下)
本文网址:http://www.toberp.com/html/consultation/1083976751.html