业务支撑系统是指由计算机硬件、存储设备、网络通讯设备、计算机软件、信息资源和相关业务管理流程组成的以处理业务信息为目的的系统。业务支撑系统高可用是指系统应对风险具有自动调整和快速反应的能力,以保证业务的连续运转。高可用保障体系由本地应急系统和容灾系统组成,本地应急系统、容灾系统与生产系统相互配合共同保证整体业务的连续性。
目前,传统的应急容灾方案通常基于本地设备高可用(如主备双机、存储柜间镜像等)、异地数据容灾复制等技术,这些方案存在以下不足:(1)本地灾难时异地应用恢复时间(RTO)较长。当发生本地机楼级灾难时,异地的容灾主机需重新加载数据,重新启动,恢复时间估计为30~120分钟,这样会造成较大的损失;(2)异地容灾设备资源的浪费,在平时正常情况下,异地主机不承担或承担少量生产业务,主机资源浪费严重;(3)应急容灾切换和灾难修复回切操作复杂,需制定完备的容灾管理体系,并定时演练,以保障灾难时操作的高效。
本文基于存储虚拟化技术提出一种业务支撑系统容灾保障的新思路,可解决传统高可用保障方案的不足。本地和远端同时承担生产和容灾的角色,实
现业务双中心双活模式,一端发生灾难时,另一端可实时接管。该方案基于存储同步复制技术的双活业务支持应急系统应用,采用虚拟化存储,实现两个站点资源的同时使用,再配合使用文件集群系统,生产端和容灾端在平时都承载生产业务,分区域进行业务分担。理论上可实现同一个数据库/文件系统被多个主机同时访问,在本地和异地两个数据中心节点上均可同时启动并对外提供服务。
1 业务支撑系统概述
1.1 系统设计的分层结构
按系统功能架构一般可分为IP网络层、主机层、存储网络层和存储层,各层的高可用设计如下:
IP网络层:包括交换机、防火墙、路由器、负载均衡器等。通常采用主备双平面设计,当主网络平面某节点的网络设备故障时,自动切换至另一个平面。
主机层:系统主机包括各类数据库、中间件、后台应用、WEB和接口服务器等,通常采用双机主备或双机/集群负载均衡的部署方式。
存储网络层:存储网络是未用主机与磁盘阵列之间的高速的网络传输中继设备,通常采用光纤线缆作为传输介质,1+1负载均衡的方式实现高可用冗余。
存储层:对于关键业务的存储磁盘阵列,通常要求存储盘阵具有双控制器,甚至采用双台存储盘阵,结合跨盘阵的数据镜像方式实现本地高可用冗余。对于异地容灾需求则可采用各类远程数据复制技术实现数据异地容灾。
系统架构如图1所示。
图1 信息系统架构图
1.2系统高可用的业务指标
信息系统的高可用能力通常可用2个指标来衡量,包括RTO(RecoveryTime Object)、RPO(RecoveryPoint Object)。RTO(恢复时间目标)是指灾难发生后,从IT系统宕机导致业务停顿开始,到IT系统恢复至可以支持各部门运作、业务恢复运营之时两点之间的时间段;RPO(恢复点目标)是指一个过去的时间点,当灾难或紧急事件发生时,数据可以恢复到的时间点。
2 三种高可用技术
2.1 存储虚拟化技术
存储虚拟化技术是在物理存储系统和服务器之间增加一个虚拟层,管理和控制所有存储并对服务器提供存储服务。服务器不直接与存储硬件打交道,存储硬件的增减、调换、分拆、合并对服务器层完全透明。它屏蔽了存储硬件的复杂程度,允许将现有的功能集成使用,摆脱了物理容量的局限。
存储虚拟化主要有两种实现方式:基于软件和基于硬件引擎。基于硬件引擎:虚拟引擎在一个专用的硬件设备上或光纤交换机上,从连接到SAN的存储上划分虚拟卷。典型产品有IBM SVC、EMCVPLEX。基于软件:即将虚拟化软件安装在应用主机上,在连接到主机的不同存储上划分虚拟卷。典型产品有Symantec VERITAS CFS。
存储虚拟化技术提供同步复制功能,来自服务器的更新被写入本地连接的控制器集群(Cluster)的缓存,该系统将数据转发给异地数据中心连接的控制器集群的缓存。只有当两个控制器集群的缓存都拥有数据的拷贝以后本地系统才会向处理器返回一个I/O完成指示。同步远程拷贝能够在异地数据中心提供最新程度的数据当前值。
通过利用存储虚拟化技术的同步镜像功能,可以保证本地源卷和远程目的卷的数据完全一致,由此保证了双活数据中心的业务连续性。它属于最底层硬件设备提供的“零切换”能力,相对于传统容灾技术可以减少用户的维护工作量,有效避免故障时技术平台的切换操作过程。如图2所示。
图2 存储虚拟化同步镜像机制
2.2集群数据库Oracle RACE
集群数据库技术是将多台数据库服务器联合起来组成集群,实现综合性能优于单个大型数据库服务器的技术。Oracle RAC又为“真实应用集群”,是其中最典型的产品,用于数据库服务器的高可用。它采用缓存融合技术,使各数据库主机将它们的数据缓存合并为一个共享的全局缓存,从而利用所有存活节点的缓存和CPU资源,当某节点发生故障时,可从节点失效中快速恢复。如图3所示。
图3 Oracle RAC集群
2.3集群文件系统
集群文件系统可以实现同一个文件系统通过SAN光纤网络同时被多个主机访问,在逻辑卷层面上保证了双数据中心的应用对文件系统数据的并发双活访问。应用程序在双数据中心节点上均可以同时启动并对外提供服务,发生故障时无需切换。而且高可用集群可以自动进行业务的切换,降低了人工操作的难度和时间。
3 业务支撑系统容灾保障新思路探讨
通过虚拟化存储技术,存储可以异地部署,实现两个数据中心的存储资源同步。利用数据库集群及集群文件系统,实现源数据和灾备数据可同时被读写。结合上述技术的优势,我们得到一种新的存储高可用技术,进而形成业务支撑系统容灾保障新思路——存储双活中心。其中,依据所使用的存储虚拟化技术不同,存储双活中心可以有两种设计方案实现。
3.1 基于存储虚拟化硬件引擎的双活存储中心设计方案
在主机和IP网络层,利用大二层以太网络技术,将本地和异地两个数据中心的数据库组成4节点的RAC(4节点RAC之间的Cache Fusion需要高速稳定的网络来保证)。本地故障时,可使用异地RAC节点进行业务接管,两个数据中心节点RAC心跳网络由大二层网络提供。Web服务器本地采用负载均衡器的方式,异地进行同等服务器性能配置;应用及中间件服务器本地及异地使用相同配置。
在存储网络和存储层,利用光纤链路,实现数据同步镜像(存储虚拟化+集群文件系统)技术实现本地和远端的统一存储池。通过虚拟化的存储引擎,实现两个站点资源的同时使用,再配合使用集群文件系统,实现同一份文件系统数据被多个主机同时访问,在双数据中心节点上均可以同时启动并对外提供服务,实现双活模式。
本方案的优点是可以实现不同站点的不同主机同时访问同一个数据库,实现双活模式;单个站点发生故障或灾难时,无需切换应用便可快速接管。不足之处在于双中心有距离限制,必须在100公里以内,并且对网络延迟、带宽、网络质量稳定性要求高。图4为基于存储虚拟化硬件引擎实现的双活方案。
图4 基于存储虚拟化硬件引擎实现双活方案
3.2基于存储虚拟化软件的双活存储中心设计方案
在主机和网络层,同样利用大二层以太网络技术,将本地和异地两个数据中心的数据库组成4节点的RAC,与基于存储虚拟化硬件引擎的双活存储中心设计方案一致。
在光纤网络和存储层,利用存储虚拟化软件和光纤链路实现本地和远端的统一存储池,构建生产存储和容灾存储为实时镜像关系,实现存储数据的远程容灾,再配合使用集群文件系统,实现同一份文件系统数据被多个主机同时访问,在双数据中心节点上均可以同时启动并对外提供服务,实现双活模式。
该方案去除对存储虚拟化硬件的需求,采用软件方式实现存储虚拟化和存储数据的实时镜像,实现不同站点不同主机同时访问同一个数据库的双活模式;单个站点发生故障或灾难时,无需切换应用便可快速接管。缺点是双中心距离更受限制,需要更大的带宽和较低的延迟来保证性能,并且以软件方式实现存储虚拟化会额外消耗主机处理能力。存储虚拟化软件实现双活方案见图5所示。
图5 基于存储虚拟化软件实现双活方案
3.3双活存储中心与传统应急容灾系统比较
对存储双活中心与传统应急容灾系统进行对比,见表1所示。
表1 业务效果的对比
4 结论
双活数据中心方案可以实现在本地和远端两个数据中心在同时提供业务支撑能力,作为一种应急容灾新思路,能充分利用容灾主机的处理能力,减少资源浪费,同时又能解决业务系统在灾难及日常维护过程中造成的停机问题,该思路同样适用于其他大型、复杂的信息系统容灾。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/