引言
随着社会发展和科技进步,企业信息系统面临的风险和威胁越来越大,保证信息系统的业务连续运营是IT人员在建设企业IT架构中首先要考虑的问题。信息系统要保持业务连续,最大的威胁不是来自于火灾、地震等小概率、大影响的灾难,更多地受到诸如人为错误、流程缺陷等事件的威胁。这些威胁时刻潜伏在企业的周围,随时一触即发,会影响信息系统的业务连续性,使企业造成重大损失。
本文从保证业务连续的视角出发,对信息系统的业务连续性框架和关键技术进行研究,以期指导信息系统的业务连续性建设。
一 风险分析
影响信息系统业务连续性的风险有许多,图1列出了主要的风险。
根据风险可能造成破坏的程度不同,将风险分为两大类:一类是灾难,即可能会对数据中心产生巨大破坏的风险;另一类是故障,不会对数据中心产生巨大破坏,但是会影响信息系统的正常运行。保证信息系统的业务连续性,要有应对这两类风险自动调整和快速反应的能力。
二 业务连续性框架
考虑灾难和故障这两类风险,为信息系统提供业务连续性应该包括以下两个方面:
2.1 高可用性:是指提供在本地故障情况下能继续访问应用的能力,不论这个故障是业务流程、物理设施、IT软/硬件的故障。另外,当所有设备无故障时应能保持业务连续运行,用户不需要仅仅因为正常的备份或维护而需要停止应用。
2.2 灾难恢复:是指当灾难破坏数据中心时在不同地点、不同硬件设备上恢复数据的能力。
上述两个方面不是相互孤立的,而是相互关联、有交叉的。为保证信息系统的业务连续性,高可用性和灾难恢复要映射到信息系统的各个层面,从用户终端到服务器、存储器,甚至包括机房环境。在映射时,不能仅仅从技术的角度出发,还要考虑管理因素。
图2为信息系统业务连续性框架,包括管理、技术和IT系统3个域,管理和技术域映射到IT系统域。
三 IT系统域
首先从高可用和灾难恢复两个方面出发对信息系统的各个层次进行分析。
3.1 高可用
3.1.1 用户终端
用户终端的故障风险主要有硬件故障、操作系统故障、病毒攻击等。目前应对上述风险常用的技术是用户数据异地存储,通过数据可靠来保证用户终端高可用性。另外,可采用用户终端安全管理措施和安全技术(例如病毒防护),以抵御用户终端的安全风险。
3.1.2 业务系统
例如ERP(企业资源计划),一般可以分为服务器端和数据端两个方面。在业务系统层面,为了保持业务连续性,可从这两个方面考虑:
(1)服务器端:IT应用系统的关键部分是服务器端应用程序,如果服务器端应用程序出现故障或软件升级,需要实时切换到备份服务器端应用程序。
(2)数据端:数据是业务系统的核心,为避免数据出现问题,需要进行数据备份与恢复。
同时,业务系统也需要安全措施来保障业务的高可用,例如进行访问控制和数据加密。
3.1.3 中间件、数据库、服务器
业务连续性要求服务器、中间件、数据库必须具备高可用性。数据中心的服务器(包括上面部署的中间件和数据库)建设需要采用集群(单机出错,群集中的备机也能迅速接管)、负载均衡等办法,保证服务器的高可用性。随着业务需求的变化,服务器性能需要满足不断增长的业务需要,数据中心服务器资源设计上,可将服务器集中放置管理,并通过虚拟化的思想动态地调整服务器的资源,使各种服务与应用都能得到所需资源,保障各项服务与应用的顺利完成。安全措施包括访问控制、用户权限管理以及访问审计等。
3.1.4 网络
核心交换机应分布于物理位置不同的地点,互为冗余备份,以避免单点故障或者意外灾害而引起的网络瘫痪。不同的接人层可以就近挂接到距离较近的核心交换机,而且为了链路冗余,接入层可以上联到多台核心交换机,链路路径是不同的,不再处于共享风险组中,进一步提高了可靠性和安全性。安全措施主要有网络接人控制、防火墙和病毒防护等。
3.1.5 存储
应充分考虑数据保护,构建快速可靠的数据备份系统,通过SATA磁盘和磁带构建多级数据保护机制。在备份系统方面需要引入新的技术,实现快速备份,避免长时间备份工作对核心业务系统运行的影响。针对核心业务,必须保证在发生严重故障时也能够快速恢复业务的正常运行,因此需要考虑使用应用容灾手段,实现高水平的业务连续性能力。
存储系统需要支持FC、ISCSI和NAS等多种存储访问方式,但数据应集中存储以简化容灾备份的结构。备份系统除传统的备份软件加备份设备的方式外,还应该采用快照、块级增量备份、数据防改写等新的手段,提供备份/恢复的性能,提高数据保护效果,减少对生产系统的影响。可以考虑在磁盘阵列复制技术的基础上,建立应用容灾系统。存储通过冗余链路分别连接在光纤交换机(SAN)和千兆IP网络(通过NAS设备)交换机上,实现存储连接的虚拟化。
3.1.6 机房
机房的基础环境包括配电、空调等系统,需要保证这些系统的高可用性,可采用设备冗余的方法,例如双路配电以及UPS。机房的安全措施主要是针对环境安全,例如采取电子门控实现身份鉴别。
3.2 灾难恢复
为了保证当灾难发生时,信息系统能够连续运行,需要备用的数据处理系统、备用网络系统、数据备份系统、备用基础设施、运行维护管理能力、专业技术支持能力以及灾难恢复预案。需要做出的第一个决策是选择一个与数据中心同样可用的物理环境,为灾难恢复提供备用物理场所。
四 管理域
管理域是从IT服务管理以及安全管理的角度来考虑IT系统业务连续性。依据的标准主要是信息技术-服务管理标准ISO/IEC 20000、IT服务管理信息技术基础设施库ITIL、信息系统安全保密标准BMB17-2006、BMB 20-2007等。
IT业务连续性管理主要负责:评估在一次灾难发生后IT服务被中断的风险和影响;确认需要制定额外的预防措施、对业务有关键性影响的服务;确定服务恢复的时间限定;采取措施来预防、检测和应对灾难的发生,从而减缓或减轻灾难的影响;确定恢复服务的方法;制定、测试和维持一个足够详细的恢复计划,从而保证能够承受灾难的发生并在规定的时间内恢复正常的服务运作。其中的核心组成部分为:
(1)日常运维管理的制度
流程构建合理的日常维护流程,使日常维护和事故处理成为支撑运维体系重要的环节,是提供优质服务、签订服务级别协议的基础。日常维护流程包括日常巡检、性能分析、系统优化、安全加固流程。日常维护与变更管理、配置管理有接口,一些日常维护流程将触发变更流程,变更的内容将在配置库中体现。根据运维体系人员分工,制定日常维护策略,指定责任人和日常维护职责。日常维护应形成维护报告,用于对系统状况等的评估。
(2)故障处理的预案
相关人员在发现信息系统相关故障发生或将要发生时,应首先判断故障的类别,然后参照对应的故障处理预案进行处理。
经过完整测试和演练的故障处理预案应主要包括以下组成部分:目标和范围、组织和职责、联络和通信、具体的故障处理流程、预案的保障条件和预案附录。具体的故障处理流程是故障处理预案的重要组成部分。
(3)灾难恢复的预案
经过完整测试和演练的灾难恢复预案主要包括以下组成部分:目标与范围、组织和职责、联络与通信、灾难恢复流程、预案的保障条件以及预案附录。灾难恢复流程又包括突发事件响应流程、恢复及重续运行流程,是灾难恢复预案的重要组成部分。
突发事件响应流程为:
(a)事件通告:任何人员在发现信息系统相关突发灾难事件发生或即将发生时,应按预定的流程报告相关人员,并由相关人员进行初步判断、通知和处置。
(b)人员疏散:提供指定的集合地点和替代的集合地点,还包括通知人员撤离的办法、撤离的组织和步骤等。
(c)损害评估:在突发事件发生后,应由应急响应组的损害评估人员确定事态的严重程度。由灾难恢复责任人召集相应的专业人员对突发事件进行慎重评估,确定突发事件对信息系统造成的影响程度,确定下一步将要采取的行动。一旦系统的影响被确定,应将最新信息按照预定的通告流程通知给相应的团队。
(d)灾难宣告:应预先制定灾难恢复预案启动的条件。当损害评估的结果达到一项或多项启动条件时,组织将正式发出灾难宣告,宣布启动灾难恢复预案,并根据宣告流程通知各有关部门。
(e)恢复:按照业务影响分析中确定的优先顺序,在灾难备份中心恢复支持关键业务功能的数据、数据处理系统和网络系统。描述时间、地点、人员、设备和每一步的详细操作步骤,同时还包括特定情况发生时各团队之间进行协调的指令,以及异常处理流程。
(f)重续运行:灾难备份中心的系统替代主系统,支持关键业务功能的提供。这一阶段包含主系统运行管理所涉及的主要工作,包含重续运行的所有操作流程和规章制度。
(4) 安全管理
业务连续性管理与安全管理具有密切的联系。安全管理中3个基本的问题是保密性、完整性、可用性。安全管理主要包括安全保密策略、组织人员管理、技术管理、场地管理以及应急响应计划。
五 技术域
为保证IT系统的高可用性,技术域中提出以下几项关键技术。
(1) 虚拟化技术虚拟化技术的应用远不止虚拟机和虚拟内存,到目前已经有了网络虚拟化、服务器虚拟化、微处理器虚拟化、文件虚拟化和存储虚拟化等技术。通过服务器虚拟化技术将服务器资源分配到多个虚拟机,支持不同的应用、甚至不同的操作系统在同一企业级服务器上同时运行。利用虚拟技术,管理员可以在服务器之间移动正在运行的虚拟机,保证系统的高可用。
(2) 集群及负载均衡技术高可用集群采用集群技术来实现计算机系统的高可用性,致力于提供高度可靠的服务。高可用集群通常又可分为以下两种工作方式:
(a)容错集群:通常是主从服务器方式。从服务器检测主服务器的状态,当主服务工作正常时,从服务器并不提供服务。但是一旦主服务器失效,从服务器就开始代替主服务器向客户提供服务。
(b)负载均衡集群:集群中所有的节点都处于活动状态,它们分摊系统的工作负载。一般Web服务器集群、数据库集群和应用服务器集群都属于这种类型。
(3) 数据备份和复制技术
数据备份和复制技术是容灾系统的关键技术。按对系统的保护程度,容灾系统可分为数据容灾和应用容灾。数据容灾是指建立一个异地的数据系统,该系统是本地关键应用数据的一个可用复制。该数据可以是与本地生产数据的完全实时复制,也可以比本地数据略微落后,但一定是可用的。采用的主要技术是数据备份和数据复制。数据复制按模式可分为同步复制、异步复制、周期性复制;按复制技术可分为磁盘卷镜像、硬件复制、数据库复制和基于主机的复制、应用复制。应用容灾是在数据容灾的基础上,在异地建立一套完整的与本地生产系统相当的备份应用系统。建立这样一个系统是相对比较复杂的,不仅需要一份可用的数据复制,还要有包括网络、主机、应用、甚至IP等资源,以及各资源之间的良好协调。采用的主要技术包括上面提到的集群及负载均衡技术。
(4) 安全技术
通过安全域划分以及安全防护手段以保证IT系统的安全性。主要防护手段包括:安全域边界防护系统、漏洞扫描、统一身份鉴别系统、计算机病毒与恶意代码防护系统、审计系统、服务器加固系统、电子文档安全保密系统、安全管理系统。
六 结束语
当今企业业务的正常运作越来越依赖信息系统,因此构建一个可连续运行的信息系统是IT人员面临的重要问题。本文从业务连续的视角出发,提出了信息系统业务连续性通用框架,并分别对该框架中的IT系统域、管理域和技术域进行了分析研究,通过映射到IT系统域的管理措施和技术手段相结合来保证信息系统的业务连续性。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:信息系统的业务连续性研究
本文网址:http://www.toberp.com/html/consultation/1083954641.html