1 概述
中国科学院资源规划项目(Academia Resource Planning,ARP),是实现中国科学院资源规划管理的信息系统工程,目前采用分布式部署方式,每个研究院所单独部署一套ARP 系统,各节点间通过VPN 设备建立虚拟专网进行连接,与公网进行逻辑隔离。这种部署方式一方面造成本地系统高可靠性配置的硬件成本增加,而另一方面各节点间硬件资源不能有效地共享利用,且分布式运运营维护导致效率低下、监控管理复杂、系统升级维护困难,每新增一个节点需要重新购置服务器、安全设备和存储等相关硬件资源。随着应用系统规模的增大,为了降低硬件成本、系统管理以及运维成本,减少系统维护与备份宕机时间,提高系统的安全性和系统运行稳定性,实现对分布系统的集中运维管理和快速升级部署等,本文提出了一种基于虚拟化技术的ARP 私有云服务解决方案,通过虚拟化技术对底层硬件平台进行整合利用。
2 虚拟化与云服务
2.1 服务器虚拟化
服务器虚拟化是指在一个硬件平台上模拟多个独立的、和真实硬件指令集结构相同的虚拟硬件系统,每个虚拟硬件系统上可以运行不同的操作系统。主要通过虚拟监视器(Virtual Machine Monitor, VMM)实现。VMM 是计算机硬件和操作系统之间的软件层,它运行在特权模式,负责管理和隔离上层运行的多个虚拟机(VM),为这些虚拟机提供安全独立的运行环境,同时也为每个虚拟机虚拟一套与真实硬件无关的虚拟硬件环境。虚拟机运行在非特权模式下,每个虚拟机上运行着独立的操作系统。常见的虚拟化软件有Vmware、Microsoft Virtual Server、Xen、KVM、OpenVZ等。
2.2 云服务
NIST 指出云计算是一种能够方便、按需从网络访问共享的可配置计算资源(如网络、服务器、存储、应用程序和服务)池的模型,且只需最少的管理或服务提供方交互即可快速供应和发布该模型。虚拟化技术为云计算模型中的资源管理提供了一种有效的解决办法,而云服务即是基于云计算模式对外提供按需个性化的服务方式。
2.3 APCS 私有云
借助于虚拟化技术和云服务模式,建设ARP 内部业务管理系统的私有云服务(ARP Private Cloud Services, APCS)平台。首先通过虚拟化技术对目前的分布式硬件资源进行整合,建设区域分中心,每个区域分中心支持本区域内应用系统运行环境,分中心间通过高速专用网络建立连接,形成私有云基础架构平台。通过集中式私有云管理平台建设,实现对区域分中心内部资源的分配管理和运维监控,并实现跨分中心
间的资源调度,真正达到系统资源跨地域的按需分配,而作为业务终端用户不必关心访问应用的物理位置、资源使用情况等,达到透明化的按需使用服务。
3 APCS 方案设计
3.1 系统现状
目前ARP 系统采用分布式方式部署在全院100 多个科研院所中,遍布20 多个城市,每个部署节点运行的应用系统包括2 个数据库服务和3 个业务应用服务,硬件资源配置为HP380G6 服务器3 台~4 台(双路四核Intel CPU 2.26 GHz,16 GB 内存),经监测每台物理主机系统日常资源消耗CPU为10%,内存为2 GB。监测结果表明,目前硬件配置资源还有很大利用空间,将硬件资源进行虚拟化整合可以提高系统硬件资源利用率,同时解决了为提高业务系统的高可靠性,而在不增加服务器数量的情况下,使用虚拟机化技术进行系统运行环境的冗余配置。
3.2 技术平台架构
ARP 私有云服务APCS 主要由ARP 私有云服务基础架构平台(ARP Cloud Services Infrastructure Platform, ACSIP)和ARP 私有云服务管理平台(ARP Cloud Services ManagementPlatform, ACSMP)两部分构成,如图1 所示。
图1 私有云服务APCS 管理架构
ACSIP 由若干个区域节点(Area Node, AN)组成,主要实现对系统硬件资源的虚拟化整合,提高系统资源利用率,并对ARP 系统业务应用进行组件化模板分类,支持应用的快速部署功能,为业务用户提供应用服务。ACSMP 即是对ARP云服务环境进行管理配置,为资源申请者提供虚拟资源的分配和管理,为系统维护人员提供系统的日常运行维护和监控,为决策人员定期生成系统运行健康报告和资源需求报告,并进行私有云安全管理等。
3.3 区域中心节点
为更好整合系统硬件资源,提高资源利用率,将目前分布式系统进行区域集中,建立APCS 区域节点AN,每个AN搭建基于FC-SAN 的存储网络结构。对于前端主机服务器进行硬件资源虚拟化设置,虚拟多个主机系统,所有虚拟机文件存放在共享存储上,每个分布式业务系统分配虚拟服务器资源(虚拟网络、虚拟CPU、虚拟内存、虚拟存储)。各虚拟主机可以在物理服务器之间进行高可靠性、动态迁移、容错等功能设置实现业务系统连续性。各AN 间高速互联形成内部私有云基础资源池平台。
4 APCS 技术实现
4.1 ACSIP
ARP 私有云服务基础架构平台ACSIP 主要包括硬件资源基础架构层IaaS(Infrastructure as a Service)、ARP 系统平台服务层APaaS(ARP Platform as a Service)和ARP 系统应用服务层ASaaS(ARP Software as a Service),如图2 所示。
图2 APCS 实现技术架构
IaaS 层主要实现对网络、存储和服务器等物理资源的虚拟化,形成虚拟资源池。用户资源的获取可以从虚拟资源池中进行分配,并能够对分配的资源在使用过程中根据需求进行动态调整,为上层应用服务提供资源保障。
APaaS 层即根据ARP 业务系统需求,对所需Linux 操作系统、Oracle 数据库系统、JBoss 应用服务系统和消息中间件等平台层进行组件化模板配置,便于业务快速扩展部署。ASaaS 层即将目前ARP 系统中业务管理系统、公共事务系统和信息管理与服务平台等业务应用进行封装部署,直接提供给终端业务用户,终端用户只需申请符合自己权限的用户账号,即可直接登录系统进行业务系统使用。
4.2 ACSMP
ARP 私有云服务管理平台ACSMP 实现对ARP 云服务环境的管理,主要包括用户管理、资源管理、运维管理、监控管理和安全管理等。用户管理实现用户的创建、修改和注销,以及用户的角色授权管理等。资源管理实现对系统资源申请、分配、调整、回收管理。运维管理实现模板配置、动态迁移、负载均衡、高可靠性管理。监控管理实现网络监控、虚拟机监控、主机监控管理。安全管理实现网络安全管理、数据安全管理、服务器安全管理。
云管理平台是非侵入式高度模块化、采用公开的标准协议的管理平台,系统采用组件化设置,由云控制器、集群控制器、节点控制器、存储控制器等核心组件组成。各个控制器分别完成不同的功能,相对独立,从而保证系统的可扩展性。平台实现为资源申请者进行物理资源的分配和管理,对于申请者不必关心具体物理存放位置,为系统维护人员提供系统的日常运行维护和监控,为决策人员定期生成系统运行健康报告和资源需求报告。
5 APCS 关键技术实现
5.1 资源动态分配算法
对于各物理主机上虚拟资源池中资源分配可以使用改进的线性银行家分配算法、循环银行家分配算法或最大可用资源银行家分配算法。
银行家算法[4]是一种最有代表性的避免死锁的资源分配算法。当进程首次申请资源时,要测试该进程对资源的最大需求量,如果系统现存的资源可以满足它的最大需求量则按当前的申请量分配资源,否则就推迟分配。当进程在执行中继续申请资源时,先测试该进程已占用的资源数与本次申请的资源数之和是否超过了该进程对资源的最大需求量。若超过则拒绝分配资源,若没有超过则再测试系统现存的资源能否满足该进程尚需的最大资源量,若能满足则按当前的申请量分配资源,否则也要推迟分配。线性银行家分配算法是指当有虚拟机资源申请时,优先在一个主机内进行资源分配,当第一台主机的资源分配完毕后再进行下一台主机资源分配。此种分配算法的主要优点为最大化利用启动主机资源,没有分配到资源使用的主机可以在待机状态下,节省了能源消耗,主要缺点为主机间没有实现负载均衡。
循环银行家分配算法是当有虚拟机申请资源时,按照主机顺次进行资源分配,即第1 个虚拟机分配主机1 资源,第2 个虚拟机分配主机2 资源等。此种分配算法优点为实现了各主机间的负载均衡,缺点为各主机资源利用率未必饱满。
最大可用资源银行家分配算法为当有虚拟机资源申请时,按照可利用资源最多的主机优先进行分配,此种分配方法最大可能性地保障了每次分配的成功,减少了资源在同一主机上竞争的可能性。
3 种分配算法如图3 所示。图3(a)为线性银行家分配算法;图3(b)为循环银行家分配算法;图3(c)为最大可用资源银行家分配算法。
图3 APCS 资源分配算法
5.2 业务连续性保障
ARP 系统为内部业务管理信息处理系统,随着业务功能扩展和终端业务用户数量的不断增多,对系统的业务连续性提出了越来越高的要求。APCS 私有云平台保障了系统的高可用、高可靠和系统的灾难恢复。
通过虚拟化技术中的在线迁移功能,可以将在一台物理主机上运行的虚拟机实时迁移至另一台物理主机上运行。实现的技术原理为将虚拟机的文件系统放置在2 台物理机都能访问的共享存储上,迁移时只是将物理机上的计算资源进行保护,瞬间迁移至另一台物理机上,2 台物理机的CPU 指令集需要一致。此技术保障了一台物理机出现故障,或主机负载过大影响虚拟机正常运行时,将虚拟机迁移至另一台负载较小的主机上运行,从而实现了业务系统高可用性。高可靠性是指应用系统的物理主机出现故障时,其应用可以迁移至另一台物理主机上运行,不影响终端用户的业务操作。以上技术保障了由于系统故障导致计划外停机时,业务系统的连续性应用。同时在进行主机硬件设备的日常检修等计划内停机时,也可将检修主机上应用手动先迁移至其他有空闲资源的主机运行,待检修完毕后再迁回,从而减少对业务系统使用的影响。
灾难恢复是指生产环境遭到灾难破坏时,能够进行数据恢复的能力,衡量指标主要有恢复点目标和恢复时间目标。APCS 私有云平台下由于每个虚拟机系统全部以文件形式存在于共享存储上,因此可以对虚拟机文件进行本地存储的快照备份,然后利用存储间数据同步机制将备份传至异地灾备中心,在保证数据备份安全的同时,降低系统恢复的RPO和RTO,从而减少系统恢复时间和业务数据丢失量,保障业务系统连续使用。
5.3 安全管理
APCS 平台将原来分布式业务系统进行区域集中后,面临的核心安全问题为迁移后系统的网络安全、虚拟机安全、数据安全和访问控制安全等。
网络层安全通过虚拟交换机的VLAN 设置和虚拟机系统不同的IP 网段分配方式进行逻辑隔离,虚拟机间的访问控制通过软件防火墙进行设置。各区域中心节点AN 间通过SSLVPN 方式进行网络连接,保护数据在网络传输层的安全性。虚拟化技术平台对虚拟机的内存管理、运行保护和I/O管理提供统一封装性的运行安全管理,保障各虚拟资源间的申请、分配和使用安全以及对虚拟机内处理数据的读取、运算和存储安全。
数据安全主要包括虚拟机系统文件安全和虚拟机内应用系统数据安全。由于虚拟机将所有CPU、内存、存储等虚拟资源以及虚拟机上运行的业务系统都统一封装成固定文件格式以文件的形式存储在共享存储上,对这些文件的访问需要做到严格的访问控制管理和安全备份管理。对于虚拟机内应用系统数据安全管理方式和在系统在物理机上运行时相同,采用应用系统访问控制管理和数据库级安全备份管理。
APCS 访问控制管理主要分为ACSMP 平台管理员、虚拟机内应用系统运维管理员和应用系统业务用户的访问控制管理,其控制管理办法主要包括用户登录安全认证、访问权限控制管理、最小特权管理以及相应的安全审计机制等。
6 结束语
本文提出了一种对于分布式管理信息系统进行资源整合和为最终用户提供应用访问按需分配的APCS 私有云服务解决方案。通过ACSIP 建设,整合了目前分布式系统的硬件资源平台,提高了硬件资源的使用效率,保护了硬件投资,降低了系统能耗。通过ACSMP 建设,实现了系统资源的统一调配管理,同时实现了系统的集中监控和运维管理,提高了系统运维效率,减少了各节点系统运维压力,提升系统运行维护管理水平。同时对私有云平台的资源池动态分配和分配算法、系统业务连续性保障、私有云安全管理等关键技术进行了分析和阐述。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:基于虚拟化技术的私有云APCS平台设计