交通银行数据中心管理范围覆盖生产环境、测试环境、同城及异地灾备环境。随着业务的发展,IT规模不断扩张,以生产系统小型机分区为例,分区数从2006 年的300 多个增加到现在3000 多个,而人员的增长远远跟不上服务器数量的增长。采用传统的依靠人员扩张的方式难以满足快速交付和生产稳定运行的要求。
为此,交行数据中心提出了走“规范化、流程化和自动化道路”的发展策略。从数据中心成立伊始就采用自动化技术,降低人力资源成本。2005 年,交行数据中心在数据大集中之后就实现了批处理作业和版本发布的自动化。2008 年开始,建立了自动化运维平台,实现了开放平台日常运维工作的自动化,大大提高了运维效率,使得人员从日常繁重的运维工作中解脱出来,投入生产的预防性工作中。2011年,随着
云计算技术的兴起,交行进一步引入云计算的理念,建立了生产运维云服务平台,将原来任务级的自动化提升到服务级。从IT 云服务的角度实现了资源配置管理和日常运维管理的“云化”,在生产运维中发挥了重要作用。
生产运维服务云的建设过程
自2009 年开始,交通银行数据中心启动了运维云服务平台的建设工作。如何借助“云”的力量,全面提升运维管理能力,这需要从本质上去理解“云”的概念。基于对业界云计算概念、技术和相关实践的深入研究及理解,交通银行数据中心在国内首次提出了“运维流程即服务”的概念。并在此基础上开展了运维云服务平台的研究及建设工作,对运维“云”建设进行了长期持续发展的规划,目的是将云计算技术应用于生产运维。
在云服务平台中,对云计算技术的实践侧重在两个方面,包括在底层建设基础设施云(PaaS)、在上层建立生产运维服务云(BaaS),以达到有效提高资源利用率,全面提升系统运维管理能力的目的。
1.基础设施“云化”。交行数据中心运维管理范围包括生产环境和大量的测试环境,以及不直接面对客户的辅助
生产管理系统等。硬件设备规模庞大,资源管理复杂,为了提高效率,实现资源配置和管理的规范化和流程化。
我们在运维云服务平台中实现了虚拟资源池管理功能。通过推广底层基础架构的标准化、虚拟化,构建硬件资源虚拟化资源池,以及结合应用系统的运行情况,实现分配、交付、监控、动态调配、回收等一系列资源池管理功能,使得数据中心部分基础设施环境,成为按需获取、快速交付、可动态调整的计算资源。资源池的划分和分配可以通过云平台集中管理,实现了基础设施的“云化”。
2.生产运维“云化”。交行数据中心根据系统日常运维管理的需要,从服务自动化的角度梳理运维云服务目录,将新系统安装配置、灾备切换(SANBOOT)、基础架构资源划分、健康检查、版本升级、系统备份、资源调整等日常运维工作“云化”为可以随时获取的服务。将各类运维工具提供的功能看成运维服务的“资源池”,标准化并全面整合现有的各类系统运维流程,将手工或已利用各类运维工具的自动化操作进行全面整合,实现全面的系统运维流程服务自动化。集中管理、按需提供,实现运维服务自动化;提供统一视图,服务过程可视、可控、可计量;侧重运维流程服务自动化,确保生产环境相关管理及规范,以满足生产中心在安全、ISO20000 流程、高可用等各方面要求。
生产运维云的实施取得了明显的效果,改变了传统的IT 系统安装和交付方式。以新系统环境交付为例,一套新的应用环境的安装配置包括操作系统安装、HA 高可用软件安装配置、中间件和数据库系统安装配置、工具软件安装配置、监控部署、应用版本发布和配置等,并需按照安全管理要求进行安全加固、账号移交、配置信息录入CMDB等步骤。按传统方式,一套新系统的安装配置需要一周时间,且存在执行过程难跟踪、人为因素大、规范难落实等问题。
在经过运维服务“云化”后,系统管理员在受到新的需求后,通过云服务平台提交以应用系统(可跨平台、多分区)为单位的服务请求,在服务请求中包括了该应用的系统架构中各类服务器的安装需求(及服务器的配置参数),集群配置、软件配置等相关信息,由平台的服务流程调度各类脚本、工具进行全自动化安装配置,安装完成后,平台直接将配置信息自动化上送数据中心CMDB,并通过邮件通知系统管理员将账号移交安全账号管理平台,整个新系统环境即交付使用,效率大大提高。
运维云服务在生产运行中的作用
交行的生产运维云服务提供的“一站式”端到端的运维流程服务,日常运维流程效率明显提升;同时提供快速、大规模的系统测试环境、生产环境搭建及交付,可有效保障整体工程建设进度;运维云化过程中明确了运维管理策略及技术标准,是保持系统可用率的重要基础保障;运维服务流程与运维管理需求充分结合,可保障投产上线后,大规模系统环境维护管理的有序和有效。具体影响体现在以下几个方面。
1.有效提升交付能力,落实管理及技术规范。平台投产后,一个新应用的安装周期由原来的1 周(多分区)缩短至数小时,大规模并行搭建效率提升更加显著。同时新系统交付云服务流程中的技术标准是根据系统架构技术规范定制,可保障管理策略及技术规范的落地,确保各类环境及运维符合监管、安全及生产运行要求,为保障生产系统的高可用性提供了有效支持。
2.提高日常运维管理效率。例如,原来生产环境数千个分区进行一次健康检查及报告整理需要投入大量的人力工作数周时间,现在通过云服务平台只需要几个小时就可将检查报告自动发送到维护人员的邮箱,与手工运维流程相比效率提升几十倍。
3.提高资源利用率,降低硬件成本。通过对硬件资源的虚拟化整合及根据需要调整资源的分配,有效提升了资源利用率。按300 个应用分区(1CPU) + 100 个DB 分区(2CPU) 估算,原来约需500CPU 及配套的内存、板卡、存储等资源,纳入平台虚拟化资源池进行管理后,在分配时按需动态调配资源保障相关测试环境容量,资源利用率可提高近4 倍。
4.提升生产系统的可用性。首先,运维云服务平台实现了生产运维的自动化,大幅提高了生产运维的效率,使得大量的人力从繁重的系统安装、大规模的系统健康检查等工作中解脱出来,可以将更多的精力投入到生产的预防性工作中,提前消除风险隐患。其次,健康检查云服务使得检查的频率大大提高,许多潜在的问题可以通过健康检查提前发现,提高了生产系统的可用性。第三,云服务平台实现了系统安装配置的规范化,减少了个人操作的失误,也屏蔽了技术人员水平参差不齐导致的生产问题,使得专家的经验可以通过规范得到推广落地,提升了整理的生产运维水平,也提升了生产系统的可用性。
通过生产运维云服务平台的规划及建设,交通银行把云计算技术的应用引入到了大型金融企业数据中心的生产环境中。将传统IT 系统“烟囱”式的IT 部署改变为资源池的动态分配和管理,将生产运维变成云计算的服务,对外全面提升数据中心的交付能力和服务水平,对内有效提高IT 资源的利用率和技术人员工作效率,在交行的生产运维中发挥了重要作用。
目前,交行数据中心正进一步将云计算应用于大数据处理和分析,搭建了数据云服务平台, 将云服务拓展到业务精准营销、交叉销售、互联网产品创新、风险控制等领域,其实施将对业务的发展取到更大的促进作用。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:数据中心生产运维云建设与实践
本文网址:http://www.toberp.com/html/consultation/10839718975.html