前言
对于数据中心交换机设备来说,由于所承载的应用重要性,一旦发生故障,必须要能够快速定位及解决问题。但是面对当前异常复杂的数据中心组网拓扑以及维护定位手段的缺失,如何才能应对这一挑战?本文就此问题作出一些技术分析,在线诊断分析当前设备的运行情况,对故障和异常能自动发现、自动恢复、自动隔离。满足用户对设备更高的可维护诊断需求。
一、概述
1. 诊断维护需求
数据中心交换机设备良好的可维护可诊断体现在多个方面,主要关注于对器件、业务的故障检测与响应:
器件的可靠性检测:器件的可靠是整个设备可靠的基础,只有每个器件可靠了,才能保证整个系统的可靠运行。器件作为独立的角色,针对器件的检测非常简单和也非常有效。
业务的可靠性检测:交换机设备的主要功能就是业务转发功能。在某些硬件故障情况下,往往业务端口仍处于UP状态,但设备却无法正常转发报文。在这种情况下,加上组网的复杂度,如遇严重故障,维护人员很难感知故障,更无法快速确定到故障点。这就需要业务可靠性检测功能,及时的发现和处理业务转发的故障。
故障的自动分析、定位和恢复功能:在目前复杂的组网情况下,找到一个故障点,并明确故障所在的单板往往需要几十分钟甚至几个小时的时间,这无疑对维护人员来说是场噩梦。如果设备能自动分析、定位和恢复故障,就可以有效降低维护的人力投入,同时极大的减少了故障时对业务的影响。
2. 设想中的诊断维护架构
要实现诊断维护的这些需求,可以准备一整套的诊断架构,基于该架构可以方便的实现整体的诊断维护功能。该诊断架构主要分成三部分。如图1所示,从下到上,首先是通过对器件、单板、业务的检测来及时发现故障,然后把故障检测结果报告给在线智能诊断分析模块对故障进行分析、深入定位,最后智能诊断分析模块根据分析的结果进行故障保护性处理,包括把故障告警通知用户维护人员,并进行恢复和保护性倒换。
图1 在线检测诊断模块关系图
二、在线检测——发现故障
交换机可以通过在线器件故障检测功能在设备运行时,定时不断的扫描各主要器件的(如单板电源模块、时钟、晶振、CPLD、内存、转发芯片等)运行情况,一旦出现器件故障,及时通知到智能分析模块进行保护处理。其器件检测基于软硬件的结合,快速、可靠。以对时钟的检测为例,时钟作为硬件转发芯片的工作基础,如果出现偏差和停止输出会造成整个转发芯片无法工作。可以对时钟输出信号提取一路出来通过CPLD在线实时监控,当时钟出现过大偏差或停止输出时,就主动触发中断通知CPU的智能诊断模块进行保护性处理。
而对于交换机的业务板、主控板在内的各种单板检测而言,这些单板都有独立的CPU,互相间的通讯通过板间通讯通道进行,是完全独立的一套系统。在这种分布式的架构下,设备需要快速的感知各单板的运行状态和故障情况,确保业务能选择最优路径转发。高端交换机可以使用独立的检测平面,定时快速的扫描各单板的运行、业务处理情况,对处于异常的单板根据故障通知智能分析模块及时进行保护性处理。例如:在分布式设备中,有很多的数据报文发送和处理都是在业务处理板上进行的,设备会自动根据单板的故障状态,对业务处理优选正常运行单板进行处理,确保业务处理的高效和正确。
交换机最基础的功能是正确转发业务报文。在线业务检测就是在线检测整个业务转发通道是否正常,如果正常,表明整个系统的转发功能是正常的。如果出现异常,就要及时通知智能分析模块,由智能分析模块来定位出故障点,并进行相应的保护处理。例如:当某块业务板的某个转发芯片出现转发故障,业务通道检测功能就能快速的感知到其它转发芯片到该芯片的业务通道故障,通知智能诊断分析模块对该芯片进行保护处理。例如可以通过关闭该芯片上对应的物理端口,把流量切换到备份的端口以快速的恢复业务。
三、在线智能诊断分析技术——分析故障
通常交换机设备出现故障时,往往只能提示用户出现故障,却无法进一步深入的判定问题所在和保护处理。可以通过一整套的在线智能诊断技术,根据故障的原因和用户配置的情况,实现告警、故障隔离、故障尝试恢复等处理。
如图1中间层所示,在线智能诊断分析模块会自动的收集各种检测的结果,对出现异常的检测结果将交由深入探测功能模块进一步深入分析和定位,判断出故障点,通知用户更换故障单板,并对故障实施隔离、尝试恢复等动作,对业务进行保护性倒换。
例如:某业务板出现故障,造成报文转发丢包。这时,业务通道故障检测发现转发异常,将故障报告给在线智能诊断模块,该模块会通知深入探测诊断功能模块启动对各业务单板的深度探测功能,最终定位到故障点为某块故障单板后,在线智能诊断模块会把该业务板隔离,去除该业务板对转发的影响,恢复业务。同时,告警提示用户更换该业务板。
四、在线保护技术——处理故障
在线智能诊断分析在分析到故障后,会根据当前系统的配置情况和故障原因,进行一系列动作进行故障的自动恢复处理(如图1最上层所示),其中必须要实现关闭端口和单板隔离。
1. 关闭端口(故障端口自动备份切换技术)
作为数据中心组网中,在组网规划时往往会考虑通过跨板链路聚合、IRF/VSS等技术提供冗余备份保护。当设备出现硬件转发故障时,往往端口依然是是UP状态,因此对端设备会认为该端口为可用端口,流量照常往该端口转发,结果造成冗余备份保护无法生效。
结合在线诊断检测和分析功能,设备可以在检测到硬件或者转发故障时,根据定位到的故障点,检查故障影响的用户端口,如果该用户端口存在备份链路,则自动关闭该用户端口,使对端的流量倒换到备份链路上。该技术结合IRF/VSS等跨框聚合可以更加完善的提供冗余备份功能。
图2 备份自动切换示意图
如图2所示,用户在IRF设备上配置PortA和PortC聚合,PortB和PortD聚合。服务器A和服务器B间的流量如上图所示。在PortA、PortB端口所在单板出现转发故障时,此时由于仍为UP端口,交换机A和交换机B仍继续执行负载分担把流量发送给PortA、PortB,但实际情况却是因转发故障造成红色的流量全部在交换机上被丢弃。
现在,在配置了故障端口自动备份切换功能后。智能诊断分析模块在定位到该单板故障后,分析出该板的PortA、PortB端口存在备份端口PortC、PortD,则对PortA和PortB执行管理DOWN,交换机A和交换机B即可以感知到端口变化,只把流量发送到PortC和PortD端口上,即流量只走绿色的路径转发,两台服务器间的流量恢复转发正常。
2. 单板隔离技术
单板隔离是将指定单板从业务平面中隔离出来,不再参与业务转发。被隔离单板仍在管理平面中,可对其进行重启等基本操作。交换机设备在出现硬件单板故障时可以自动的进行故障单板隔离处理,也可以手工命令对故障单板来进行隔离,并可将单板隔离后进行现场诊断,方便准确、深入的定位分析故障原因。
当对线卡板设置隔离后,该线卡板的所有业务端口被管理关闭,不会有报文从外部进入该板;线卡板对应的交换网端口也被关闭,不会有报文从其他线卡板转发过来;从而使该板从转发业务中脱离出来。
当对内部交换单板设置隔离后,内部交换单板上的交换网芯片被设置为“不可达”,从而该网板从转发业务中脱离出来。高端数据中心设备一般具有多块内部交换单板,内部交换单板间互为冗余备份,在对部分内部交换单板的故障隔离后,不会影响整体转发功能。在检测到内部交换单板故障后,如果会自动进行该单板的隔离处理,可以确保故障单板不影响业务转发。
五、结束语
由以上分析可知,对于数据中心交换机设备而言,其诊断维护功能的需求发展趋势是自动发现故障、自动隔离故障、自动故障恢复,做到设备无需维护,机房无需值守。这尤其对于数据中心,以及其中的核心交换机设备的运维效率与效果意义重大。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:对数据中心交换机在线诊断维护技术的分析