1、前言
现在医疗行业使用的PC服务器CPU一般采用Intel或者AMD的服务器处理器,而小型机的CPU如IBM则使用Power4或者Power5这样的处理器,因此在CPU、内存、主频、扩展性等方面,小型机和PC服务器架构完全不同。还有服务器上运行的操作系统也不同:PC服务器上一般运行Windows或者Linux,而小型机上运行Unix如AIX、Solaris、HP—uN、IRIX等。因此在小型机的日常运行维护方面是不同于PC服务器的。
2、IBM小型机日常运行维护
IBM小型机常运行的AIX操作系统,AIX(Advanced Interactive eX—ecutive)是IBM开发的一套UNIX操作系统。一般用来运行Oracle、Sybase、DB2等大型数据库系统。
一般小型机系统管理员需定期对系统做检查,以期及时发现故障或排除潜在故障。一般都是使用AIX有关命令来实现:
使用df命令检查文件系统是否已满,如果文件系统满。尤其是/usr、/trap等,会造成登录、启动应用等种种问题,所以当文件系统运行到一定程度时,需及时调整。errpt命令检查系统错误日志,检查是否有硬件类型错误,及时修复;是否有软件类型错误,及时分析,如需清除,可用errclear0命令将其全部清除ovmstat、iodtat、topas、gar、netstat等命令用于小型机性能监测,检查系统运行是否碰到瓶颈,包括CPU是否太过繁忙,内存是否充足,数据交换指令是否频繁,I/0读写是否过忙,网络是否通畅等。
使用命令find/-name core-ls检查oore文件是否生成。oore文件一般是应用产生的,用于分析应用错误,产生core文件后,会在errpt中产生core_dump错误报告。如问题未能解决,可将core文件备份后交由相关技术部门进行详细分析。mail命令系统错误往往也会通过mail提示,系统管理员需定时检查。diag命令可以定时对系统做监测,last命令检查系统登录信息,看看是否有非法用户登录,ping命令检查网络是否正常。内网和外网访问是否正常等等。其他应用系统运行是否正常也可以使用有关命令来检查。
3、定期对小型机巡检
在日常运维的基础上,然后是季度、半年或者一年对小型机进行一次全面的巡检,主要目的是通过巡检,及时发现小型机和外设的软硬件存在的问题.并给予修复及解决。小型机的巡检内容包括:检查系统硬件情况(设备故障灯是否有亮,包括硬盘,阵列,光纤交换机,系统故障灯。磁带机等是否有其它异常情况)、系统错误报告(errlog、有否发给root用户的错误报告(mail)、关键系统的文件使用率是否大于80%、内存交换区使用率是否超过70%、内存交换区的大小是否为物理内存的1.5倍、检查备份情况(是否系统备份、用户数据备份、磁带机是否需要清洗)、通信(网卡、IP、路由表、pillg、/etdhmls、DNS设置等)、是否有数据保护方式如RAIDIO/RAID5。是否有Hot spare;系统DUMP设置是否正确、检查系统参数是否正确、检查系统参数是否正确、检查rootvg是否有镜象、机房环境(电压、湿度)、系统性能有无性能瓶颈(topas.vmstat)、补丁程序PTF、微码(是否需要升级)、HACMP测试以及系统硬件诊断等。
4.IBM小型机故障定位处理
IBM小型机故障定位方法包括小型机I/O柜上的显示面板上的Cheekr,ointa信息。ErorCdlde,和SRNs三步。
首先是Checkpoints检查点是系统加电CMOS初始化程序(initialprogram lOAd(IPL)运行后显示在I/O柜的显示面板上一系列信息。当交流电源接到系统后,IPL流程就开始了,IPL流程包括四个步骤:
第一步:Service Proessor的初始化主机开始于交流电源接到系统后,直到OK显示在I/O柜上的显示面板上为止。在这个步骤会显示8xxx或9xxx cheekpoints代码。
第二步:由serviceProcessor引导的硬件初始化,按下I/O柜上的白色电源开关。这个步骤会显示9xxxeheckpoints。91 FF是最后的代码标志着第三步骤的开始。
第三步:系统同件的初始化,一个系统处理器接管控制并继续初始化系统资源,这个步骤会显示Exxx。E105是最后的代码标志着第四步骤AIX启动的开始,在这个过程中还会显示各种位置码(位置码代表着系统的每一个部分)。
第四步:AIX启动。当AIX开始启动时。显示面板上的代码为Oxxx,同时位置码会出现在第二行。当AIX的登录窗口出现在控制台上时第四步骤结束同时显示面板上再无任何信息出现。
当ErrorCode系统运行有错误发现时,一个8位码会显示在显示面板上,同时在第二行显示相对应问题硬件的位置码。SRNs(Service request numbers,服务请求码)当系统运行有错误被发现时,SRNs码会以XXX—XXX的形式显示在显示面板上,同时在AIX的error log中也会有记载。以上所有代码都会有相应的步骤解决。由于代码繁多,要在出现问题后记录下代码,查看代码资料确定小型机的出现问题所在。
IBM小型机软件故障包括系统和应用软件故障、对于AIX操作系统来说,可以通过日常的运行维护来解决部分软件故障,如当文件系统空间不够时.可通过删除垃圾文件和增加文件系统大小等来解决;平时需多检查文件系统的完整性,文件系统必须先umount,再做检查和修复,否则可导致未知的后果。检查出小型机出现内存泄漏,即系统或应用进程无法将使用过的内存释放,使可用内存的容量逐渐减少。如果可用内存降到某最小值将造成系统或应用程序无法FORK子进程,就会造成系统瘫痪。通常可以用Ps和sar命令来查看小型机内存和CPU占用率的大概情况以及各进程的内存和CPU占用率的发展趋势。如果发现内存泄漏导致系统缓慢,最好及最简单的解决办法为重新启动系统,释放占用的内存空间。查看HACMP服务运行是否正常.对这些一般不会出问题的应用一旦检查发现有问题,处理的办法应按照步骤先关闭服务后再重起有关的服务进程,此类应用故障大部分能够得到解决。HACMP将诊测并响应于三种类型的故障:网卡故障、网络工作和节点故障。Oracle数据库的故障一般是表空间不够,需重新增加;如果是网络不通的话,通过有关命令进行诊断,找出解决办法。
5、总结
以上的叙述只是IBM小型机的基本运维方法,需不断从实践操作中吸取经验,细心检查,耐心找出发生故障的原因并给予解决.保证小型机及其应用软件正常运作,确保医疗信息等业务系统能够准确、安全、稳定地为大众提供服务。
核心关注:拓步ERP系统平台是覆盖了众多的业务领域、行业应用,蕴涵了丰富的ERP管理思想,集成了ERP软件业务管理理念,功能涉及供应链、成本、制造、CRM、HR等众多业务领域的管理,全面涵盖了企业关注ERP管理系统的核心领域,是众多中小企业信息化建设首选的ERP管理软件信赖品牌。
转载请注明出处:拓步ERP资讯网http://www.toberp.com/
本文标题:论IBM小型机维护管理
本文网址:http://www.toberp.com/html/consultation/1083967145.html