宣武医院:关于医院信息化主动式运维的研究

2016-12-01 09:42:26 爱德腕带 阅读

随着信息化建设在医院地位的提升,临床业务对信息系统的稳定与安全运营的依赖程度越来越重,医院对信息中心运维管理的重视程度也日渐提升。目前国内众多的医院建立了各种各样的运维平台,有网络、服务器等监控系统,能够帮助信息技术人员直观有效的对硬件问题进行定位,大幅提高了运维效率。但当前医院运维方式主要以人工为主,出现问题后由技术人员去查看监控平台,再做问题的定位。另外有些不会直接影响业务的硬件故障,技术人员在进行服务器巡查时才发现。这种方式的弊端是技术人员如果没有在第一时间得到问题反馈,可能错过修复系统的最佳时间。


针对这种情况,我院专门设计并应用一套主动式运维平台,通过软件定义数据中心的方式,能够对明确的硬件问题进行及时报警并通知相关技术人员,缩短硬件故障修复的时间,提高运维效率、降低运维成本。同时,我们还应用主动式运维系统帮助管理员规范资源的使用流程,快速为新业务系统的上线供应资源。


方法


1.需求分析


我院的信息化运维主要由技术人员承担,由于人手少、工作量大,需要信息化主动运维平台在以下两方面实现自动化:第一需要实现对众多的物理设备进行事件的收集和短信阶梯告警,以便能够在第一时间获取设备故障信息,及时进行修复;第二是通过信息系统对虚拟化资源进行管理,实现对底层虚拟化平台的资源进行创建、使用、回收及统计分析的一整套信息化管理流程。


2.系统设计与实现


医院主动式运维平台主要包含两个核心功能:第一是底层资源的自动化,提供资源的自动化供应系统,该资源的自动化供应系统根据底层的API进行接口的开发;第二部分为针对医院机房设备而设计的信息监控及重大事件阶梯告警机制,并与运营商一起定制开发了接口程序,实现对我院现有机房环境、服务器、存储、交换机等运行过程中的事件监控及短信报警功能(见图1)。

资源管理及告警平台架构.jpg
图1 资源管理及告警平台架构


我院经过2年的探索和实践,结合了业界最新技术,在资源管理方面实现了对硬件资源、软件资源的统一管理、统一分配、统一部署、统一监控和统一报警,同时提供了统一的服务界面、多种服务目录和灵活的自动化服务流程,具体管理流程如图2所示。

物理与虚拟化资源管理流程.jpg

图2 物理与虚拟化资源管理流程


通过这个信息化的管理流程,管理员、团队管理员和个人用户都可以在界面完成资源的生命周期操作,用户可以随时查看资源申请的情况,并在使用中对资源进行申请、变更,如增加或减少资源、变更资源等。用户还可以对项目中的资源进行远程控制,包括启动、停止、重启等工作,所有操作全部采用浏览器方式完成。


后台资源通过资源池的方式进行归纳,管理员可以建设不同的资源池来满足不同用户、不同应用和不同服务等级的需求。当管理员审批资源申请后,资源请求将进入自动化部署引擎队列,并进行自动化部署和供应。资源审批的流程可以进行定制化,与我院现有的办公流程进行集成。


资源操作平台需要根据IPMI和SNMP收集的服务器与存储事件信息,插入到资源自动化操作平台的数据库表中,由监控模块进行逻辑判断,数据库表中在30秒内若有报错信息,则触发告警模块(短信、邮件),告警模块从用户管理中获取用户信息,从监控模块中获取报警信息,依据设定的阶梯告警引擎发送短信通知给用户。监控模块的逻辑如图3所示,短信告警流程如图4所示。

监控模块逻辑图.jpg

图3 监控模块逻辑图


短信告警流程图.jpg

图4 短信告警流程图


根据我科具体情况设计的阶梯告警模型可以将不同设备的不同级别事件分发给不同的用户,在对事件进行集中管理的同时还可提高事件管理的精度,而且对事件进行分级管理可以提高用户对事件的管理力度及处理速度(见图5)。

阶梯告警设计原型.jpg

图5 阶梯告警设计原型

结果


按照系统需求和设计,我们发布了医院主动式运维平台系统。上线之后,当应用人员提出的资源需求通过管理员审批后,平台会根据用户的资源需求及审批信息,通过自动化引擎的方式实现资源的自动化供应。


资源自动化报警模块集成到主动运维平台中,将医院机房的设备添加到报警平台设备库中,通过收集到的事件与用户进行关联。


通过设计的阶梯告警机制,让相关系统管理员接收各自负责的运维事件短信,从而快速响应。


讨论


随着信息系统越来越多,对信息资源的要求也越来越多样化,给IT运维管理人员带来的挑战也越来越高,资源自动化能够实现将IT资源自动提供给最终用户,IT资源包括计算资源、操作系统平台、应用软件。通过该主动式运维平台,我们实现了IT资源自动化管理,减轻了系统管理员的负担,提高了运维效率。


通过人工来监测硬件故障,最大的问题是错过最佳的故障修复时间。而主动式的运维平台可以及时地把故障信息发送到管理员的手机上,机房值班人员就可以把硬件故障的维修时间尽可能降低到最短。另外所有的告警都发送给管理员容易引起告警疲劳,反而淹没了重要的告警信息。因此设计分级告警模型可将不同设备的不同事件分发给不同级别的用户,实现对事件集中管理,同时提高事件管理精度;统一分级告警数据存取接口可以将业务代码与事件告警逻辑松耦合,由于接口统一,事件告警逻辑对业务代码是透明的,这样的设计使得在日后需要对事件告警数据表进行更新维护时,不会对业务代码造成改变。


总之,医院的信息技术部门不仅要致力于临床业务信息化建设,还要利用好自动化的管理工具,才能更好的为医院信息化发展提供安全的保障。


(来源:《中国数字医学》杂志2016年第11期 作者:高山 费晓璐 单位:首都医科大学宣武医院)



点击这里给我发消息
点击这里给我发消息