医疗大数据的统一存储架构设计

2017-04-28 14:27:50 爱德腕带 阅读

作者:高玮

1  引言


目前,随着医疗信息化的快速发展,对医疗大数据的分析和利用是世界各国医疗卫生行业的普遍发展趋势。在医疗信息化的发展进程中,医院信息系统积累了大量数据,这些数据存储在不同信息系统中,如HIS、EMRS、PACS、RIS等。这些系统中的医疗数据呈几何倍数增长,给存储、检索和利用医疗大数据带来了挑战。此外,医疗信息化业务需求也变得越来越复杂,大大增加了IT人员管理维护医疗信息系统的难度。所以,如何设计一个统一的存储架构来存储医疗大数据,成为医疗信息化的重要内容。


本文提出一种基于FCSAN+IPSAN+NAS技术的统一架构存储设计方案。其主要优势在于,这种方案充分考虑到医疗数据的特点以及数据访问情况。由于存储在不同信息系统的数据特征不一,该存储架构考虑不同信息系统的数据量和访问特点,分别针对结构化数据和非结构化数据,设计不同存储方案,并整合到统一的架构中。在存储方面,这种方案提出了利用分级存储解决方案和虚拟化技术,提高了上述医疗大数据的安全性、可用性以及业务连续性,使医疗大数据能满足医生、医疗从业人员的需要。

 

2  医疗大数据的特点和存储需求


医疗行业信息化的核心应用主要涉及结构化数据、半结构化数据和无结构化数据。从医疗数据的存储角度看,医疗行业总体数据存储量总体上以1-50 TB为主,各医疗机构间差异较大。从医疗数据的时间周期看,医疗档案一般保留时间较长,且在线时间的要求也较其他行业高。门急诊记录保存时间不得少于15年,住院病历保存时间还要长(约30年),一些著名人物的病历将无限期保存。病人的一次诊断活动中需要存储、调阅数百张影像数据,而临床电子病历数据一般采用符合HL7 CDA 标准的XML文件格式,文件格式会不断演变。


2.1 结构化数据 结构化数据存储在关系型数据库中,主要的商用数据库系统包含SQL Sever、Oracle等,数据量一般为几十到几百GB。然而,由于医院业务不断进行,并发性能要求高,对数据的读写操作频繁。


2.2 非结构化数据 影像文件、医学资料等主要以文件形式存储。从性能角度看,数据传输量大,带宽要求高。操作以读为主,修改、删除操作较少。根据数据安全性要求,这些数据要求长期保存。

 

3  存储架构设计


详细介绍医疗大数据的存储方案。首先分析不同医疗信息系统的分级存储整合方案,在此基础上,提出FCSAN + IPSAN+ NAS的统一存储架构。为保证数据安全和系统连续性,给出了数据备份方案。


3.1 存储架构 通常情况下,HIS、RIS、PACS、EMR等系统是在不同时期分步建设的,一般都会建立独立的应用服务器系统环境和存储系统环境,这就造成服务器及存储资源的浪费,同时增加了整个系统的维护难度,以及业务系统宕机风险。


根据数字医院的各应用系统对存储设备性能要求的不同级别,将不同的应用系统采用不同的部署方式。


针对实时响应速度要求最快的基于数据库应用的业务系统,采用光纤存储局域网络(FibreChannel Storage Area Network,FCSAN)进行链接,提供最高的主机访问速度;针对响应速度要求一般,且压力不大的系统,如门户网站、电子邮件、OA等应用,可通过采用虚拟化技术将其进行服务器虚拟化,在确保主机访问性能的同时,最大限度节省成本;将一些低压力应用系统通过iSCSI链路进行连接,形成IP存储局域网络(InternetProtocolStorage Area Network,IPSAN),实现低成本、高效率的存储。


在存储方面,根据不同应用数据的重要程度及性能要求,将不同应用系统的数据分别存储在不同类型的存储介质上,有助于提升系统整体性能,降低总成本:核心数据库业务系统要求能够在最短时间内完成尽可能多的数据库读写操作;办公应用系统对数据访问性能的要求相对较低;PACS系统主要为顺序读写,对磁盘的吞吐性能要求较高;将HIS、LIS、CIS、RIS等系统数据库的索引和日志保存在企业级固态闪存盘(SSD)上,以最大限度提高数据库的访问速度。


根据这些系统的应用特点和最佳系统部署方式,建议采用FCSAN + IP SAN + NAS的统一存储架构。最大化利用存储资源,提升系统效率,简化系统维护,降低系统宕机风险。其架构视图


3.2 备份方案 医院信息系统中存储的患者诊疗数据医院管理数据,应用安全和可靠是最重要的。为此,在医疗信息系统需求中,把这些应用系统在提供服务方面分为三个级别:第一级:要求接近零停机时间,如HIS系统数据库,采用热备份的方式保证业务连续;第二级:出现故障,恢复期可在1天的服务,数据备份应尽可能采用在线方式,至少要近线存储;第三级:可忍受较长恢复期的应用,该类数据备份可采用近线或离线方式备份。


为避免数据丢失问题,需对医疗信息化系统的核心应用系统进行定期备份,并定期进行数据恢复验证测试,确保备份数据的可恢复性。


在备份策略上,全系统采用热备份方式。每周一次进行全备份,其余每天要进行增量备份,保证数据可恢复。在备份拓扑结构上,采用基于全冗余的SAN备份拓扑,


3.3 远程灾难备份策略 备份、恢复解决方案虽然可以使数据得到很好的保护,但发生灾难时造成的数据丢失量以及系统恢复时间,都是医疗信息系统中大量关键应用无法承受的。因此,规划一套高性能、高可靠性和高可用性的容灾系统,就成为医疗信息化系统建设中的一项重要任务。


对医院核心业务系统数据库数据,其数据读写频率高,数据实时性及连续性业务要求高。利用日志前滚与回滚功能,实现长时间的数据恢复,消除逻辑操作错误带来的数据损失。


针对PACS系统的影像文件,不能使用传统的备份模式进行数据保护。因此,针对在线数据采用基于SAN的远程数据复制技术进行数据的在线保护,历史数据则通过数据归档解决方案进行数据保护。

 

4  小结


随着医疗大数据的深入发展,数字化医院信息系统的应用日益增多,业务需求也变得越来越复杂,无形中增加了IT人员管理维护系统的难度。所以,使用统一、可靠、高效的存储架构是必要的。


我们提出一种基于FCSAN+IPSAN+NAS的统一架构设计方案,充分考虑到医疗数据的特点以及数据访问情况。分别根据数据不同特性,设计不同存储方案。在网络架构方面,依据海量数据的特点,提出分级存储解决方案,满足医生对数据存储周期要求;同时采用虚拟化技术提高资利用率,克服资源冲突的问题。该存储架构设计从医疗大数据的实际需求出发,较好地满足了其数据存储需求,保证数据的安全性、可用性及业务连续性。


点击这里给我发消息
点击这里给我发消息