基于病案首页的医疗大数据挖掘研究
1 引言
随着医院信息化的发展,医疗活动不断进行,产生了海量医疗大数据,如何高效利用医疗大数据是当前医疗信息工作不可回避的问题。面对这个问题要解决两大难点:首先是如何从数以百计相互独立的医疗子系统中获取有效的医疗信息,其次是如何对这些海量信息进行进一步挖掘处理。针对此,提出一种基于病案首页系统的医疗大数据挖掘框架。通过引入ensemble集成平台,病案首页系统利用平台采集数据并对外提供病案接口,然后引入云计算技术,使用医疗云平台的末端数据采集、海量数据挖掘等功能,即可满足上述需求,医疗与云端的结合将是大势所趋。
2 医疗大数据
2.1 挖掘医疗大数据的应用
大数据提供了一种新的思维方式,催生新的数据处理技术,以应对数据的整合、存储、挖掘、决策等需求。而医疗大数据是在医疗领域中,日常诊疗活动产生的具有巨大潜在价值的海量数据。从来源上可归纳为四类:制药企业和生命科学研究;临床医疗和实验数据;诊疗费用,患者医疗过程中费用信息等;健康管理社交网络,联网的个人生理设备上的信息。随着国家医改的全面铺开,大数据处理技术与医疗结合必将产生巨大的社会和经济效益。总体上医疗大数据挖掘能够应用于以下几方面:发展智慧医疗,应用于临床诊断、疾病预警、远程医疗、成本控制等方面;支持智能决策,包括政策方针决策和临床决策;科学研发,有助于临床科研及药品研发。
2.2 医疗大数据发展现状
2012年,英国成立了数据战略委员会,建立了拥有庞大医疗数据的国民医疗服务系统;2013年美国政府发布了“大数据研究和发展计划”;德国、法国、韩国等发达国家也相继投入巨资,开发大数据建设事业。
我国在2013年启动了“基础研究大数据服务平台应用示范项目”,第二年的政府工作报告及2015年的十二大都提到大数据发展相关政策方针,国家卫计委和信息化工作组全体会议中也明确提出指定促进健康医疗大数据应用指导意见,推动医疗大数据依法有序发展。
3 基于ensemble平台的病案首页系统
病案首页是从繁杂的医疗数据中提取出病人基本信息、住院信息、费用信息等价值较高的数据。挖掘之前通过格式化、规范化的信息录入、共享、发布,对海量医疗数据进行预处理,为进一步数据挖掘提供有利条件。由于各医疗子系统不互通互联,形成信息孤岛,因此本院引入ensemble集成平台,通过统一平台管理,使医院所有信息系统形成逻辑整体,方便了病案信息的提取。
3.1 病案首页及其业务流程
系统中包括了病案首页信息填写、首页质控,及病案信息发布等业务功能。通常患者入院后,入院办理人员填写患者相关信息,所有事项完成后医生签名,最后质控人员编码质控签字归档,图1为病案首页书写流程。同时本院将此系统联入ensemble集成平台,对外发布病案信息查询Web Service供其他系统调用。
图1 病案首页书写流程
3.2 病案首页信息来源
由于本院通过统一接口,将各医疗系统接入到集成平台中,消除了信息孤岛,实现了信息一次录入全局共享,从而极大方便了病案信息数据的采集。总体上本系统中病案数据来源可分为以下几类,主要包括电子病历自身数据、医生手动输入、其他信息系统带入三大来源。首先电子病历系统中,PTS子系统负责患者相关数据的处理,通过调用PTS对外接口,获得关于患者基本信息及住院信息。这些数据在生成病案首页过程中,直接带入到对应字段中。既减少了医护人员对基本信息的重复录入书写,提高工作效率,也能保证整个系统中患者信息的一致性。同时由于本院所有信息系统都接入了Ensemble集成平台,对外提供统一数据接口,通过接口服务病案首页也能直接引入其他系统中的病患信息。本系统是基于framework框架的java语言开发,并使用wxWidgets开发GUI界面,最后一部分信息则由医护人员手动从界面输入。
3.3 病案信息查询服务
本系统不仅局限于病案信息的收集、展现、存储,还对外提供多个病案查询服务的接口,包括病案信息查询、病案费用查询等。这些服务通过ensemble集成平台,以Web Service形式对外发布服务。系统读取用户的http请求,解析请求消息,再调用后台对应查询服务,然后组装成对应的应答消息返回给用户。
图2 病案查询服务应答消息
应答消息格式如图2所示,所有应答服务具有相同的应答框架,不同点在于EventType不同,对应不同的查询服务,查询内容以xml形式全部存于消息体中的一个父节点,并按照数据类型分门别类的组成各个子元素,所有信息以树状结构组合。通过对外提供的查询服务,能够获得结构化、标准化病案数据,为进一步信息挖掘分析提供了极大帮助。
4 病案大数据挖掘框架
如何运用专业查询技术对历史累积的病案数据进行挖掘处理、归纳分析、获取数据背后潜藏价值,为医、教、研、管提供决策支持是亟待解决的问题。通过接入ensemble平台,调用病案首页系统提供的信息查询接口,可以很容易获取病案信息,然后利用云计算平台的数据中心就能存储海量数据,根据挖掘需求动态分配资源,并采用容错机制保障挖掘结果的可靠性。图3为整个病案信息挖掘框架示意图。
图3 病案信息挖掘框架
如图3所示,整个框架分为两大部分:病案首页系统,通过调用平台中其他系统提供的接口及工作台医生手动录入,形成标准格式的病案信息,然后对外提供病案信息查询接口;病案信息挖掘云平台,通过ensemble的病案信息查询,将收集到的病案信息分布存储于平台中,挖掘处理前进行数据预处理,然后调用挖掘算法获取关联规则并进行知识解释。其中病案挖掘云平台主要包括云计算环境、数据采集、清洗及并行分析四个关键部分。
4.1 云计算环境
云计算是在大数据背景下产生发展的,是解决大数据问题的有力工具。云计算以服务为核心,各种软硬件资源通过网络互联,并以服务形式对外提供,云端服务对用户透明实现,用户只用按需付费购买服务,不需知道其实现。当前已出现不少商用云计算平台,其中最热门的三大分布式系统是Hadoop、Spark及Storm。以hadoop开源平台应用最广泛,基于其免费开源的特性,成为海量数据处理的标准平台。
4.2 数据采集与清洗
病案首页生成的过程就是获取病人关键信息的过程,在日常运转中,由于人为因素、不可预知因素作用,HIS系统中必然存在部分脏数据。为避免影响对数据的挖掘处理,需要通过填补遗漏数据、消除异常数据、平滑噪声数据以及纠正不一致数据,对这些数据进行降噪清洗。如病案首页系统中,对病患电话号码进行数字校验,消除异常电话号码;对年月日期等数组字段,进行统一格式化处理等操作。有些如民族、离院方式等采用缺省值,防止遗漏数据。这些都是为方便下一步数据挖掘进行的数据预处理。
同时,病案首页系统提供的信息查询服务能将病人所有病案信息分门别类以xml文件形式对外提供。数据挖掘系统就能通过Web Service获取病患信息,再利用DOM解析病人病案信息的xml文件,根据挖掘所需提取对应数据元素,按照既定编码规则进行数据转码,以方便挖掘算法处理。
4.3 云端数据挖掘
数据挖掘分为聚类、分类、关联分析等,关联规则挖掘在医疗大数据挖掘中是重要课题。几种常见的关联规则挖掘算法,包括以迭代思想为基础的apriori,通过构建频繁项树的FP-growth。云计算是基于并行的计算,采用MapReduce编程模型,该模型抽象除Map和Recude两个函数,向用户提供了编写并行处理的代码框架,使用户不需考虑具体并行实现,直接调用算子即可像单机编程一样书写代码。鉴于云平台采用该编程模型,因此需要对现有的数据挖掘算法进行并行化改造,以适应云平台下海量数据挖掘。
整个挖掘过程可抽象为用户通过输入模块将挖掘请求传递给系统,系统根据用户提交的挖掘参数,调用病案首页系统中经过预处理的数据,分配到MapReduce集群上,进行并行挖掘,最终将结果返回给用户界面。整个挖掘过程中,海量数据的存储及并行化挖掘全部依赖于云计算环境。
5 结论
医疗数据的海量性、异构性为数据挖掘带来巨大挑战,通过引入病案首页系统,将海量繁杂的医疗数据进行规范化、格式化预处理,为更加深入的挖掘工作提供了有利的数据保障。同时伴随挖掘算法的优化,云平台的改善研发,在大数据技术浪潮下,医疗大数据的云端挖掘必将得到进一步发展,将更好的为医院管理者提供决策支撑,医疗资源得到更优化配置,进一步提高医疗服务水平。
(来源:《中国数字医学》杂志2016年第9期 作者:熊志刚 姚刚 单位:华中科技大学同济医学院附属同济医院计算机中心)
标签:   医疗大数据