经验值爆表!北京大学肿瘤医院医疗大数据建设创新和实践

2017-10-26 09:37:20 爱德腕带 阅读

北大肿瘤医院信息化建设自2000年始,经历了四个阶段,从基础财务系统到平台系统建设,医院信息化体系进入一个相对完善、成熟的时期。


厚积而薄发的数据


1

2000年~2004年

信息化起步阶段,医院建立起财务核算和以此为主线的临床业务信息系统,实现部门级应用。

2

2005年~2009年

信息化快速发展阶段,实现了一临床业务为主线的全院信息化系统建设。

3

2010年~2013年

以信息集成和控制为主,建设了以医护为中心工作系统的集成平台,提升了工作效率

4

2013年-今

在逐步成熟的信息化建设的支撑下,北大肿瘤医院的信息化建设转向了以数据集成和利用为主线的方向,开始建设以数据为基础的质控、感控、管控,并通过数据挖掘分析为医教研服务,以提升医疗质量,以医院辅助决策系统为核心,打造医院发展的核心竞争力。


  北大肿瘤医院数据特色明显。一是数据丰富,如HIS系统,自2000年建成投入使用至今已积累起近300G的数据量;如EMR系统,自2007年建成至今,已积累数据量260G;如PACS系统,自2002年启动至今,数据量已达到300T;二是历史悠久,如随访系统自1995年便已投入使用,电子病案系统中的数据更是从建院始便存在了;三是分布散,各系统由不同系统提供商提供,最新统计医院全部系统多达208个。


  随着业务系统的增多、医疗联合体的发展,临床对医疗信息的获取需求越来越强烈,丰富的临床数据为科研打造了优渥的基础,但分散的存储、异构现状也为数据利用带来了难题。如何以更高效、便捷的数据获取手段为临床诊疗服务提供资料支持;如何改善传统人工查阅病历、科研外包的巨大投入,将临床数据中有价值的内容提取出来;如何利用新技术挖掘隐藏在数据背后的管理决策智慧;如何在大数据下满足医院运营对数据的实效需求……


面对如此丰富的数据,医院开始从临床、科研、管理、运营四个角度寻找数据利用的机遇。


  自2004年开始,医院陆续推进了一系列数据利用项目,从OLAP到BI,从CDR到BigData。2004的数据仓库课题研究,2008年全院BI平台项目,能够支持院长查询,进行医保分析和经济运营分析;2012年的CIP数据平台实现了面向临床、医疗、科研的综合数据利用,医院投入开始有了千万级别;2016年经过调研建设的大数据技术平台主要面向科研,能够支持高速搜索、后结构化和归一数据。


重于技术的创新思维


  大数据不是单纯的新技术,而是继移动互联网、云计算之后IT产业的又一次技术革新,将改变我们的工作、生活和思维方式。大数据的发展与应用将对社会的组织架构、国家的治理模式、企业的决策架构、商业的业务策略等等各个方面产生深远影响,医疗行业也不例外。


  北大肿瘤医院信息中心主任衡反修认为可以从数据、思维、技术、平台架构四个方面来理解这种新技术的创新性。


  • 从数据理解上来看,随着信息技术的发展,数据规模和种类急剧增长,数据呈现指数级增长态势,据麦肯锡预测,2020年产生的数据量将是2009年的44倍,接近35ZB。

  • 从思维理解上来看,对整体的近似把握往往比对少量个体的精确把握更加有价值,不以随机样本代替整体,不追求少量个体的精确度。

  • 从技术理解上来看,大数据是一次技术革新,对大数据的整合、存储、挖掘、检索、决策生成都是传统的数据处理技术无法顺利完成的。

  • 在平台架构上,大数据的平台架构是包括数据采集、数据互联互通、数据集中、数据分析加工、数据应用的五层架构,构成了数据生长和数据增值两个大层面。


  这些创新推动医院信息化建设者用大数据的思维和方法研究医疗数据。衡反修以2016年的Big Data项目为例进行了介绍。

  在平台建设上,利用16台服务器实现分布式存储业务数据,Hadoop平台基于分布式系统的基础架构可以实现对数据的高效抽取与运算,速度较传统至少有百倍以上的提高,可达到毫秒级,分布式存储也保证了数据安全。


  在数据处理上,利用切词技术与机器学习实现数据后结构化处理,同时建立医学统一标准,实现临床医疗词汇的数据归一。


  在数据安全方面,借鉴国际标准,建立了数据脱敏(加密)机制,有效保护数据隐私与安全。建立了脱敏数据反脱敏机制,为临床部分实际需求提供原始数据。脱敏与反脱敏技术既保护了业务数据安全,又为临床科研需求提供了数据,院内私有云平台保证了数据安全。


  在项目管理方面,项目实施期间并无驻场人员,而是充分利用公司资源多人参与远程实施,保障项目实施进度。而通过VPN操控远程监控与流量管控,也保证了数据留在医院内部,避免了数据泄露。


  衡反修认为,大数据技术更应注重安全,此外,新技术会产生新产品,新的管理模式会推动多专业(IT技术、医学博士、管理)、多数量人群人员参与保障项目,加快项目实施进度。


 从签署合作协议,到系统上线完成,用了不到一年的时间,这是衡反修眼中新技术模式带来的新速度。在此次实践中,数据来源于HIS、EMR、LIS、超声、病理等系统,目前接入大数据平台的数据量共计约1.0T,数据范围跨越了2005年3月到2016年10月(二期已经实现数据T+7更新)这一时间段。


1

临床搜索平台

  临床搜索平台是整个项目的基础平台,在2016年12月23日上线。


  用户可以通过检索数据实现科研评估,为后期科研开展提供数据支持;扩展临床数据查询源头,方便业务部门查看关键病历;数据检索与导出可方便查询数据需求。在临床搜索平台上,不论是实现任意数据随意检索并查询相关病历的基本检索,还是自由组合条件满足特定检索方向的高级检索,亦或是按照患者和病例维度展示结果,平台都可实现1秒响应。平台检索符合医学数据特点,支持同义词查询,查询结果基于数据处理结果自动合并,同时包含了基于病案首页的全检索,可满足部分统计使用。


2

诊疗时间轴


  诊疗时间轴2017年6月30日上线。


  诊疗时间轴以患者治疗、就诊两条逻辑主线为设计原则,以时间为顺序展现患者各个就诊阶段的诊疗手段及相关节点信息,突出显示重点诊疗信息,如诊断、手术、放疗、化疗等,为临床医师提供全诊疗过程的就诊信息支持。此外,诊疗时间轴事件点会自动关联事件信息,提供精准支持,还可按不同科室、病种关注点的需求“定制”观测指标,方便临床查房治疗过程的追踪和对特定指标的关注,以为诊疗计划的制定提供辅助。


3

专病数据库


  专病数据库于2017年7月上线,也是最后一个上线应用。


  定位于特定病种科研数据的专科数据库为科研而生,并不是新鲜事物。专科库最原始的状态是临床科室手工录入EXCEL表格,这种整理方式费时费力,而且容易出现录入误差。比EXCEL更进一步的是结构化病历文书,和基于单机版的科研宝,这些都只能在某些科室和病种适合和实现,比如结构化病历文书,由于信息采集和临床病历书写在效率和内容上的冲突,在复杂病种很难落实。而基于大数据后结构化的数据收集引入了大数据手段,避免了医师寻找数据的繁琐工作,结构化数据可实现数据的自动匹配和录入,引入数据质量管理也能提高科研数据收集质量。


  专病数据库架构是在大数据基础平台之上,采取了基于数据分组、双录的质控核查体系,利用标准数据集确定了疾病的常用字段,确定了每个字段的值域以及对应值域标准,以及数据源对应关系,经过数据标化和对应处理,其中L1(格式化字段,比如检验数据)直接映射准确率达100%,通过不同数据加工方法和质控标准,大段文本中结构化归一,准确召回率在80%以上,跨多个文本或字段计算的准确率在70%以上。专病数据库采取人工核对的方式以提升数据准确性,所有核对操作均有留痕,便于追踪,最终准确率接接近100%,且数据可复用。统计数据显示,双录方式可以直接提升专病数据库的数据质量——首次手工录入数据准确率一般在60%左右,辅助大数据手段在75%左右,经过双录机制后,数据准确率可以达到90%~95%。


根据目前医院信息化发展阶段及大数据产业发展趋势,衡反修提出两个设想。


  一是建设基于大数据平台的医院(B2B-医院对医院)数据共享联在数据联盟内,支持一定规则下、有限范围内的数据共享,首先实现在联盟医院之间形成有限的基数数据共享,此后逐步扩大共享数据的范围,最终目标是统一和开发新的数据指标项目。这一平台的优势在于缩短数据共享周期,对指标进行快速发布与共享,通过平台进行多维度指标分析,通过平台共享,提升数据安全性。


  二是建设基于公有云的第三方随访科研数据模式。面向临床,进行科室间合作,院内派驻采集,院外委托随访,数据人机质控。从临床业务数据患者管理到结构化数据HIS、LIS,到患者合规采集、患者随访、构建和提取数据,最终建成云端科研大数据,研究及临床数据、数据分析平台、患者管理,可支持单病种定制数据、自动推送、引导式随访、进度追踪、数据统计、随访员管理、录音质检、多系统协同。






点击这里给我发消息
点击这里给我发消息