兼论医疗大数据面临的技术挑战与选型问题

2017-09-25 10:08:33 爱德腕带 阅读

人类从未中断过对预测未来的探索,在这个数据驱动的时代,计算机将承载这一使命,并为精准预测带来了可能。在正在进入云时代的医疗信息化行业,IaaS、PaaS、SaaS已成为我们耳熟能详的词语。数据即服务(DaaS)推动着下一代的信息化征程。患者需要医生依据数据提供的服务,医生也需要依据数据进行诊断和治疗,医疗机构的管理者们更需要依据数据开展决策和管理。



致谢

感谢以下专家对本文的贡献


国家卫生计生委统计信息中心原副主任王才有

北京大学信息科学技术学院副教授童云海

Intel合作伙伴关系部中国区解决方案架构师卢中延



  医疗大数据的本质是数据。回顾计算机科学发展历史可以看出,人工智能和认知计算有其形成和发展的自然足迹。医学具有科学、艺术和人文的综合特征,特别是医疗数据的复杂性和碎片化等特点,对医疗大数据发展的机遇提出了严峻的挑战,但是从长期来看,医疗大数据的发展机遇无限。


医疗大数据价值的基础


数据的价值在于其含义,即Meaning——大数据的价值,就是让更多的数据的Meaning汇集到一起。


  科学认识大数据本质是实现大数据价值的基础。《大数据》作者涂子沛有言,数据就是静态的历史,历史就是动态的数据,历史的碎片,就是游离的数据;历史的迷雾,就是模糊的数据;历史的盲点,就是缺失的数据。


  在医疗行业,医生的诊治是一个过程,需要将患者疾病状态或治疗过程记录下来。由于医生对疾病的认识不同,因此所记录的“事实”会有所不同,特别是缺乏经验的医生,经常会忽略记录重要的病历信息,可能因此出现数据丢失,也可能导致所记录的数据没有准确地反映出客观的事实。因此数据既是事实,又不是事实。我们需要的是真正反映事实的数据,而不是误解的数据、缺少含义的数据。特别是对于大数据而言,由于其来源复杂,数据的含义不一定真实,难以实现有效应用,因此要提倡“Meaningful use”。


大数据时代的特征是,数据的流动与共享成为常态,如何获取外部数据的含义(Meaningful),如何辨别数据的真实性,这种问题是天然存在的。


  在电子病历录入场景中,让医生使用“下拉式”菜单输入结构化数据,还是允许医生用“自由文本”对这个疾病事实进行表述?前者更利于统计分析,而后者能更精确地表述和记录客观的事实。对于医疗大数据而言,这将是更大的困境。大数据时代,数据来源于外部,不由自己把控。如果获取的是不真实的数据,无法得出有价值的结果,更多情况下可能是误导。所以,一定要认识到,数据并不是越多越好,数据质量非常重要,把握数据的含义也非常重要。


  总之,理解医疗大数据本质十分重要。数据的价值在于其含义,即Meaning——大数据的价值,就是让更多的数据的Meaning汇集到一起,丰富数据的价值,实现更准确地认识客观世界的目的。


“平台”理念兴起


当今医院数据应用正在步入企业数据时代。


  医疗系统的数据利用是最有价值和前景的行业,当今医院数据应用正在步入企业数据时代。


  医疗大数据需求一方面是源于临床,临床决策支持系统(CDSS)就是最好的证明。常用的临床决策系统数据包括:患者过敏史、用药史、家族病史和基因情况等。通过对这些数据集成分析,计算机就能够主动地给医生提供建议,由此降低医疗事故,提升医疗质量。


  医疗大数据需求另一方面源于医院管,我国医院未来的发展必将充满竞争性。如何利用现有的资源,提高资源利用率,降低服务成本,提升服务质量和医疗安全水平,提升患者满意度,都需要医院管理者更好地利用数据。


  总之,临床和医院管理都需要一个不同于过去医院信息中心和医院统计科的数据分析利用服务平台,整合数据,分析数据,发挥价值,为临床医生和管理者们提供数据分析支撑,这个创新服务就是“平台”。


关键技术挑战


如何针对医疗大数据的基本特性,有效突破医疗大数据分析的关键技术已经成为学术界的研究热点之一。


  与其他行业的大数据相比,医疗大数据具有数据增长速度快、保存周期长、粒度差异大、数据异构性强、带时空标记、特征维度高、隐私保护要求高等特点。如何针对医疗大数据的基本特性,有效突破医疗大数据分析的关键技术已经成为学术界的研究热点之一。


  目前比较成熟且进入实用阶段的大数据模型多数都是面向药厂和保险公司的。美国的医疗大数据应用中,面向医生和患者业务通常较难,很难找到合适的切入点。面向企业的业务相对容易,尤其是针对保险公司和药厂,而医院则相对难一些。由于大数据模型精度有限,在安全性要求极高的医院和医生中其实用价值非常有限,例如,一个95%准确度的模型对医生来说可能仍然不够精确,因为医生在决策时是针对患者个体的,而不是基于统计意义的。


医疗大数据涉及到电子病历、医学影像、医院视频等多种类型的数据,医疗大数据分析的关键技术包括五项。


(1)面向医疗电子病历的结构化信息抽取技术。这项技术主要涉及医疗命名实体及其属性识别、医疗知识图谱构建和医疗知识图谱应用等几个方面。


(2)面向医学影像的数据分析技术。目前的研究主要集中在两个方面,一是医学影像处理研究,包括医学影像的增强、分割、配准、融合以及三维重建等,为医学影像数据应用提供技术支撑。二是医学图像的分析,通过对医学影像的模式识别与分类,实现对医学图像的自动标注。并根据图像的特征及标签为图像建立索引,以实现后期用户的图像检索任务。


(3)面向医院监控视频的智能分析技术。将智能视频监控系统应用于监护中心,可以自动识别医护人员和患者的日常行为(如行走、交谈、诊断、肢体冲突等),并对异常行为实时预警。


(4)医疗大数据的数据治理体系。一方面,从数据驱动出发,在数据层面上实现面向主题(Subject-oriented)的数据组织、多个不同数据源的数据集成、反映医疗数据的时空变化的数据环境,是医疗大数据组织存储的基本要求;另一方面,从平台层面出发,需要利用云技术,构建新的运行环境,满足海量数据的存储要求。目前,国内在该方面的研究亟待加强。


(5)医疗大数据的隐私保护技术。技术层面上,常用的有基于访问控制的技术、基于匿名化的技术和基于数据加密的技术等。近年来,隐私保护和隐私攻击模型同步发展,对各类方法的有效性提出了严峻挑战。近期以差分隐私保护为代表的新的研究方向,成为面向医疗信息发布的隐私保护方法的主流,该方法不关心攻击者拥有多少背景知识,通过向查询或者分析结果中添加适当噪音来达到隐私保护。


英特尔大数据平台技术分析


  医疗大数据通用平台的技术选型须考虑以下因素。


  (1)采用云计算技术来构建整体后台技术架构,以支持大规模终端和用户的接入,同时考虑成本投入回报及业务动态扩展时的支持能力;


  (2)超大规模终端的数据实时采集和处理已经超出现有关系型数据库的处理能力,需要采用当前比较成熟的大数据处理技术


  (3)医疗信息后端大数据平台需要综合处理结构化数据、非结构图形和图像数据、数据备份和恢复等,因此需要分布式存储解决方案来满足需求各异的数据存储和处理需求;


  (4)医疗信息后端大数据平台根据云平台的特点、大数据和分布式存储的需要,来考虑数据中心网络接入和整体网络架构,灵活支持云计算对弹性网络的需要。在网络设计阶段,还需要考虑不同数据中心之间的业务分担、互备、业务迁移等需求;


  (5)医疗信息后端大数据平台需要通过移动互联网和传统互联网接入大规模终端、各医疗节点数据和大量终端用户,平台的安全性至关重要。在安全性方案选型时,除了需要考虑传统数据中心所必备的防入侵、防攻击、数据安全等功能外,还需要结合云计算所带来的其它安全需求。

  为了适应当前及未来医疗信息大数据平台的运营需要,并综合考虑投资回报及综合运营成本,在技术选型方面须考虑如下四点。


  第一,采用大数据处理技术,对前端大规模端实时数据执行采集、处理、存储和分析等;通过数据处理平台的动态资源扩充来支持终端数据的动态变化;基于投资成本和后期运维管理需要,采用成熟的开源大数据处理方案。


  第二,由于集中的存储解决方案在成本、可扩展性和高可靠性上难以满足医疗信息系统大规模数据量下运营管理的需要,因此,采用商用和开源的分布式存储解决方案来满足医疗信息系统大数据方案要求的存储高扩展性、高可靠性和低成本。


  第三,IT运维管理解决方案采用成熟的开源解决方案来满足运维管理需要。


  第四,就安全管理而言,建议采用软硬件相结合的商用安全解决方案来满足医疗信息系统对防入侵、防攻击、数据安全等的安全要求。


医疗大数据是一个新的生存与发展生态,除了技术之外,还要培育技术与发展环境,构造专业的数据驱动型组织,实现认知提升,知识融和,技术协同,能力提升,制度创新,这是发展的基础和保障。


点击这里给我发消息
点击这里给我发消息