大数据应用:医疗和生命科学用例

2016-12-15 09:23:55 爱德腕带 阅读

用例1:电子病历数据


应用方向


围绕医疗数据的大型项目不断出现。这些项目包括:


  • 开发学习型医疗系统,用以支持循证临床决策,要求基于实时的、准确的、最新的、以病人为中心的临床信息进行分析处理;

  • 利用电子临床观察数据,高效、快速地把科学发现转换为有效地临床处置;

  •  以电子方式共享集成的医疗数据,用以提高医疗流程效率和治疗结果。


这些项目都需要依赖于高质量、大规模、标准化,以及聚合的医疗数据。在医疗机构内部和医疗机构之间,需要利用更高级的方法来规范患者、医疗服务提供者、设备和临床概念标识。此外,利用特征选择、信息检索、增强型机器学习决策模型从非标准、离散和自由文本等临床数据中定义和抽取临床表现型。临床表现型数据用来支持队列(同期组群)选择、临床结果研究以及临床决策支持。


当前进展


印第安纳患者治疗网络(INPC)是全美最大、运行时间最长的医疗信息交换中心,存储了来自1100多家医疗服务机构的临床数据。拥有超过20TB的原始数据,这些数据包括了1200多万患者和40多亿离散的临床观察数据。同时,每天还增加50万到150万条实时临床事务数据。


未来发展


运行在印第安纳大学超级计算机上,基于Teradata、PostgreSQL、MongoDB支持的信息检索方法来标识相关临床特征(诸如,潜在语义分析、共有信息)。利用NLP技术抽取相关临床特征。基于最大似然估计量和贝叶斯网络,利用已验证临床特征来参数化临床表现型决策模型。决策模型可用于确定多种临床表现型,诸如糖尿病、充血性心力衰竭、胰腺癌。


用例2:病理影像/数字病理


应用方向


数字病理影像是一个新兴的领域,通过对于细胞组织标本的高分辨率图像的检查,来实现更新型、更有效的疾病诊断方式。病理影像分拆出大量的空间对象(也即是,每个图像有数百万个对象),诸如细胞核和血管,及其边界,以及许多从这些对象中提取的影像特征。其派生出的信息用于进行复杂查询和分析,以支持生物医学研究和临床诊断。下图给出了二维和三维病理图像的示例。                         


数字病理——二维和三维病理影像示例.jpg

图1:病理影像/数字病理——二维和三维病理影像示例


当前进展


每一个二维图像都包含1GB的原始影像数据,并相应产生1.5GB的分析结果数据。消息传递接口(MPI)用于影像分析。数据处理基于Map/Reduce(一个数据处理程序)和Hive(用于概括Map/Reduce程序、支持数据仓库交互的程序)进行,以及基于超级计算机和云进行空间扩展。GPUs能够有效地用于图像创建。图2展示了Hadoop-GIS(一个空间数据仓库系统)的架构,基于Map/Reduce为病理影像分析提供空间分析能力。


病理影像-数字病理.jpg

图2.病理影像/数字病理


未来发展


近阶段,利用三维激光技术或组织连续切片扫描形成三维病理影像成为可能。从已登记的系列图像中分拆出三维微解剖对象,能够从一张图像中产生数千万个三维对象。这就为下一代诊断提供了人类身体组织的深度“地图”。三维图像能够包含1TB的原始影像数据,相应产生1TB的分析结果。一家现代医院一年将会产生1PB的数据。


用例3:计算机生物成像


应用方向


从生物成像形成的数据越来越自动化、更高分辨率、多模式。这就形成一个数据分析瓶颈,如果大数据技术能解决这个问题,就能推动生物科学发现的进一步发展。


当前进展


当前零散的分析方案还无法扩展到新兴机器所产生的数据上,这些机器单次扫描即达到32TB;也无法扩展到医疗诊断影像方面,每年可形成70PB的数据。对于生物影像数据模型的生产者和消费者来说,需要一个基于网络、一站式程序来实现高性能、高流量的影像处理。


未来发展


未来的目标是通过超大规模计算和以社区为中心的科学网关来解决这个瓶颈,这两个方案都要应用海量数据分析来处理大规模影像数据集。工作流组件包括数据采集、存储、增强、降噪、兴趣区域分割、群体选择和特征提取,以及对象分类、组织和搜索。推荐软件包是ImageJ、OMERO、VolRover,以及高级分割和特征检测软件。


用例4:基因测序


应用方向


BottleConsortium的NIST基因组集成了来自多种基因测序技术和方法的数据,用以开发全人类高度可信的表征作为参考资料。该联盟还开发一些方法来利用这些参考资料,以评估基因组测序运行的性能。


当前进展


NIST的大约40TB的网络文件系统(NFS)已经存满。而美国卫生研究院(NIH)和美国生物技术信息中心(NCBI)目前也存有PB级的数据。NIST还利用开源测序生物信息软件来存储数据,这些软件来自学术团体(基于UNIX系统)、构建于72核集群上,并有更大型系统来辅助协作。


未来发展


DNA测序仪每天能够产生大约300GB的压缩数据,而这个数据规模还在不断增长,远远超过摩尔定律给定的、计算机处理能力的增长速度。未来数据可能包括其他“组学”(诸如基因组学)测量数据,其数据量甚至超过DNA测序数据。云也已经被发展成为一个成本经济性可扩展方案。


用例5:METAGENOMES/元基因组和基因组的比较分析


应用方向


针对一个元基因组样本,该用例旨在做以下内容:


  • 根据其他孤立的参考基因组确定社群构成

  • 表征其基因的功能

  • 开始推断可能的功能路径

  • 表征与其他元基因组样本的相似性或差异性

  • 开始表征在环境压力变化的情况下,社群构成和功能的变化

  • 基于质量度量和社群构成来拆分数据的子部分


当前进展


当前有关元基因组和基因组的集成比较分析系统是包含核心数据的交互式网页用户接口(UI)的前端。该系统还包括后端预计算和批处理服务器,处理来自UI的申请。该系统还提供标准生物信息学工具(诸如BLAST、HMMER、多重调整和系统发生工具、基因调用者、序列特征预测器)的接口。


未来发展


对于异构生物数据的管理目前是由RDBMS(诸如,Oracle)来实现。不幸的是,这些系统的功能无法扩展,甚至都不能有效处理现有规模的数据,也即是50TB的数据。NoSQL方案旨在提供一个替代方案,但是该方案并不总是适用于实时交互式使用或快速并行批量加载,某些时候该方案还存在健壮性问题。


用例6:个性化糖尿病管理


应用方向


糖尿病是世界上病例日益增多的疾病,对发展中国家和发达国家都存在很大影响。当前的疾病管理策略没有充分考虑个体患者的情况,诸如合并症和用药情况,这些在慢性病人中比较常见。必须在电子病历系统中应用高级的、基于图形的数据挖掘技术,将电子病历数据转换为RDF(资源描述框架)图形。这些高级技术将有助于搜索糖尿病患者,并允许抽取其电子病历数据进行治疗结果评估。


当前进展


典型的患者数据记录由100个可控词汇值和1000个连续值构成。绝大多数数值都拥有一个时间戳。传统的行列查找范式需要更新为语义图遍历。


未来发展


第一步是在一个大型电子病历数据库(即,个性化群组)中进行患者记录比较,并确定相似患者。之后,评估每个患者的疾病管理结果,以便于为指定的糖尿病患者制定最合适的治疗方案。这一处理过程将使用高效并行检索算法,适用于云或高性能计算资源(HPC),利用开源Hbase数据库,及其索引和定制化搜索能力来识别确认可能感兴趣的患者。用于属性值的语义链接方法将用于把Mayo Clinic现有的一个数据仓库(称为企业可信数据库,EDT)转换为RDF三元组,并通过链接词汇值和连续值来发现相似患者。在查询之前需要处理时间依赖属性,以支持进行派生物和其他派生属性的匹配工作。


用例7:医疗统计相关的人工智能


应用方向


该应用的目标是分析大型、多模态医疗数据,包括不同的数据类型,诸如影像、电子病历、基因数据和自然语言。该应用采用的是关系概率模型,具有使用概率理论处理富关系数据以及进行不确定性建模的能力。相关软件从多种数据类型中获取或构建模型,并且可以集成关于复杂查询的信息和原因。用户能够提供一组描述,例如:核磁(MRI)影像和人口统计学数据。之后,可以查询特定疾病(诸如,阿尔茨海默症)。该应用还将会将会提供一个疾病可能发生的概率分布。


当前进展


单个服务器能够处理具有数百GB关联数据的数百个患者测试队列。


未来发展


数百万患者的队列可包括PB级数据规模。一个主要问题是涉及太多数据(诸如,影像、基因序列),这将使得分析工作更为复杂。有时,针对单一主题能够获得大量数据,但是主题的数量并不是非常高(也即是,数据不平衡)。这将要求学习型算法抽取多个数据类型之间的随机关联作为分析的重要特征。另一个挑战存在于数据调整和多来源数据的合并,用于进行组合分析。


用例8:世界人口流行病学研究


应用方向


目前存在对流行病(类似于2009年的H1N1流感)进行可靠、实时预测和控制的需求。处理各类流行病扩散可能涉及到信息、疾病、社会动乱的建模和计算。代理模式能够利用底层交互网络(即,由人、车辆及其活动模型定义的网络)进行预期现象的演变。


当前进展


这是一个两阶段方案:(1)构建一个综合性全球人群模型;(2)基于上述全球人群进行仿真,用来推断疫情和各种干预策略。当前100TB数据集是基MPI仿真系统,利用Charm++语言生成的。通过利用疾病驻留时间段来实现并行机制。


未来发展


大型社会流行病模型能够用于研究复杂的、全球尺度问题,大大增加了所使用系统的规模。 


(来源:摘自“美国国家标准及技术研究所之“大数据互操作性框架”,翻译:袁浩 单位:北大医疗信息技术有限公司,英文原文请见: http://nvlpubs.nist.gov/nistpubs/SpecialPublications/NIST.SP.1500-3.pdf)


点击这里给我发消息
点击这里给我发消息