云南省肿瘤医院大数据应用探索

2017-11-02 09:48:59 爱德腕带 阅读

云南省肿瘤医院,即昆明医科大学第三附属医院,是云南省唯一一家集医疗、科研、教学、临床医学的三级肿瘤专科医院,现有编制病床2500张,是云南省癌症防治研究人才培养及肿瘤学术的交流中心,也是国家卫计委肺癌、食管癌、大肠癌的早诊转治基地,云南省肿瘤继续教育基地。


作者

e医疗/郑序颖

云南省肿瘤医院信息中心主任路健


云南省肿瘤医院大数据应用探索


  云南省肿瘤医院信息中心主任路健认为,想了解医疗大数据,首先要“正名”——什么是大数据?什么是医疗大数据的研究方向?基于此,路健从科研、管理、精准医疗三个方面分享了目前云南省肿瘤医院在大数据运用方面的探索和经验。


文章要点速览


医用腕带
  1. 为大数据“正名”:在医疗行业,“大”不是唯一标准,有时候大数据中的“小数据”反而是具有颠覆意义的。

  2. 医疗大数据特色鲜明:国内研究目前重点在五个方向上,要找准研发点。

  3. 实践出真知:云南省肿瘤医院借助大数据平台进行了医院管理运营、科研、临床等方面的探索。

  4. 文章内含些许技术探讨:患者隐私脱敏有什么原则?数据清洗流程如何建设?如何进行存储改造……


“正名”大数据:“大”不是唯一标准

 

  “人人都知道,人人都说好,但它究竟是什么?”路健提到,与三五年前行业里刮起过一阵的BI风潮相比,“大数据浪潮”显得更具战略性、资源性。“网上一分钟,人间一万年!”在路健看来这并非夸张:“根据2015年的一份统计结果显示,在互联网上每一秒会有2亿封邮件被发出,苹果的App Store里会产生4.7万次下载,Facebook上会产生600万次访问……这些数据对应到现实生活中,意味着信息爆炸式的增长和衍生。”


根据维基百科定义:大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工在合理的时间内达到截取、管理、处理,并整理成为人类所能解读的信息。


  “时间往回倒退五十年,每个人都可以通过报纸了解当天身边发生的事情,因为所有的信息量都在那张报纸上,但现在我们没办法了解到我们每天发生的所有事情。因为信息量太大,我们只能选择关注的重要信息去了解。”路健说。


  在麦肯锡给出的大数据定义中,更强调“主观度量”:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据级,尺寸并无主观度量——这意味着虽然同样是人类无法通过大脑来运算的数据集,但“大”并非唯一标准,“其实比量级更重要的是数据的复杂性。”路健解释道,有时候大数据中的“小数据”反而是具有颠覆意义的。所以,大数据并不是TB、GB级别的数据,它因其复杂性而得以从“量”中体现价值,这才是大数据。


  目前行业公认的大数据含义包含四个维度,即“4V”定义。

Volume,即体量

非结构化数据的超大规模和增长占到数据总量的80%~90%,比结构化数据增长快10~50倍,是传统数据仓库的10~50倍——这是大数据的“大”。

Variatey,即多样性

大数据的异构和多样是一个突出特点,文本、图像、视频等等格式并存是常态——这是大数据的“杂”。

Value,即价值密度

大数据的价值体现在需要从大量不相关信息中提取对未来趋势、模式的可预测分析,如机器学习、人工智能等深度复杂分析应用,价值密度低,这是大数据的第三个特点。

Velocity,即速度

大数据的分析需要实时分析,而非批量式分析,数据的输入、处理与丢弃速度快,对效果要求“立竿见影”,这是大数据的第四个特点。

  

  “所以大数据的4V特性就是‘大、杂、低、快’。”路健总结道。


找准研发点:医疗大数据特色鲜明

 

来看一组数据


  • 2017年5月,瑞典隆德大学的研究人员推出了世界上最快的相机,它每秒能拍5万亿张照片,这比十九世纪拍摄的照片总数还多。

  • 根据IDC报告预计,到2020年全球数据使用量将达到35.2ZB。

  • 在不少医院,数据量已经超过100TB量级,云南省肿瘤医院影像数据在两年前就已经超过300TB。


  在这个数据“爆炸”的时代,医疗行业大数据有可挖掘空间。


  在大数据时代,医院信息化建设者们在做好系统集成、数据存储、数据安全、标准化清洗、智能解析的基础上,通过智能化、信息化技术手段挖掘医疗大数据的价值,提升效率,充分释放数据价值,是医院信息化发展到当前阶段的必然选择。


  路健总结了国内目前在医疗大数据方面的研究现状,认为国内研究目前重点在五个方向(图1):第一,科研支持;第二,教学应用;第三,医院管理;第四,精准个体医疗服务;第五,医疗AI。


在科研支持方面,其价值主要体现在三类项目上。第一类是基因序列研究,各国陆续建立基因组大数据分析平台,希望从基因序列和临床数据中发现病因或治疗方法,主攻方向包括癌症、糖尿病、具有遗传性的疾病和罕见病等。第二类是药物研发,大数据技术的运用将极大地促进新药物研发,例如可以在虚拟药物筛选中将药物筛选过程在大数据系统中进行模拟,对化合物可能的活性做出预测。第三类是治疗研究,运用大数据技术可对临床数据结合治疗方法、治疗用药分析出更为优化的药物搭配。


  在教学应用方面,医学院校的教师凭借个人积累已经无法满足新型教学需求,由于大数据可以全面、真实地反映和呈现事物特性和发展规律,越来越多的“去经验”式教学成为大数据时代改善医学教育的抓手,得益于资源的平台化,在线远程教育和VR教育也正在缩短医学人才的培养周期。


  在医院管理方面,大数据技术主要从三个方面发挥其作用。第一,能够辅助管理者对医护人员从多方面进行精准评价,使医院管理更加规范化、标准化、科学化。第二,通过对医院各系统数据的整合、挖掘,提出分析及趋势预测,辅助管理者进行运营决策。第三,大数据平台的有效应用有利于提升医疗信息的透明度,消除信息不对称,改善医患关系。


  在精准个人医疗服务方面,精准医疗、病情监控与预警、健康管理三方面令人瞩目。精准医疗重在通过对组学数据的研究对个人重大疾病风险进行评估,以便及时治疗降低患病风险或提前建立疾病监控;病情监控与预警重在运用“大数据+可穿戴设备”对患者体征数据和个体行为进行监控;健康管理重在通过对个人健康档案的数据分析提供个性化健康管理方案。


  在医疗人工智能方面,辅助诊断与治疗是重要方向。通过对体检数据和病情描述、症状描述数据的分析以得到病情推理;通过机器学习技术推动医学影像的图像识别,辅助医生进行病变检测、患病识别;通过对患者病历的分析向医生推荐最优治疗方案……


  “我是学计算机的,完全不懂医。但是我们可以利用计算机帮助医生把医疗、诊疗过程记录下了,总结出规律来,辅助医生看病——我相信未来我们一定能通过大数据找出治疗各种疾病的最佳路径,帮助医生把病看得更好。”路健道。


实践出真知:落地应用才是真价值


  路健介绍了云南省肿瘤医院在大数据方面做的一些应用探索。“这件事是的发端是肿瘤云医院平台建设。”路健回忆道。


  云南省肿瘤医院在2016年的9月上线了肿瘤云医院平台(点击查看:首家:云南省“肿瘤云医院”发布,打通肿瘤专科云医疗,连通了云南省的州、市、县三级医院,“三级医院的HIS、电子病历、LIS、PACS这四大核心系统全部连通,医生在家里面就可以实时地看到患者所有的情况。”路健介绍道,医生可以通过手机将患者的医嘱、诊断、病历、检查、检验等信息直接发给上级医院的医生请求会诊。从硬件搭配上来说,在云南省肿瘤医院的每个科室都配有一块65寸互动大屏,以便科室与科室之间、科室与地州连通的医院间进行实时远程会诊。


  “架构搭建完成后,我们首先对四个核心系统的数据进行了清洗,整合到院内数据中心。”据路健介绍,医院内部建立了私有云,对各种数据进行处理、归档、整合后,便产生了“如何更好地利用这些数据”的想法。


  “首先最先想到的是把所有这些数据进行管理方面的挖掘,看看每天的运营情况。”作为一家拥有37个科室、近两千名职工的医院,运营管理需求首先被提上日程。“这部分工作还是BI层面的。”路健认为,数据挖掘可以针对管理者提供定制的可视化数据呈现,并及时汇总平台运行的医疗状况,实现有效的运营预测和指标预警。


  这件事做顺畅后,更进一步的科研和临床需求被提了出来,比如是否可以开放“临床试验”功能辅助临床进行前瞻性试验的开展?比如是否可以基于临床症状进行智能诊断建模?比如是否可以基于病种实现智能辅助诊疗建模?


  “我们首先要做的是改造存储。”路健认为,用非关系型数据库MongoDB和MySQL进行数据存储,可保护数据完整性,具有读写速度快,运算效率高,支持分布式计算等优点,特别适合海量数据的存储运算。

医院HIS、LIS、PACS、电子病历都是Oracle和MSSQL的数据库,因此首先采用异构信息集成技术,将医院各类传统基础业务系统进行全面整合,基于集成平台,通过标准ETL流程进行全临床数据清洗后全部转到MongoDb和MySOL平台上,以便后续海量数据的运算(图2)。数据入库时以患者个体为核心整合历次诊疗事件,并根据医学逻辑设定入库口径,以保证数据库的严谨性性、规范性、易用性。“这样就形成了我们院内的数据仓库。”路健道。


  数据仓库建好后,医院首先在科研上进行了大数据应用探索。路健展示了一张数据量丰富的图(图3)。据介绍,这是对医院2013年以后的数据进行抽取后按照病种进行了分类显示:乳腺患者病历最多,有35842份病历;其次是胸外科,29044份病历;妇科,23086份病历。在图表右侧可以看到相关病种患者的平均出院日、住院天数、年龄分布、术前评估等信息。



“我们的病历全是文本形式的,进行了结构化处理后系统可以进行自动筛选。”路健介绍了医学文本智能识别算法,这一算法可以模拟人脑处理语言的逻辑,对所有文本信息进行自动后结构化处理,包括入院记录、病程记录、手术记录、医嘱单、影像报告、病理报告等。


  借助数据仓库和医学文本智能识别算法,可以对单病种数据进行一些挖掘。为了更好地支持科研,医院内部单独建立了大数据科研平台,建起了云南省肿瘤医院的“百度”:输入检索内容即可快速找所有相关记录及相应统计,结构化的数据展现可以极大地方便使用者。随着检索条件的增加,检索精度也会随之提升,与检索词相关的基本信息、术前评估、手术情况、术后病理、病理诊断、出院信息、随访信息等也随之关联并展示。


  “为了保证患者隐私,我们对数据进行了脱敏处理。”不过路健建议在数据脱敏时候也要考虑到溯源问题,不建议完全脱敏,目前云南省肿瘤医院检索平台上的数据均可溯源。


  “科研方面还有很多可做的,我们依旧是摸着石头过河的探索阶段。”路健认为。


云南省肿瘤医院的辐射范围有多远?


据大数据平台数据显示(图4),该院接待肿瘤患者来源最多的是昆明市,其次是曲靖市、玉溪市,从全国来看,最北到达漠河,最西到达新疆乌鲁木齐,最南辐射到海南岛,但总体来看,云南省占比最高。


  同样在平台上显示出来的还有单病种的预防信息。通过对昆明市所有患者病种的筛查发现,昆明市发病率最高的是乳腺恶性肿瘤,这意味着乳腺癌在昆明市这一区域内是非常值得关注的疾病。


  除了科研、医院运营方面的应用,云南省肿瘤医院尝试着探索精准医疗。


  谈精准医疗,首先要谈深度学习。深度学习是机器学习研究中的一个新领域,通过多层感知器让机器自动在数据里找到特征或者规律,从而对数据进行预测和分类。深度学习在一定程度上模拟了人脑对外界环境学习和理解过程。深度学习主要应用于计算机视觉、语音识别和自然与处理,在图像处理中的典型应用包括图像识别、场景分类、目标检测、场景分析。


  路健详细介绍了基于深度学习实现图像识别的过程。


  第一步是图像采集。医院请临床医生对一些典型医学影像进行标注分析;第二步是进行图像存储;第三步是图像预处理;第四步是把具有典型性的图像放入图像样本库,接下来就是设计深度学习模型、搭建深度学习环境、学习训练及模型调优、部署生产环境,投入应用后应不断进行优化与完善。


  “我们首先针对肺癌进行了尝试。利用大量恶性和良性肺肿瘤的图片做对比后形成模型,让模型不断地去学习、识别,日渐趋于精准。”路健介绍道,训练完成的模型能够对肺结节进行自动识别(图5)。有了肺结节的经验,现在云南省肿瘤医院正在尝试进行脑部CT的智能化监测,在临床医生标注的大量脑CT数据的基础上,利用深度学习技术设计深度神经网络,以实现对脑部肿瘤、脑出血等部位的检测定位。此外,对皮肤癌的病理切片检测模型也在训练中。


  据路健介绍,目前基于深度学习的影响辅助诊断系统还在探索完善中,上传影像资料后系统会显示诊断结果供参考。“我希望我们今后可以让这部分诊断越来越丰富,真正为医生减压,我们在努力!”路健表示。










点击这里给我发消息
点击这里给我发消息