语音识别技术在医院临床的“智能”探索与应用

2017-11-14 09:49:54 爱德腕带 阅读

语音识别技术一定程度上可以提高临床工作效率,降低工作强度,但还需进一步控制、优化抗噪性、敏感性和稳定性;为了挖掘更大的临床潜在价值,需将语音录入模板嵌入到电子病历系统、超声系统等。

---------------------------------------

文章来源:《中国数字医学》杂志2017年第10期,作者及单位:张海波 周民伟 刘晓辉 胡占生广州军区广州总医院


原文标题:语音识别技术在医院临床的探索与应用


人工智能在2016年世界互联网大会成为热议的主题。百度CEO李彦宏更是发表演讲指出,移动互联网时代已经结束,人工智能才是未来的方向。美国斯坦福大学研究认为,2017年将是人工智能应用开始普及的重要一年,将开始在医疗、制造、交通、金融等众多领域得到应用。智能语音识别技术是人工智能的一种,它是让机器通过识别和理解过程把语音信号智能地转变为相应的文本或命令的技术,是人工智能技术的应用。


语音识别所要解决的问题是让计算机能够“听懂”人类的语音,相当于给计算机系统安装上“耳朵”。人类在语音识别领域的研究可以追溯到上世纪的90年代,贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统,经过不断的探索,发展到今天的基于深度神经网络和循环神经网络的自主学习的语音识别系统,原理如图1,语音识别整体可分成两部分,第一部分是训练,采集大量语音,通过训练自主学习训练声学模型和语音模型;第二部分是在训练完成的模型指导下,使用解码器对输入语音信号进行识别,寻找最优的词序列作为结果输出。深度神经网络使语音识别性能提升到一个全新的水平。香港德信对中国医院键盘打字输入工作量的调查显示,超过40%的医生每天需要花费大约4小时在计算机前使用键盘输入,超过一半的医生每天需占用总工作时间的40%去进行文字录入。由此可见,文字输入已成为临床医生的工作负担,严重影响到工作效率,倘若可成功将智能语音识别技术应用到医院的临床,可有效地提高临床工作效率。

语音识别在国内外医疗领域的探索


语音识别技术在欧美国家医疗领域已使用将近10年,一方面应用于帮助患者解决听力、语言等方面的问题,另一方面应用在医疗系统或诊断过程中应用语音识别。Nuance公司是全球最大的智能语音识别技术公司,为美国的医疗行业提供医疗语音转录服务,将医生的语音录音直接传送到语音服务器,转换成电子医疗记录档案进行存档。在国内,虽然日常生活中经常见到各种中文语音识别智能终端设备,以及以搜狗语音输入法为代表的各类语音识别软件,但这些仅限于简单语句及生活中常用语句的识别,对专业性强和特殊行业用语识别效果不理想,如医疗行业。Nuance公司虽然开发有中文语音识别产品,但暂无适用于医疗行业的相关产品。国内医疗相关产业中语音技术的应用基本空白,尚无相关的技术标准。因此,广州军区广州总医院与科大讯飞公司携手探索语音识别在医院临床的发展前景和潜在价值。


看点

02

语音识别私有云的部署


所有的人工智能必须基于大数据,通过神经网络不断训练、学习、建立符合规则的逻辑模型。语音识别需要不断获取语音特征,在识别时将未知的语音特征同声学模型进行匹配与比较,计算未知语音的特征矢量序列和每个发音模式之间的距离,建立参考模式库。部署符合我院特点语音识别私有云,在私有云上建立一个强大的医学知识库,该医学知识库需要对疾病名称、药物名称、检查名称、疾病体系、药物体系、检查体系建立规范与标准。其主要作用是从医生的语言中提取临床术语, 进行对比后完成结构化保存, 作为医疗语音识别基础,保证拼音输入和语音输入的正确率。


在不断使用训练过程中,可针对每个医生建立符合个人的发音模板,当云平台获取到语音数据时,通过云计算匹配符合医生的对应发音模板,最终返回语法、语义正确的文字信息到客户端。同时,随时向云平台增加医疗领域专业术语、特殊单位、特殊符号,如:切开阔筋膜并钝性分离阔筋膜张肌、Cells/μl(一细胞每微升)、呈(-)(呈阴性)等。当语音输入“一细胞每微升”时,即可识别出“Cells/μL”,这是部署语音识别私有云的优越性。与此同时,在所有老年科医生工作站配置讯飞语音输入客户端和安装抗干扰麦克风,经过不断地训练、优化、训练整个过程,达到真正的人工智能语音识别。


看点

03

语音识别技术试用情况研究分析


经过分析,试用科室医生对智能语音输入这一新技术有很大的兴趣,刚投入试用时,每天语音识别超过5万字。在试用科室详细调查,80%的医生认为语音识别技术每天可节约40分钟的输入时间,90%的医生希望通过语音输入方式以提高工作效率,减轻工作负担和工作强度。通过分别分析各科室的电子病历和病程记录,抽取专业术语、特殊单位、特殊符号,导入并且优化云平台,智能语音识别准确率逐渐提高。即使识别率不断改善,但也还达不到临床科室医生的理想效果,医生的兴趣也有所下降。


2
语音识别面临的技术难点


临床医生对刚在医生工作站试用的智能语音识别技术兴趣浓厚,可当发现这种新技术满足不了临床工作需求时,会逐渐降低使用积极性。研究分析临床科室对智能语音识别的使用情况,发现语音识别在临床科室面临着几个问题。


1语音识别平台本身问题


首先,麦克风敏感度偏高、抗干扰性低,导致语音识别过程中,出现多字、漏字,识别错误,从而降低识别正确率,当信噪比下降时,识别错误率成倍增长。提高语音识别系统的抗噪性一直是语音识别领域的重要研究方向;语音识别系统不能通过语音命令智能换行、另起一段,且不能分析语义、语法准确识别停顿符号;目前的语音输入只是一个单纯的输入法,未与临床的电子病历系统、超声系统等对接,未体现出真正的智能化,应同时与多个信息化系统使用链接,降低与原有系统的耦合性。


2临床信息系统较分散、学科差异大且专业性强问题


目前,医院信息较分散,并未统一集成,如病房医生使用电子病历系统,超声影像科使用PACS,门诊使用门诊医生工作站等,各系统间千差万别,需进一步将语音识别融合到临床信息系统。临床各学科差异大且专业性强,各学科专业术语、特殊单位、特殊符号不尽相同。


3医生的工作习惯、工作环境和口语语音等问题


临床医生习惯于使用电子病历模板,并且键盘录入速度,仅受限于对键盘的熟悉程度;其次,临床医生办公室人多嘈杂、电话频繁,较国外更加突出;最后,中国由415个基本无调音节来构成7000多个基本汉字的发音,中文的发音和字是独立的,仅仅大陆地区就有多中方言,口音问题非常严重。方言口音对声调识别错误的影响是十分错综复杂的。另外,当说话人离开预先设定的文本时, 难免产生不流利现象和不符合语法规范现象,发音通常没有朗读语音清晰饱满。 这些现象导致声学模型和语言模型的双重不匹配, 从而会导致识别率急剧下降。


面临这些问题,对医院临床使用语音识别造成一定程度的影响是必然的。应致力研究如何将影响降到最低,甚至消除,使医生语音输入识别更加流畅,语音识别的用户体验比键盘输入更加好,从而提高临床工作效率,降低医生工作强度。


看点

04

语音识别的优化方向


研究减低麦克风输入的敏感度以及提高抗干扰性来消除因工作环境、方言口音带来的语音识别影响。同时,将语音识别融合到临床各信息系统,降低与原有系统的耦合性,在云平台深度学习细化各学科专业术语、特殊单位、特殊符号。


1
优化语音提取技术


虽然麦克风均有相应滤波电路去除噪音干扰,但滤波电路只能去除人的声音频段范围以外的噪声干扰,对于人的声音频段以内的信号,例如另外一个人说话的声音等信号则无法有效去除,因此需要对用户发出的声音信号进行提取。通过有效方法改善麦克风的敏感度和抗干扰性,准确获取语音信号的起始点和结束点。


2
语音识别融合到各信息系统,建立语音模板 


为了使语音识别技术更加智能化,在医院各临床信息系统上建立各种模板,如电子病历模板,病程记录模板、护理文书模板、超声报告模板等,模板的调出,信息的补充填写、信息的导入都通过语音完成,减少医生对键盘、鼠标的操作,如超声科医生根据系统提示语音输入选择相关疾病模板,语音输入相关检查的超声描述及超声结论,医生也可以根据需要对超声描述和超声结论进行修改,对超声图片进行采集,最终语音控制打印超声检查报告。倘若一个病程记录没有模板,医生在电子病历系统通过语音录入病程记录时,可以智能录入医学单位,如语音录入血压90mmHg,医生只需语音输入血压90,单位由语音云平台“联想”录入,让云平台不断深度学习医疗领域的固定专业术语、特殊单位、特殊符号。这样较大提高语音的用户体验,提高医生的工作效率,真正将智能语音识别技术服务于临床,服务于医疗领域。


语音识别技术经过在医院临床的试用,实践证明一定程度上提高了医生的工作效率,降低工作强度。考虑信息技术和医疗技术都在不断进步,还需继续研究语音识别的抗噪性、敏感性、稳定性以及与医院信息系统融合性;同时,考虑复杂的工作环境,医生普通话的标准程度,改进语音增强、端点检测、语音识别等技术。研发出适用范围更广的语音识别系统,使其扩展应用到医院的所有信息系统,如病理系统,电话查询系统等,挖掘医疗领域的更大潜在价值,为医院的数字化服务。


点击这里给我发消息
点击这里给我发消息