研究背景
面对新冠肺炎,探寻一种快速而全面的筛查手段是疫情当前的一项重要任务,尤其是针对无症状感染者,全面的筛查更是重中之重。目前所采用的筛查方法虽然尽可能的压缩了成本和时间,但仍有很大的进步空间。那么是否存在一种更为高效且成本更为低廉的筛查手段?麻省理工学院的研究团队展开了相关研究,他们创建了一个人工智能模型,该模型能够通过咳嗽声对无症状感染者进行识别。
数据收集
1.数据集创建
该项目采用全球众包的方式,收集COVID-19强制声音(受试主动咳嗽而非由疾病诱发的咳嗽)以及与疾病有关的官方诊断和自查问卷数据,最终在几十万次咳嗽中筛选出5320次COVID-19阳性和阴性数据,其中4256名受试者的音频作为训练数据,1064名的音频作为测试数据。表1提供了该数据集的分布情况。
表1. 数据集的分布情况
注:“Hit”列显示了每个子组上的模型准确性;“Diagnostic”区域展示了每个受试者病症的诊断来源(官方评估、医生诊断、个人评估);“Symptoms”区域展示了每个受试对症状的自我评估。值得注意的是,在阳性数据中,女性被试比男性被试多出6.2%,这可能说明了男性在确诊后和女性相比不太愿意做实验的志愿者。
2.模型构建
针对COVID-19的建模工作,该团队以此前创建的开放语音大脑模型框架(OVBM)为基础展开了相关研究,该框架最近被应用于阿尔兹海默症的诊断,其诊断结果达到了93.8%的精度,图1展示了基于OVBM框架的COVID-19鉴别模型体系结构。
图 1.基于OVBM框架的COVID-19鉴别模型体系结构
注:以咳嗽音频为输入,以COVID-19诊断和纵向显著性图为输出的COVID-19鉴别器概述架构。该结构也被应用于阿尔茨海默氏症的识别。
具体构建过程如下:
首先通过MFCC提取音频特征,然后将提取出来的向量特征作为输入导入由三个生物指标(①声带、②情绪,③肺与呼吸道)所构成的卷积神经网络(CNN)中进行训练,最终经过池化等后续处理得到筛查结果。在整个模型框架中,核心之处在于CNN的构建,那么该CNN模型是如何构建的呢?接下来本文将对三个ResNet50的建构进行介绍。
①-ResNet50(vocal cords):
研究表明,声音“mmmmm”可以反映出一个人的声带强弱,基于此,该团队利用1000+小时的有声读物对该神经网络进行训练,从中找出“them”一词。测试结果显示,该生物标志物能够检测出存在于新冠患者与对照组之间的声带变异,从而区分出54%的测试集。对于19%的被试来说,这是唯一能正确区分他们的生物标志。
②-RetNet50(Sentiment):
研究表明,神经退行性衰退患者通常表现出高于常人的沮丧怀疑等情绪,新冠患者在患病期间也会出现相同认知衰退现象。为了区分新冠患者与对照组的情绪状态,该团队训练了一个情绪语音分类器(该分类器对大量演员的情绪表现数据进行训练分析)。
③-RetNet50(Lungs and Respiratory Tract):
肺部和呼吸道的物理结构随着感染而改变,在新冠肺炎早期,流行病学家便通过强迫患者咳嗽来听诊患者肺部变化。因此肺部的状态也是区分患者与对照组的重要生物指标。该团队通过搜集大量咳嗽音频,对该模型进行训练。
研究结果
测试结果表明,该Al模型针对新冠肺炎患者识别准确率为98.5%,无症状感染者识别准确率为100%。
研究结论
1.新冠肺炎患者即使没有明显的症状,其声音也会发生明显变化,该变化可以通过AI模型有效地识别。
2.本研究揭示了阿尔兹海默症和新冠肺炎之间的相似性,在进行病症识别的过程中,二者所使用的生物标志物是一致的。这表明,除了温度、压力或脉搏外,存在一些更高层级的生物标志物可以被用来进行疾病诊断。
原文:COVID-19 Artificial Intelligence Diagnosis using only Cough Recordings
作者:Jordi Laguarta, Ferran Hueto, Brian Subirana
期刊:IEEE Open J. Eng. Med. Biol
发表时间:2020.09
DOI:10.1109/OJEMB.2020.3026928