机器学习如何助力阿尔茨海默病诊断?
【研究背景】
阿尔茨海默病(Alzheimer’s disease,AD)是老年人群体常见的健康问题之一,目前尚无能够缓解该疾病的方法。生物标记物能够为阿尔茨海默病的早期诊断提供应用价值,但疾病终点指标和生物标记物的缺乏在一定程度上导致了诊断困难。学者Nicholas等人提出通过机器学习方法分析脑电图(EEG)可能成为这一难题的解决方案。
【研究方法】
1. 被试
20名患者(男8名,女12名,以下简称AD)与23名健康对照组(均为无神经系统原发疾病的非AD患者,男13名,女10名,以下简称HC)参与该研究。AD从黎巴嫩的医院和诊所招募,HC从当地的社区招募。所有实验均按照独立伦理委员会(IRB)的相关指南和规定进行,所有被试或其法定监护人均按照IRB的相关指南和规定知情同意参与研究。
病史筛查后,对被试进行认知筛查测试和静息脑电图记录。以简易精神状态检查量表(MMSE)作为临床指标,在定向力、记忆力、注意力和计算力、回忆能力和语言能力5个方面表征被试的整体神经认知表现。AD组的MMSE评分在3 - 21之间(平均MMSE为11.6±5.1),HC组的MMSE评分在25 - 30之间(平均MMSE为28.1±1.6)。
(注:MMSE评分标准:最高得分为30分,分数在27-30分为正常,分数<27为认知功能障碍。)
2. 脑电信号采集与数据预处理
1)脑电信号采集
采用32导脑电系统记录脑电信号。按照传统的“10-20”电极布局方法放置电极。信号最初在1000hz或1024hz的采样频率进行采集,然后降采样到250hz的公共频率。在5 分钟的静息态下,被试坐在舒适的椅子上,要求保持放松,闭眼但不要入睡。
2) 数据预处理
脑电数据的预处理包括降采样、滤波和分割。
实验首先排除2名信号质量较差的AD患者数据。基于已有文献,从32个通道中选择了14个最具代表性的通道(Fp1、Fp2、F7、Fz、F8、T7、C3、Cz、C4、T8、P7、P8、O1、O2)进行建模。其次,对于每个通道,研究者检查了整体信号质量和阻抗水平,并排除质量低或无法修复的通道。剩余的脑电数据被降采样到250 Hz,并采用高通(3 Hz)和低通(35 Hz)滤波器,最后将脑电数据分割成1秒为单位的片段,并使用基于支持向量机的自动分析流程对每个片段进行伪迹检测。
3. 特征提取和统计分析
首先,使用MATLAB中的双边周期图函数计算每个通道的频谱密度(Power Spectral Density,PSD),并进行归一化处理(每个频率窗口的PSD除以3-30Hz所有频率窗口PSD的总和)。其次,对δ波(1-4赫兹)、θ波(5-9赫兹)、α波(10-13赫兹)和β波(14-32赫兹)四个波段进行频谱密度计算,通过对被试的14个通道进行平均得到平均通道带通滤波的脑电图(EEG)。最后,使用配对的双尾t检验对不同组别之间的频谱密度进行比较分析,并从中挑选出存在显著性差异的指标来指导机器学习模型的构建。
4. 特征选择和机器学习
图1. (A) HC和AD的功率谱密度
(B) 频率带的平均频率(注:δ:1-4Hz, θ:5-9Hz, α:10-13Hz和β:14-32Hz)
(注:所有通道的脑电图通过对每个被试的所有通道的PSD进行平均得出,阴影区域表示SEM均值的标准误差)
图2. (A)两组被试的14个脑电通道在δ、θ、α和β频段的功率谱密度
(B)每个频段中各个通道的t检验值
(C)5-11Hz之间每个赫兹频段的t检验值
(注:在B、C两个热图中,红色表示p值小于0.05,选用黄色矩形框选四个P值最小的特征为机器学习的特征)
由图1A可以看出,HC和AD在5到11赫兹之间的频率区间差异性最大,研究者对该频率区间进行研究,根据功率谱密度图(如图2)进行特征选择,得到了98个特征(7赫兹的频率区间 ×14个通道),基于两组之间的最高显著水平(图2C的四个黄色矩形框)建立了一个通道-频带数据集用于训练二分类模型。经过尝试多种分类算法,最终使用效果最好的逻辑回归算法。通过比较样本的真实标签与预测标签,计算了在k折交叉验证中的分类准确率。以上方法的概括如图3所示。
图3. 自动化识别流程概述
(注: A:EEG数据收集,B,C:从时域到频域的转换,D:频率降采样,E:去除低质量通道,F:基于支持向量机的自动化伪迹检测与去除,G:特征提取与选择,H:输入到机器学习模型(逻辑回归))
5. 实验结果与分析
1)功率谱密度(PSD)分析:
在对所有通道的平均PSD进行定量分析时,研究者发现AD与HC之间存在显著差异(如图1所示)。具体而言,在θ波段中,HC的平均PSD较低(0.32±0.01),而AD的平均PSD较高(0.41±0.02),p<0.001;在α波段中,HC的平均PSD较高(0.46±0.02),而AD的平均PSD较低(0.35±0.02),p<0.001。同样,在β波段中,HC的平均PSD较高(0.070±0.002),而AD的平均PSD较低(0.067±0.001),p<0.001。对各个通道的PSD分析进一步显示了特定电极在不同波段(如图2A、B)和频率区间(图2C)上的显著变化。
根据统计结果,基于最高显著性水平(即最低p值)选择了以下4个PSD特征:通道P8的8Hz(p=0.001)、通道P8的7Hz(p=0.002)、通道Fp2的7Hz(p=0.003)和通道Fp1的7Hz(p=0.009)。基于已有文献,AD的进展表现为低频功率(δ波和θ波)密度的增加和高频功率(α波、β波)密度的降低,本研究的结果大致符合以往研究的发现,虽然HC和AD患者之间的δ波没有显著变化,但可以观察到AD患者θ波功率密度的增加以及α波和β波功率密度的降低。
2)逻辑回归(LR)分析:
使用逻辑回归分析,数据集平均准确率达到81.11% (AUC:86.58%,精确度:78.33%,召回率:75%),超参数包括:C=1,class_weight=None,fit_intercept=True,max_iter=400,multi_class='auto',penalty='l2',solver='liblinear'。
【研究结论】
综上所述,本研究通过机器学习方法对脑电图进行分析,成功开发了一个准确率达到81%的逻辑回归模型。该模型可作为辅助手段用于临床诊断阿尔茨海默病,以提高诊断效率。为了进一步验证本研究的结果,本模型还需要在更大的数据集上进行进一步的评估和测试。
【文献信息】
原文:The development of an automated machine learning pipeline for the detection of Alzheimer’s Disease
作者:Nicholas Chedid, JudieTabbal, Aya Kabbara, Sahar Allouch & Mahmoud Hassan
期刊:Scientific Reports
发表时间:2022.12
DOI: https://doi.org/10.1038/s41598-022-22979-3