
人工智能的发展已经取得了巨大成功,并在工作中做出了贡献。现在正处于数字化时代,临床实践中的数据量不断增加,这就需要医疗工作者整合并解释临床工作中的广泛信息。在人工智能,尤其是机器学习技术的帮助下,心血管内科的研究者开发了诸多的预测模型,以试图提高临床工作效率和治疗效果。主要介绍了机器学习的主要模型分类,总结了目前使用机器学习技术建立的心血管疾病预测模型,以期有利于心血管疾病的精确诊断,并为以后使用机器学习技术开发心血管疾病预测模型提供更明确的发展方向。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
人工智能是一类利用电脑模拟人类智能行为的科学技术,自20世纪50年代被正式提出以来,历经半个多世纪的发展,已经取得了显著的进步[1]。如今,人工智能技术已经在如自然语言处理(natural language processing,NLP)、人脸识别、自动驾驶和生物信息学等领域做出了巨大贡献,并依然在更新换代,展现出极强的发展潜能。对于现今的医疗领域而言,从患者处收集到的信息一般都是以电子医疗记录形式来进行保存的,医学检验结果、影像学检查结果和临床病历记录等都被进行了数字化[2]。这些电子医疗记录每天都在飞速增长,对此西方国家通常使用"4Vs"来描述,即高速度(high velocity)、高容量(high volume)、高准确性(high veracity)和高多样性(high variety)[3]。这种飞速增长使得用先前简单的方法来管理数据变得非常困难,同时也给人工智能技术,特别是作为其第一大分支的机器学习技术极大的发展空间,这一技术今后可能会对医疗领域产生重大改革。
如今,心血管疾病依然是全世界最常见的死亡原因,据估计,全世界每年有超过1 780万人死于心血管疾病。其中,缺血性心脏病(ischemic heart disease,IHD)和卒中分别约占死亡人数的50%、35%[4],而随着世界人口数量的增长和人口老龄化的加剧,其还会升高[5]。在欧洲,尽管从20世纪80年代以来,心血管疾病的年龄标准化死亡率不断下降,但其仍是该地区最常见的死亡原因之一。在我国,心血管疾病所致死亡常年居城乡居民疾病死亡构成比的首位,而IHD、出血性脑卒中和缺血性脑卒中则是心血管疾病所致死亡的3大主因。心血管疾病的负面影响并非仅来源于其所致的死亡,其所致的生活质量下降和相关残疾也应在考虑范围之内[6]。所以,心血管疾病的精确诊断和对于预后转归的准确预测成为了当前研究的重中之重。
近年来,人工智能技术在心血管领域得到了广泛应用,应用机器学习的临床预测和评估模型层出不穷。机器学习技术可以快速、精准地对心血管疾病影像中的异常进行检测,并可以对海量患者的相关检查数据进行分析和识别,进而对其患某种心血管疾病的可能性及预后结果进行预测评估,在此基础上建立的辅助决策系统还能够辅助临床医师进行医疗决策[7]。这一技术的应用可以明显提升心血管疾病诊断、治疗和预后结局预测的效率和准确度[2]。因此,本文对机器学习技术的常见模型分类和基于机器学习技术建立的心血管疾病预测及评估模型的研究进行汇总,以期利用机器学习技术对心血管疾病进行精确诊疗评估,为此类疾病的机器学习评估及预测模型提供更明确的研究方向。
人工智能是指可以模拟人类智能完成指定任务的一类电脑程序,其中,机器学习是使用给予的数据进行训练来实现人工智能的程序,而一部分训练过程无法人为干预也是机器学习模型的一大特点[8]。根据训练所用数据的性质进行分类,机器学习模型可以分为2类:监督学习和无监督学习[8]。在监督学习中,训练时所使用的数据具有标签,即模型在训练时已知晓训练数据的特征和结果,而在无监督学习中,训练数据是无标签的[9]。而在心血管疾病中最常见的机器学习模型包括K均值、决策树、支持向量机、极端梯度提升(eXtreme Gradient Boosting,XGBoost)和深度学习[3]。
K均值模型是无监督聚类模型的经典代表,其原理是将特征数据划分为多个无交集的簇,在同一个簇中的数据被认为是同一类,簇就是聚类结果的表现形式,每个簇中所有数据的均值被称为该簇的质心[10]。被划归入同一个簇的数据被认为具有相似性,所以,研究者可以通过研究聚类后所得每个簇中数据特点来进行特定事件的研究分析,K均值模型具有多个优点,如调参简单、易于复现和适用于多分类问题等[11]。
决策树模型可以用于解决分类问题和回归问题,其基本原理是在有标签的特征数据中训练出决策规则,并用树状图的结构将总结的规则呈现[12]。这种模型易于理解,适用范围广,在处理多种问题中都有良好表现,所以在各个领域都有应用,而以树模型为主要内核的集成学习模型更是大放异彩,如随机森林模型[12]。随机森林模型是由多个决策树模型集合而成,其本质是一种装袋集成学习,此类模型是对基评估器的预测结果进行平均或用多数表决来决定最终结果,也就是说,如果每个决策树的准确率升高,随机森林模型的准确率也会随之升高[13]。
支持向量机是机器学习中最受人关注的模型之一,也是最接近深度学习的机器学习技术[14]。支持向量机的工作原理是将给定的数据形成数据空间,在这个空间中找出一个使分类误差最小的超平面作为决策边界,利用此决策边界来对数据进行分类[15]。就其功能而言,支持向量机可以应用于监督学习、无监督学习和半监督学习;而就分类效果而言,支持向量机在线性分类和非线性分类中都有良好表现[16]。所以,它在识别手写数字、人脸识别和图像分割等诸多领域中应用广泛,而在生物医学领域,支持向量机已经被证明可以用于生物信息学分析[17]。
XGBoost是一种基于梯度提升的集成模型,是应用最广泛的回归模型之一,具有较高的回归精度[18]。XGBoost具有并行计算、优化内存使用和有效处理稀疏数据的优势[18]。在进行预测时,XGBoost往往比线性模型具有更好的准确性,但它也缺乏线性模型的可解释性[19]。该模型工作流程为:(1)创建决策树并初始化每个样本的预测值;(2)定义损失函数;(3)计算每个样本预测值损失函数的导数;(4)基于衍生信息创建新的决策树;(5)使用新的决策树预测样本并累加到原始值;(6)多次循环创建决策树,直到精确度达到最大值时停止[20]。
深度学习是一种如今最为流行的机器学习方法,此方法克服了传统机器学习技术无法有效解释和处理原始高维数据的缺点,如图像、音频及视频[21]。而深度学习的一个关键优势是它能够直接从原始数据中学习特征,而不需要某一领域的专家进行特征注释,因此,它为传统机器学习方法提供了一个强大的替代方案,使研究者能够以更少的用户输入执行更复杂的分析[22]。深度学习具有多种不同的架构算法,每种架构算法都有不同的优势和局限,这些架构算法主要包括卷积神经网络(convolutional neural networks,CNN)、递归神经网络(recursive neural network,RNN)和生成式对抗网络(generate adversial network,GAN)等[23]。这些算法共同的缺点就是产生的模型可能比传统机器学习技术更难解释,而且它们都需要非常大的数据集进行训练,并且计算成本很高,如果没有经过验证和调整参数,这些算法模型通常会表现为过拟合状态,尤其是在没有足够大的数据集可用时[24]。
在心脏电生理领域,机器学习这一研究方向还处于早期探索阶段,而且越来越多的研究人员对该方向表现出极大的兴趣,使其成为了一个近期广受关注的研究方向[25]。其中,心房颤动相关研究中大量的采用了机器学习技术。
Tiwari等[26]利用电子病历记录数据的200种常见特征开发了一个机器学习模型,以预测6个月内新发心房颤动的发病风险。研究中一共纳入了2 252 219人,且有28 036人在指定的6个月内新发心房颤动。而在模型选择方面,朴素贝叶斯模型、正则化逻辑回归模型、随机森林模型和梯度增强分类模型等进行比较后确定,使用随机过采样和单层神经网络联合方法构建的模型优于其他机器学习模型的预测效果,其曲线下面积值为0.80。Kao等[27]基于台北医学大学临床研究数据库中无心电图的电子病历,通过比较决策树、支持向量机、逻辑回归和随机森林模型开发了1年新发心房颤动的预测模型,以确定老年患者新发心房颤动的风险。在此研究中,使用随机森林构建的模型被认为是最优的,其曲线下面积值为0.74,特异性为98.70%。与之相似的,Suzuki等[28]利用日本314家医院急诊科的数据库基于最大似然估计模型建立了曲线下面积值为0.86,且具有高灵敏度和高特异性的非瓣膜性房颤预测模型。
在预测血栓栓塞风险方面,Geurts等[29]研究发现,将电子设备记录的远程监测数据应用于CNN建立的模型在评估血栓栓塞风险方面展现了较CHA2DS2-VASc评分更优的价值。Zhao等[30]基于极端梯度提升模型预测左心耳血栓形成的模型达到了87%的准确率,显著优于CHA2DS2-VASc评分。
心力衰竭作为一种世界性的心血管疾病,尽管在治疗方面取得了一定程度上的进步,但患者的结局仍令人失望,所以快速的诊断和评估病情对于高效的治疗至关重要[34]。目前针对心力衰竭的风险评分虽然很多,但准确预测心力衰竭患者的发病率和预后却依然困难,而机器学习技术的出现为该领域提供了新思路。
Rauseo等[35]使用随机森林模型识别了44 886名心力衰竭患者的临床信息,并应用基尼指数选择出8个预测心力衰竭死亡率强度最高的预测因子。接着,他们使用K均值模型以这些预测因子为基础,将全部患者聚类为4组,通过Cox比例风险模型成功评估了4组患者对心力衰竭药物治疗反应的异质性。Gevaert等[36]按照临床表型通过机器学习方法将患者聚类为6组,并分别预测其6、12个月的再住院率和全因死亡率,与传统的提供左心室射血分数分类方法相比,机器学习方法具有更高的准确性。Kianmehr等[37]更进一步,将心力衰竭临床亚型分类和结果转归的预测进行了结合,使用2型糖尿病患者的临床数据和因果森林模型建立了预测2型糖尿病患者发生心力衰竭风险的模型,该模型可以提高糖尿病治疗的效率,并利于找出具有心力衰竭发生风险的2型糖尿病患者亚群。
在预测心力衰竭发病情况和结局的研究方面,Moreno-Sánchez等[38]使用299名患者的临床数据集通过极端梯度提升模型和随机森林模型分别创建了2个预测6个月内的心力衰竭再住院模型,并进行了可解释性分析,2个模型的一致性指数分别为0.71、0.74,该方法在保证了预测精确度的同时也促进医疗人员对机器学习模型结果的理解。Wilstrup等[39]在研究中使用符号回归模型分析心力衰竭患者的医疗数据集来筛选主要危险因素并预测患者的全因死亡率,其结果表明该模型在预测心力衰竭患者死亡率时表现优异,并认为年龄、射血分数和血肌酐是预测心力衰竭相关死亡的主要危险因素。
据2019年统计,我国冠心病患者人数超过1 100万,且发病率和死亡率每年都在上升,因此该病是一类严重的公共卫生问题[43]。而针对冠心病的各种辅助诊断技术呈现出多样化、精细化和个性化的趋势,也使得检查结果数据的信息容量不断扩增[44]。这些正在不断扩增的数据信息为机器学习模型提供了展示其优越性的平台,基于不同数据资料类型的临床预测模型被研发出来,以试图达到早发现、早诊断和早治疗的目的[45]。
开发冠心病的机器学习预测模型时使用的另一大数据类型就是文本数据,这一类数据的优点是易于收集和整合,使用较小的储存空间来容纳较多的信息,且在模型的运行中速度更快,因此不少研究者基于这些优点开发了多种多样的冠心病预测模型。一项研究通过使用电子病历来开发和验证机器学习模型,以预测经皮冠状动脉介入治疗(percutaneous coronary intervention,PCI)术后30 d内不良心脏事件的风险,其结果表示该模型显示出优秀的预测能力,在外部验证中的曲线下面积值为0.90[46]。Li等[47]利用冠脉造影报告的文本开发一个自然语言处理模型,以预测行患者的5年全因死亡率和心血管死亡率,此模型预测患者5年全因死亡率的曲线下面积值为0.87,5年心血管死亡率的曲线下面积值为0.88。Doudesis等[48]将肌钙蛋白与其他多种临床特征整合,使用多种机器学习模型以预测心肌梗死事件,结果显示极端梯度提升模型表现最优,对心肌梗死的预测效果较好,其曲线下面积值为0.95,研究者表示使用此模型作为临床决策支持系统有可能减少患者的死亡率。
冠脉造影是冠心病诊断的金标准,由于这一检查方式其所处地位及数据保存形式的特殊性,使得研究者的研究侧重点集中于对冠脉狭窄位置与程度的精准识别,而在预测方面的研究则相对不足[49]。一项研究使用基线和随访第12个月冠脉造影的影像资料与极度随机树构建模型以预测识别支架内再狭窄高危患者,结果显示该模型曲线下面积值为0.77,且与presto和EVENT风险评分此2类现有的传统逻辑回归预测模型相比具有更优预测能力[49]。对于小于40岁接受冠脉造影患者的影像资料研究表明使用随机森林方法构建的预测模型比使用逻辑回归构建的传统预测模型更有效地预测了术后1年内支架内再狭窄的发生[50]。类似地,Jiang等[51]基于患者行冠脉造影后的影像及化验结果建立的机器学习模型可以有效地预测识别支架内再狭窄高风险患者。
超声心动图由于成本低、无辐射和患者耐受性好而成为了心脏疾病无创评估使用的最广泛方法之一,而将之与机器学习结合以预测冠心病相关内容的研究也在增多。利用经胸超声心动图的特征数据训练的机器学习聚类模型可将冠心病患者分为不同的表型组,并可按划分的表型预测各组患者的心力衰竭相关住院率[52]。Upton等[53]开发了一个集成学习模型,该模型可以使用超声心动图预测并识别出即将发生心脏不良事件的高风险冠心病患者。近期一项研究表明,超声心动图的特征应用于梯度增强模型可以优化原有的冠心病诊断模型,在临床中对冠心病的预测诊断和筛查潜在的患者具有一定的价值,且此框架思路可以推广到其他医疗领域[54]。
在冠心病的机器学习预测模型中,使用最多的一类数据类型就是计算机断层扫描影像资料,而且探索人工智能在计算机断层扫描图像采集、去噪、分析和预后方面的研究数量正在飞速增长。Lin等[55]回顾了208例患者的冠状动脉计算机断层造影(coronary computed tomography angiography,CCTA)图像及对应的血流储备分数值,并将之与极端梯度提升模型结合,训练出的模型在预测血流储备分数值方面表现良好,其曲线下面积值为0.92,研究人员表示该模型未来可以移植入CCTA报告软件中,以自动计算个体化缺血风险。Cui等[56]收集了165例患者的CCTA图像并与临床特征结合,使用机器学习方法建立了结合所选临床特征和影像学特征的预测模型,以预测PCI治疗后支架内再狭窄的发生率,其结果显示该模型的曲线下面积值为0.85,具有较好的预测效果。与之类似的,另一个研究利用疑似冠心病患者的CCTA影像训练了一个随机森林模型以预测主要不良心血管事件,结果表明该模型一致性指数(concordance index,C-index)评分为0.74,高于传统Cox模型的C-index评分[57]。研究表明,深度学习网络可以用于CCTA中心外膜脂肪组织体积的自动量化,并在使用心外膜脂肪组织的体积预测全因死亡率中表现优秀[58]。
尽管机器学习技术在现实生活中已经被广泛应用,并得到了极大的赞誉,但是其自身存在的缺陷依然是无法回避的问题。其中最大的障碍是机器学习模型的黑箱问题,其决策过程缺乏透明度,进而会对医疗部门使用这类模型的信心产生负面影响[59]。其次就是缺乏高质量、具有良好注释的数据集,而这些数据集可以用来成功地训练算法[60]。用于机器学习的数据可以从各种大型数据库中获取,但由于考虑到保密性的问题,实际可访问的开源数据集不足以满足机器学习算法的需求[61]。而在小型数据集上构建机器学习模型时,通常会观察到过度拟合问题[62]。同时,并不是数据集中每个特征都会为评估及预测结果提供有效信息,包含无关特征可能会导致模型的过拟合,从而阻碍机器学习模型的性能[63],这都给进一步增强机器学习模型效果带来了挑战。
在过去的几年里,人工智能在全世界范围内引起了人们的广泛讨论,虽然在目前看来机器学习技术依然存在着或多或少的不足,但该技术提出了一种新的用于快速应对大数据的方法,包括金融、教育在内的多个领域中展示出令人惊叹的表现,并在逐步涉足于快速数字化的医学领域中。而在心血管疾病的研究中,机器学习模型已经取得了极大的成功,相当一部分研究成果已经应用于临床实践并产生了积极意义上的影响。这类临床预测及评估模型为电子病历记录和医学影像资料的整合分析提供一个功能强大的平台,为包括心房颤动、心力衰竭和冠心病在内的多种心血管疾病的临床辅助决策提供了不容忽视的参考意见。
综上所述,本文重点介绍了机器学习技术在心房颤动、心力衰竭和冠心病研究领域中最新的应用,希望有利于未来机器学习技术在冠心病预测模型的发展。相信在不久的将来,随着人们对这门技术认可程度的加深,机器学习技术在心血管疾病预测及评估模型中的潜力会被不断开发,一定会有更多、更优秀的模型被研发,从而为医学领域创造出更好的发展前景。
所有作者均声明不存在利益冲突





















