
眼底病是引起视力下降的主要原因。眼底病专家努力挽救视网膜相关疾病患者视力,却通常受挫于疾病的变异性导致的各种预后不佳。眼底彩照、光学相干断层扫描成像技术(OCT)等检查实现了眼底结构的无创可视化,提供了视网膜、脉络膜等广泛信息,为人工智能(AI)辅助眼底病的筛查、诊断与病情预测奠定了基础。AI通过算法和大量数据学习,能够辅助临床医师的疾病诊断,以及根据患者病情规划个性化治疗。笔者对AI在眼底病诊疗中的应用与发展进行综述。
本刊刊出的文章除特别声明外,不代表主办单位和本刊编委会的观点。本刊如有印刷质量问题,请与本刊编辑部联系调换。
1956年,约翰麦卡锡在达特茅斯会议上首次提出人工智能(artificial intelligence,AI)。20世纪70年代,专家系统是AI在医学领域的早期实践,但因无法应对疾病的变异,于20世纪90年代被机器学习、深度学习所代替。研究者们先后开发人工神经网络(artificial neural networks,ANNs)、深度神经网络(deep neural networks,DNNs)、卷积神经网络(convolutional neural networks,CNNs),从而对图像的处理能力逐步提升。2015年,He等[1]开发的深度学习CNNs模型在图像识别任务中已经达到了人类的能力水平。这项突破促使AI逐渐在医学与各类科学中展现出媲美人类的能力。
图像识别是AI发展的重要驱动力。20世纪90年代的二维眼底彩照和2000年的三维光学相干断层扫描成像技术(optical coherence tomography,OCT)都能够对视网膜进行高分辨率成像,这标志着数字成像在眼科的发展,推动了AI在眼科应用中的进步。目前,我们主要使用经典机器学习与深度学习处理眼底病图像,进而诊断与分析眼底病。经典机器学习被用来处理较小的数据集,可以解释其性能;深度学习被用来处理大型标注数据集,准确性较高。AI在眼底病的诊断主要应用于3个场景:(1)分类。区分眼底病类别与分期,主要用于眼底病筛查与辅助诊断;(2)分割。检测眼底病图像中的解剖和病变结构,测量其形状与大小来判断病变,可以协助分析病变进展;(3)预测。主要用于预测眼底病预后。
经典机器学习范式:基于视觉描述符或者基于原始图像的分割创建图像特征,经由分类器(通常为ANNs、支持向量机或随机森林)利用、处理并给出区分。标签特异性对性能起决定性作用。
深度学习经典范式:基于深度学习的视网膜分类方法的核心是使用和训练CNNs分类模型。在开展眼底病研究前,深度学习在视觉识别领域中已有成功案例:ImageNet。截至2016年,ImageNet中存储了经过人工注释的超过1 400万张图像。Kermany等[2]通过转移学习对OCT结果进行处理,将图像分为脉络膜新生血管(choroidal neovascularization,CNV)、早期年龄相关黄斑变性(age-related macular degeneration,AMD)、糖尿病性黄斑水肿(diabetic macular edema,DME)或正常视网膜。Treder等[3]也用类似方法成功检测到新生血管性AMD。Gargeya等[4]采用全新模型培训的方法,用75 000张眼底彩照图像训练出可以鉴别糖尿病视网膜病变(diabetic retinopathy,DR)的CNNs。
21世纪以来,图像分割算法诸如支持向量机(support vector machines,SVM),贝叶斯分类法(Bayes),随机森林已经得到广泛应用。
随机森林:基于提取的图像特征构建决策树,对像素进行分类,易于理解,处理数据速率高。随机森林依赖于颜色与纹理特征分类,在眼底彩照中应用于分级玻璃膜疣(drusen)已经达到了与人工相当的水平[5]。
SVM:避免了随机森林中产生与训练数据过拟合的问题,可以在数学上设置错误率的边界,提高了解决小样本、高维模式以及非线性问题能力。不同的SVM方法能够分割如动脉瘤和血管的靶点[6]。
U-Net:是一种专用于医学影像的分割网络。以U的形式排列了神经元层,编码器层和解码器层间的额外连接允许在不同的抽象层次上处理图像,已经成功运用于OCT扫描中的视网膜内液、黄斑水肿与高反射病灶,通常应用于深度学习。
贝叶斯分类法:是概率方法,分类效率高,基于数理基础,可被解释。Zheng等[7]提出了一种结合贝叶斯方法和基于图像的方法,在OCT中分割视网膜层的混合方法,并将适应性集成(Adaboosting)算法应用在内,实现高精度。Adaboosting已成功应用于OCT图像中的色素上皮层分割或彩色眼底图像中的血管分割。
KNN(K近邻):应用于无监督学习,准确率高,已应用于眼底彩照中的微动脉瘤的诊断[8]。
AI可以基于图像预测患者身体信息或预后结果。Poplin等[9]采用284 335例患者的眼底病图像数据训练出的CNNs可预测出患者的年龄、性别与收缩压,也可以只对视网膜的局部区域进行预测。Guo等[10]根据OCT宽域扫描的空间连接模型从视网膜神经纤维层(retinal nerve fiber layer,RNFL)序列中回归视觉对比敏感度来评估青光眼。通常使用生存率分析模型来预估眼底病。比例风险回归(cox proportional hazards,CPH)模型最常用来解释个体行为。Chiu等[11]采集4 507例年龄相关性眼病患者的眼底彩照图像,使用基线预测因子、年龄、性别、教育水平、种族和吸烟状况以及色素变化来设计和验证黄斑风险评分系统,建立晚期AMD的预测模型。
眼底病筛查是将主观健康者区分为客观健康与客观患病的过程。随着智能手机的普及,眼底病筛查能够以软件为载体,置入智能手机中进行,从而大大节约了时间与经济成本。
1. DR的筛查:截至2021年,全球有5.37亿糖尿病患者[12]。糖尿病通常引起继发性视网膜病变,眼底病筛查可做到早发现、早干预,延缓疾病的进展。2018年4月,第一个使用AI检测到超过轻度DR(即检测到中度非增殖性DR、重度非增殖性DR、增殖性DR和DME)的医疗设备(iDx-DR)经美国食品和药物管理局(Food and Drug Administration,FDA)批准上市。iDx-DR结合了一种基于AI和云的算法与一个可进行自主摄像的视网膜眼底相机,在900例糖尿病患者研究中检出DR的敏感度87.4%,特异度89.5%。
我国AI辅助DR筛查研究同样方兴未艾。翁铭等[13]开发的基于深度学习的DR筛查智能诊断系统对372只眼(186例患者)进行测试,敏感度82%,特异度91%,Kappa 0.77,与专家诊断结果一致性达0.91。杨叶辉等[14]提出了基于多尺度CNNs的眼底图像病灶检测算法,兼顾不同大小的病灶,解决了传统方法鲁棒性差的问题;同时可以不依赖人工标注,大大减少了时间与精力。该算法对硬性渗出病灶检测的敏感度和特异度分别是92.17%和97.17%,AUC 0.981 6,敏感度和准确率相较于传统单尺度方法提高了7.41%和5.02%。未来大量数据库的训练有助于检测效能的进一步提升与临床的推广应用。《基于眼底照相的糖尿病视网膜病变人工智能筛查系统应用指南》等文件的发布,也预示着我国的AI辅助DR筛查研究向规范化、产业化蓬勃发展[15]。
2. AMD的筛查:Burlina等[16]使用超过13万张眼底彩照建立深度卷积网络,识别是否患AMD准确率90%,提示应用深度学习的AMD自动评估模型能够筛选出需要就医的患者。OCT可以识别眼底照中不可见的早期地图样萎缩标志性的高反射灶和视网膜外层变薄(萎缩);因此,OCT较彩色图像对AMD筛查的效果更佳。然而,由于人工与时间成本过高,OCT难以被应用于大规模筛查。龚雁等[17]采用基于弱监督学习的深度学习算法,将ResNet-101深度模型应用于OCT图像的AMD分类中,诊断准确率94.9%,优于CNN-AlexNet、VGG及Google-Net(分别为85.3%、88.7%、89.2%);该模型能够精准定位病灶区域(图1),且相较传统监督学习算法减少了时间精力;提示通过大样本的研究与训练,低成本的基于OCT的AMD筛查普及将成为现实。


3.青光眼眼底的筛查:青光眼造成视神经及视觉通路的病变,最终引起不可逆视力损害,早期诊断与及时治疗对挽救视力有重要的意义。我国有庞大的青光眼患者群体,眼科医师资源不足,使得患者难以得到及时救治[18]。此外,青光眼在诊断过程中存在耗时和误诊的问题。因此,需要AI辅助在较短时间内完成对疾病的诊断。使用裂隙灯诊断青光眼通常依据以下3个标准:杯盘比(C/D)、ISNT法则(正常视盘从宽至窄依次为下方、上方、鼻侧、颞侧)、视盘损坏可能性范围(DDLS)。Isaac等[19]使用这3个指标在67只眼的研究中区分健康个体和青光眼患者。该测试在检测青光眼的准确率94%,敏感度和特异度都是94%。Ting等[20]以125 189张图像中的视神经结构为标准检测糖尿病合并青光眼的准确率94%。然而,AI模型的性能十分依赖大量和多模态的平衡数据集,也需要准确的标签;各地的检查人员水平与设备质量参差不齐,没有统一标准。
4. 早产儿视网膜病变(retinopathy of prematurity,ROP)的筛查:目前,ROP是小儿眼科AI应用研究的热点。医疗技术的发展提高了低体质量新生儿的存活率,也提高了ROP的检出率。ROP是婴儿致盲的主要原因,约占儿童致盲总数的6%~18%。ROP呈进行性发展,及时发现与治疗可以显著改善患儿的预后。迄今最大的ROP筛查项目是Murakami等[21]建立并随访6年的斯坦福大学早产儿视网膜病变诊断网络(Stanford University Network for Diagnosis of Retinopathy of Prematurity,SUNDROP)。Greven等[22]又通过远程治疗系统建立了远程医学筛查和治疗早产儿视网膜病的框架,推动了ROP的防治。由于ROP病变复杂多样,视网膜周边图像质量差等因素,给筛查带来困难。汪佶等[23]将基于国际分类的标准化人工标注与深度学习相结合进行质量监控,保证了AI在不同眼底图像中的一致性,不同年资医师标注一致率为94.08%。增强GANs(PGGANs)能够合成逼真的ROP眼底图像,大大提升了ROP的诊断效果。
1. DR分级与分期:根据美国眼科学会对糖尿病视网膜病的国际临床分类系统,DR分为无DR、轻度非增殖性DR(non-proliferative diabetic retinopathy,NPDR)、中度NPDR、重度NPDR、增殖性DR和DME。有研究采用约50万张糖尿病患者的视网膜图像,开发和验证了针对糖尿病视网膜病变和相关眼病的深度学习系统。该系统敏感度为91%~92%,特异度为91%~100%[12]。高韶晖等[24]开发的“嵩岳”机器人,使用多层感知器作为分类器选取微血管瘤、视网膜内出血、硬性渗出、棉绒斑4种病变对25 297张经标注的图像进行训练和预测,对中度以下NPDR的DR患者敏感度90.4%、特异度95.2%、AUC 0.925;对于重度NPDR和增殖性DR的敏感度72.7%、特异度96.2%、AUC 0.845;对于增殖性DR患者的敏感度73.5%、特异度97.3%、AUC 0.855。郑博等[25]建立了基于眼底照相的DR智能诊断技术的评价体系,对662只眼(331例患者)进行DR分类,非DR诊断的敏感度91.4%,特异度84.7%,Kappa值0.72;DR1-4级患者诊断中,以2、3、4级DR为重度DR,1级DR为轻度DR,则敏感度为88.4%,特异度为91.1%,Kappa 0.79;以3、4级DR为重度DR,1、2级DR为轻度DR,则敏感度为80.5%,特异度为93.3%,Kappa 0.75;DR 1~5级患者诊断中,Kappa值0.62。3种评价体系可应用于不同级别的医院,有助于DR诊疗工作在各级医院的开展。
2. AMD的诊断分级与分期:由于OCT图像变化预示着疾病进展,通过AI图像识别进行AMD诊断或分期是一个非常重要的应用。Venhuizen等[26]将367例疑似AMD患者分为5个诊断分级与分期:无AMD、早期AMD、中期AMD、晚期AMD地理萎缩和晚期AMD脉络膜新生血管。与眼科医师诊断结果相比,模型总体敏感度和特异度分别为98%和91%。玻璃膜疣(drusen)表型是AMD的另一种诊断分级方法,可以作为疾病转化的预测和风险评估的基础。
3. 青光眼和ROP的分级与分期:青光眼分级或分期目前尚无使用机器学习的大型队列研究,不能做到准确的分型。C/D和神经纤维层厚度变化可能是未来的突破方向。
目前关于ROP的研究主要在于ROP的血管重建区域,指标单一,难以在临床实践。童妍等[27]选择Faster-RCNN模型对精准标记的ROP眼底图像进行CNNs的训练,检测出病灶位置并依据国际标准将眼底图像分为Ⅰ~Ⅴ期和附加病变(图2),平均准确率0.931,敏感度0.752,特异度0.942,临床意义大,有助于指导患儿的个体化治疗。


AI对于眼底病预后的评估有很高的参考价值。精准地预测有助于医师设计治疗方案,提高护理质量,改善患者预后效果。
1. 对视力检查结果的预测:玻璃体内抗血管内皮生长因子疗法是治疗眼底病的重大突破,然而对部分患者的治疗效果不佳。AI技术能够对治疗后效果进行个体化的精准预测。理想情况下,AI模型将获取在基线和第一次治疗后患者的图像和临床特征,并提供预期的随访时间间隔和总体治疗预期。这不仅可以显著提高抗血管内皮生长因子治疗的可规划性,防止治疗不足或过度造成的负面效果;也可以节省治疗费用。Seebock等[28]使用随机森林AI模型对接受规范化雷尼单抗治疗的患者的预后进行训练,预测个体视力结果准确率71%,其解释还允许对预测相关生物标志物进行观察,优于人工评估的能力。
2.对未来眼底病自然病程的预测:工业化国家中大约有1/4的老年人口(>60岁)被早期或中期干性AMD所困扰。早期AMD是一种慢性进展性疾病,具有高度异质性的进展速度。AMD患者可能一生都处于早期阶段,没有任何相关的功能损伤;也可能迅速进展为晚期AMD。在临床实践中,预测晚期AMD较困难。de Sisternes等[29]开发了AMD的AI预测模型,利用自动分割算法对从244例患者的330只眼提取的drusen层和视网膜层的定量特征进行了验证,确定单个疾病5年内的进展风险准确率为74%。Schlegl等[30]基于更大的数据集和更全面的OCT生物标志物分析,提出了一种新的确定AMD转换风险的AI模型。该研究包括495例单眼CNV患者和另一只眼AMD患者的数据,每个月观察一次。经过训练的AI模型预测CNV和地图样萎缩发展的准确率分别为68%和80%。
综上所述,AI已经在眼底病的诊断、筛查、分级、预测等方面取得一些重大进展,具有一定的准确率与稳定性。AI在眼底病研究和临床应用中仍有着无穷的潜力:(1)AI可以帮助患者实现对病情的自我管理,缓解就医难问题。(2)AI可以解决信息的不对等,提高患者就医体验。(3)AI可以跨越空间界限,通过数据传输对远距离的患者进行诊断。(4)AI有助于图像重建,推动影像学的发展[31]。(5)AI可以帮助医师实现对病情的动态监控,实时调整手术方案与药物用量,制定最佳的治疗方案。(6)AI有助于缩短新药的研发周期,降低失败成本。
我国拥有庞大的医疗数据量,如果实现标准化AI筛查系统,将大大节省医疗资源,缓解医师压力。在国务院《新一代人工智能发展规划》《关于促进“互联网+医疗健康”发展的意见》等政策性文件的大力支持下,AI在医学诊疗的应用正处于飞速发展期。
不可忽视的是,AI也存在一定局限性。(1)眼科医师对于眼底病的诊断基于确切的疾病定义与病理特征,疾病的诊断也是因人而异。而在AI中,区分健康与病理的敏感性与准确性常常依靠临床上未见的图像标志物,显示出的也是群体的综合特性。因此,眼底病专家需要了解机器学习与深度学习算法,加强与开发者的合作与沟通,注重眼底病模型的验证,来理解与解释AI的诊断过程与结果,确保它的可靠性,尽量规避偶然性偏误在疾病治疗过程中的产生。(2)常规医疗过程是面对面的诊疗,更能体现人文关怀,这是目前AI尚不可及的。(3)各医院间数据不互通,病例收集和数据统计未实现标准化,个体差异大,疾病变异多,均使得AI的广泛推行难以开展。(4)编写算法的工程师可能将个人对于疾病的理解代入算法中,一旦工程师存在理解不足或偏见,结果将产生偏颇,导致疾病诊断的错误假设。因此,算法本身和算法开发者也需要受到法律更全面的监管。





















