
MRI是鼻咽癌(nasopharyngeal carcinoma, NPC)首选的无创成像方式,目前对NPC图像的处理和分析主要依靠人工进行,不仅主观还耗时耗力。深度学习(deep learning, DL)作为人工智能的一种实现方法,可自主检测和选择最佳特征用于完成图像处理任务,提高图像分析的效率和准确性,在图像分析领域展示出巨大的应用潜力,其在NPC中的应用也备受关注。本文对DL概念进行简单介绍,并就基于MRI的DL在NPC肿瘤分割、图像合成、诊断和预测预后中的研究进展进行综述,以期能为未来的研究工作提供参考价值,促进DL在NPC中的应用进展,帮助临床医生进行诊断和制订治疗决策。
本刊刊出的所有论文不代表本刊编委会的观点,除非特别声明
鼻咽癌(nasopharyngeal carcinoma, NPC)是一种头颈部恶性肿瘤。2020年,NPC新增病例133 354例,死亡80 008例[1]。NPC发生主要与EB病毒(Epstein-Barr virus, EBV)感染、宿主遗传和环境因素有关[2]。NPC治疗方案选择与分期有关,早期推荐放疗,晚期推荐同步放化疗[3]。目前NPC分期和放疗最常用的影像检查方法主要包括PET-CT、CT和MRI[2]。MRI因其具有良好的软组织对比度、多参数成像、无电离辐射等优点,成为NPC首选的成像方式[4]。随着医学影像技术的进步和精准医疗的需求,对于图像分析的要求也越来越高,单凭人力进行图像分析已经不能满足临床要求。近年来,深度学习(deep learning, DL)在医学影像领域受到广泛关注,DL在NPC中的应用研究也成为一大热点。DL不仅可以提高图像分析的效率和准确性,还省时省力,弥补了仅依靠常规MRI图像对NPC患者进行诊疗的局限性,有助于为NPC患者的诊断和治疗计划制订提供参考价值。因此,本文对DL概念进行简单介绍,并就基于MRI的DL在NPC肿瘤分割、图像合成、诊断及预测预后中的研究进展进行综述。
机器学习是实现人工智能的一个重要技术,涉及模式识别系统的发展,使计算机能够从错误中学习并预测结果[5]。而DL是机器学习的一个子领域,定义为“多个处理层组成的计算模型,用于学习具有多个抽象级别的数据的表示”[6]。经典机器学习利用人工主观提取和选择特征,而DL可自主检测和选择最佳特征用于完成图像处理任务。根据输入数据集是否包含标签,DL可以分为有监督和无监督学习方法。DL主要包括卷积神经网络(convolutional neural network, CNN)、生成式对抗网络(generative adversarial network, GAN)、循环神经网络等多种神经网络模型[7]。其中,CNN基本结构由输入层、多个隐藏层和最终输出层组成[8]。构成CNN的层的主要类型有卷积层、池化层和完全连接层[9]。GAN主要包含有判别模型和生成模型,在对抗性训练的过程中,GAN可以有效地产生与真实数据相似的新数据[10]。
放疗是NPC最主要的治疗方式[3],肿瘤的准确分割对放疗计划的制订有重要影响。在临床上,NPC的分割主要依赖于医生手工勾画,此方法不仅效率低下,而且分割区域受主观影响较大。与手工勾画相比,基于DL的自动分割可以提高分割效率及准确性,增加放疗效果。
LI等[11]利用CNN在NPC患者动态对比增强MRI图像上实现自动分割,平均Dice相似系数(Dice similariy coefficient, DSC)为0.89,且与同类研究相比,该分割模型的对应比率(corresponding ratio, CR)和匹配百分比(percent match, PM)更高,分别为0.84和0.90,说明该模型确实提高了自动分割的准确性。KE等[12]提出一种自约束3D DenseNet双任务模型用于NPC自动分割和鉴别NPC与良性增生,该模型在NPC肿瘤区域的自动分割中也表现出了良好的性能,测试集的平均DSC为0.77。LIN等[13]使用3D CNN在多参数MRI上自动绘制原发大体肿瘤体积(gross tumor volume, GTV),该模型与人工绘制GTV方面具有很强的一致性,DSC中位数为0.79,平均表面距离(average surface distance, ASD)为2.0 mm。且经模型辅助绘制轮廓后,人工绘制准确性有所提高,时间节省了39.4%。该研究还进一步评估了3D CNN模型在诱导化疗前和后、早期T分期(T1和T2)和晚期T分期(T3和T4)以及四个不同横断面水平的分割性能,结果发现,早期T分期肿瘤中获得的ASD显著小于晚期T分期肿瘤,而在不同解剖区域的准确性也有差异,说明在较小的肿瘤中绘制GTV轮廓的准确性更高,不同亚型的肿瘤绘制轮廓准确性不同。而与用于医学图像分割的常用网络架构3D U-Net比较,较高的DSC和ASD进一步说明该3D CNN模型性能优越。ZHANG等[14]在U-Net基础上提出AttR2U-Net模型,该模型融合空间注意、残差连接、递归卷积和归一化等先进机制,DSC达到0.816。而针对肿瘤体积大范围变化和微小肿瘤体积的分割边界模糊的问题,LI等[15]提出一种密集连接深度卷积编码器-解码器网络用于NPC分割并进行了初步试验。试验结果表明,该模型优于所有基线模型,提高了4.17%。针对标记数据集难以获得的问题,CHEN等[16]提出了一种基于注意力的自动分割的半监督方法——CAFS,CAFS通过师生合作分割机制、关注机制和反馈机制三种机制来实现,只需使用少量的标记数据集就可以准确地分割肿瘤区域,平均DSC值为0.8723,比最新方法中的最高DSC值高7.42%。LIU等[17]考虑到目前分割模型中计算资源要求高、准确率低的问题,提出基于轻量化复合尺度网络分割模型,与Att-UNet、FCN、DeeplabV3、TransNet、FastTransNet、RendUNet以及RendUNet相比,其模型性能最好(DSC=0.813),适用于一些资源有限的中小型医院。
基于增强MRI图像的DL在NPC肿瘤分割中研究较为广泛,其肿瘤分割的准确性不低于甚至高于人工勾画,还可节省时间,且针对已有分割模型的不足之处,DL方法一直在不断创新,DL在肿瘤分割中的应用有广阔前景。
在制订NPC放疗计划时,增强扫描序列往往是首选参考序列,但注射对比剂并不适用于所有患者,如对比剂过敏、肾衰患者,DL在非增强MRI图像上的肿瘤分割应用值得探讨。WONG等[18]尝试将CNN用于脂肪抑制T2WI(fat suppression T2WI, fs-T2WI)对NPC原发肿瘤进行自动勾画,并且与两种增强序列进行比较,结果表明,当不适合注射对比剂时,CNN可用于在fs-T2WI上勾画出复杂的原发肿瘤。接下来的研究中,WONG等[19]进一步将位置-纹理完全连接注意力模块引入CNN算法用于fs-T2WI全自动勾画NPC原发肿瘤,其DSC和ASD的中位数分别为0.79和0.66 mm,该CNN算法在fs-T2WI中能准确描绘原发肿瘤,在MRI筛查计划和治疗评估方面具有巨大的潜力。DL在非增强MRI图像上对肿瘤的准确分割对于不能耐受对比剂的患者的治疗具有重要意义。
上述研究多是基于单视角或单一序列,而多个视角或多个序列的信息融合可以提供更多肿瘤相关信息。MA等[20]提出结合多视角CNN和图割方法进行NPC分割,该方法可充分利用冠状面、矢状面和横断面的3D信息,结果表明多视角CNN方法分割效果优于单视角分割方法,平均DSC为0.838,PM和CR也达到了最高平均值。该研究还进一步比较了朴素图割、多视角CNN及组合方法的分割性能,结果表明组合方法分割性能最佳。在该作者的另一项研究中[21],为了充分利用CT和MRI图像互补信息,提出一种多模式CNN(M-CNN)来联合学习多模式相似性度量和分割成对的CT-MR图像,结果表明,M-CNN比使用单模态CNN获得更好的性能。而组合CNN将单模态CNN和M-CNN提取的高层特征结合起来,进一步融合多通道信息和特定通道信息,分割性能更佳。YE等[22]将密集连接与U-Net结合起来用于双序列MRI上NPC的自动分割,用10折交叉验证实验来比较不同的输入,与单序列MRI图像相比,双序列MRI图像融合了T1WI和T2WI图像的不同特征,获得更好的性能。MARTIN等[23]收集了NPC患者的T1WI、T2WI和T1C三种MRI序列图像,建立基于多模态多维信息融合的深度学习DL分割模型,结果表明,与单模态多维信息融合模型和其他现有的NPC病灶分割方法相比,多模态多维信息融合模型能更准确地检测病灶,增强分割效果。
上述研究发现,多模态的DL分割模型较之单模态表现出较好的性能,原因可能是不同的成像模式包含了不同的信息,可以相互补充。整合多个序列图像的信息有助于提高肿瘤分割的准确性,增强放疗效果,提高患者预后。
MRI与CT相比具有无电离辐射和软组织分辨力高的特点。将MRI应用于放疗可以改善放疗结果,提高治疗率[24],但是MRI无法提供与放疗剂量计算相关的电子密度信息。基于MRI图像的合成CT(synthetic CT, sCT)或伪CT(pseudo-CT, pCT)中的电子密度或HU(Hounsfiled Unit)值的转换是一个重大的挑战。目前,基于MRI的sCT生成主要有三种方式[25]:基于图谱的方法[26]、基于体素的方法[27]和基于学习的方法[28]。研究表明[29, 30],引入DL用于从MRI生成sCT的性能优于传统方法。
WANG等[31]利用U-Net将T2WI转换为sCT。与真实CT相比,sCT可以准确重建除鼻腔内软组织与骨的界面和部分精细结构外的其他组织。U-Net在训练过程中只解释了MR图像和CT图像之间的非线性映射。而GAN生成图像又通过判别模型改进输出,可以生成更接近真实CT的sCT[32, 33]。QI等[34]研究发现以多通道(T1WI+T2WI+T1C+T1DixonC-water)为输入的条件生成式对抗网络(conditional GAN, cGAN)模型预测sCT的准确率高于任何单一的MRI序列模型,与U-Net相比,经cGAN模型生成的sCT保留了更多的图像细节和较少的图像模糊,更接近实际CT。同期研究中,TIE等[35]引入基于通道的独立特征提取网络建立多通道多路径cGAN用于pCT生成,其性能优于单路径以及U-Net-GAN,结构相似指数最高为0.92。而MA等[36]在研究基于MRI生成pCT的应用中发现,基于U-Net和pix2pix GAN生成的pCT图像质量无显著差异,基于U-Net生成的pCT上的剂量分布与原始CT上的剂量分布高度一致,平均伽马通过率为99.1%。先前研究普遍存在一个问题,即sCT在骨骼区域的重建并不理想,因此,SONG等[37]使用DL将MRI转换为sCT,然后将其嵌入到MRI图像的骨结构部分,获取多模态的医学图像信息,可同时获得高对比度的软组织信息和骨结构,有助于放疗靶区勾画。
上述研究表明DL在图像合成方面有巨大潜力,DL对于在NPC放疗中实现纯MRI计划具有重要意义。但对于重建图像细节的准确性还有待提高,且现有研究中纳入的数据量都比较小。未来研究中,可以针对重建图像细节进行技术创新和多中心联合构建大的数据集,将有望进一步提高DL在图像合成应用中的价值。
DL在NPC诊断方面的研究较少,但仍具有重要价值。WONG等[38]发现基于3D CNN的分类器可有效区分早期NPC与良性增生,曲线下面积(area under the curve, AUC)为0.96,其准确率为91.5%,与经验丰富的放射科医生比较差异无统计学意义。该DL模型基于T2WI对早期鼻咽部病变进行分类,不依赖于MRI对比剂的使用,在NPC筛查中具有较大潜力。KE等[12]提出一种可同时进行肿瘤检测和分割的自约束3D DenseNet,其在鉴别NPC与良性增生方面的总体准确率高于经验丰富的放射科医生(分别是97.77%和95.87%)。
目前,DL结合MRI图像在NPC诊断中的应用主要集中在NPC与良性增生的鉴别诊断上,而在NPC与其他鼻腔恶性肿瘤的鉴别诊断中应用较少,这对于鼻咽部肿瘤的治疗十分重要,DL在NPC诊断中的价值还有待进一步挖掘。
TNM分期是预后预测和治疗决策的关键标准。但相同的TNM分期患者采用相同的治疗方案其预后不一定相同[39],提示TNM分期不能提供关于预后的足够信息。DL在NPC预测预后中可能存在增量价值,对此,多位学者进行了研究。
YANG等[40]利用弱监督DL对NPC进行自动T分期,准确率为75.59%,不同分期的平均AUC值为0.943,且基于DL的T分期与传统T分期具有相似的预测预后效果。JING等[41]建立端到端的多模态深度生存网络从多参数MRI中提取深度特征来预测NPC患者的疾病进展风险,与单模态和临床分期相比,性能最佳,C指数为0.651,进一步将深度特征和临床分期相结合,预测性能有所提高,C指数为0.672。QIANG等[42]通过三个步骤建立局部晚期NPC无病生存期预测模型,首先是利用3D CNN模型提取MRI特征,其次是极端梯度增强模型结合图像特征和临床特征进行总评分,最后依据总评分将患者分为高风险组和低风险组并评估各风险组中诱导化疗的价值。结果发现,该模型在内部验证队列和三个外部验证队列中的C指数分别达到0.776、0.757、0.719和0.746。在高危组中,加入诱导化疗预后更佳。该大规模研究包括3444例NPC患者,这是迄今为止使用DL模型预测预后的最大数据量。CAO等[43]进一步将3D CNN从原发肿瘤与颈部转移淋巴结中提取的MRI特征、治疗方案和临床特征相结合来预测NPC的无进展生存期和总生存期,三者结合的模型表现出比单纯的TNM分期模型或临床特征结合TNM分期模型更加优越的性能,且MRI信号增加时,诱导化疗获得的生存益处也增加。但在本研究中,与内部测试集相比,生存预后模型在外部测试集中的预测性能有所下降,表明该模型推广的可能性可能较小。
上述研究都是关注肿瘤区域与NPC预后的关系而忽略了肿瘤周围区域的重要性。WU等[44]发现肿瘤周围区域对于预后有额外的预测价值。HUA等[45]利用鼻咽和颈部MR图像建立治疗前DL模型来预测远处转移的风险也有同样发现,肿瘤周围区域表现出比瘤内区域更加优越的预测性能,其中颈部转移淋巴结瘤周数据集的性能最好(AUC=0.88),且DL模型比TNM模型预测性能更佳。
DL模型虽然在NPC预测预后中表现出优越的性能,但它们通常会受到样本量的限制,对此,LI等[46]融合治疗前后MR图像,建立基于Inception-Resnet-V2的迁移学习模型对NPC风险进行评估,输入图像包括肿瘤区域及肿瘤周围的组织和器官,前模型、后模型和集合模型的AUC分别为0.741、0.806和0.842,较之TNM模型高(AUC=0.723)。治疗后MRI用于预后少有研究,该研究发现治疗后MRI对预测预后有重要意义,提示治疗后MRI图像可能蕴含与NPC预后相关的重要信息。
上述研究发现,基于MRI的DL模型显示出比传统的TNM模型更加准确的预后信息,且两者结合模型预测性能有所提高,提示DL可以从医学图像中获取更多关于预后的信息,有助于帮助临床医生制订治疗计划。少部分研究关注瘤周区域和治疗后图像的预测价值,预测性能甚至比传统的原发肿瘤区域及治疗前MRI表现更佳,但相关研究较少,未来研究可更大数据量和提出更有针对性的DL技术对这方面的信息进行更深入的挖掘。
影像组学能从图像中高通量提取大量图像特征,反映肿瘤内异质性[47],将DL与影像组学相结合能够实现自动化和端到端方式提取肿瘤表型的相关定量表征。ZHONG等[48]基于MRI图像和临床特征建立诺模图预测T3N1M0期NPC患者的无病生存期,并在图像特征提取过程中采用深度卷积神经网络(SE-ResNeXt)对肿瘤表型进行端到端量化,结果发现,基于DL的影像组学特征与预后显著相关,在测试集中,建立的诺模图C指数为0.788。接下来的研究中,ZHONG等[49]进一步利用多任务DL影像组学从治疗前MRI中提取预后和预测特征,构建联合预后和治疗决策诺模图,以预测不同治疗方案的T3N1M0期NPC患者的预后,从而推荐最佳治疗方案,该模型可以确定从特定治疗方案中获益的患者,促进NPC患者个性化治疗。ZHANG等[50]分别建立集合DL模型、临床变量模型和影像组学模型的组合模型预测局部晚期NPC的无远处转移生存期。结果表明,集合了三个模型的MRI组合模型表现出比单一模型更优越的预测性能,AUC最高达到0.808。
影像组学的一个缺陷是需要手动描绘感兴趣区,DL可以弥补这方面的不足,DL与影像组学结合可以提高感兴趣区勾画的效率。目前在对NPC患者MRI图像的信息挖掘中,仅有少数研究将DL与影像组学结合进行预后预测,且上述研究中发现DL和影像组学结合模型具有较高的准确性,有助于为患者制订最佳治疗方案,将DL与影像组学结合建立模型预测预后具有广阔前景。
综上所述,DL作为人工智能的一个重要工具,在NPC分割、图像合成、诊断及预测预后中具有重要临床价值,但目前研究仍存在一些局限性:(1)大部分研究数据量较少且缺乏外部验证,DL模型的稳定性、准确性和泛化能力存疑;(2)目前研究多集中于基于治疗前图像的评估,而缺乏在治疗过程中图像特征变化的动态监测性研究,这对及时调整治疗方案十分重要;(3)部分NPC患者以颈部淋巴结肿大为主要症状,目前研究大多聚焦于原发肿瘤而忽略颈部转移淋巴结的重要性;(4)缺乏标准的工作流程,这使得在不同的机器采集的图像、不同的预处理方案可能会对结果产生影响。因此,在未来研究中有待进行如下改进:(1)增大样本量并进行多中心研究;(2)关注治疗过程中图像特征变化和颈部转移淋巴结的临床价值;(3)制订标准的工作流程。
本文对基于MRI的DL在NPC中的相关研究进行综述,并提出目前研究的局限性和改进方案,对未来的DL技术的创新和其在NPC中的研究提供参考价值,推动DL在临床实践中的应用。DL在NPC中的应用仍有许多不足,但其相关研究正在不断完善和进步,有望为NPC患者制订临床决策提供指导价值。
苏晓红, 金观桥. 基于MRI的深度学习在鼻咽癌中的研究进展[J]. 磁共振成像, 2023, 14(3): 170-174, 188.
SU X H, JIN G Q. Research progress of nasopharyngeal carcinoma using deep learning based on MRI[J]. Chin J Magn Reson Imaging, 2023, 14(3): 170-174, 188.
全体作者均声明无利益冲突。





















