
初步探索基于深度卷积神经网络(DCNN)构建的克罗恩病(CD)肛瘘磁共振成像(MRI)诊断模型效能。
采用回顾性研究方法,随机纳入2014年1月至2019年12月中山大学附属第六医院收治的200例初诊CD肛瘘患者和200例初诊腺源性肛瘘患者,每组按8∶1∶1分配至训练集、验证集和测试集。收集所有患者肛管MRI图像,预处理增强图像质量。采用Pytorch深度学习框架和Windows10计算机操作系统,基于4种DCNN(MobileNetV2、VGG11、ResNet18和ResNet34)构建CD肛瘘和腺源性肛瘘的MRI鉴别诊断模型。每种模型根据是否结合迁移学习策略,分为迁移学习型(T)和非迁移学习型(U)。首先,输入训练集(CD肛瘘和腺源性肛瘘患者各160例,共78 321张MRI图像)图像数据,迭代训练至损失最小。然后,根据验证集(CD肛瘘和腺源性肛瘘患者各20例,共9697张MRI图像)的结果选择最佳的训练模型。最后,在测试集(CD肛瘘和腺源性肛瘘患者各20例,共9260张MRI图像)进行诊断效能评估。绘制每种预测模型的受试者操作特征(ROC)曲线并计算曲线下面积(AUC)。采用DeLong检验比较不同模型之间以及预测模型与不同年资放射科医生之间AUC的差异。
结合迁移学习策略的4种诊断模型的效能分别为MobileNetV2-T(AUC=0.943,95%CI:0.820 ~ 0.991),VGG11-T(AUC=0.935,95%CI:0.810 ~ 0.988),ResNet18-T(AUC=0.920,95%CI:0.789 ~ 0.988),ResNet34-T(AUC=0.929,95%CI:0.801 ~ 0.986)。结合迁移学习策略的4种模型AUC均高于低年资放射科医生(均P<0.05),与高年资放射科医生的差异均无统计学意义(均P>0.05)。
采用基于DCNN的深度学习技术,结合迁移学习策略和高分辨率肛管MRI构建CD肛瘘的病因诊断模型具有可行性。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
近年来,克罗恩病(Crohn′s disease,CD)在中国的发病率呈快速上升趋势[1]。CD因其好发于年轻人,呈现迁延不愈、缓解和复发交替变化、病情逐步进展致残等特点,极大加重社会负担。30% ~ 50%的CD患者在发病过程中出现肛瘘病变[2,3],这是导致患者远期生活质量下降和整体疗效不佳的危险因素[4,5]。尽早诊断CD肛瘘并尽快开始以生物制剂联合挂线引流手术为主的多学科治疗,被证实可以提高肛瘘的治愈率[6,7]。但目前国内存在两大困境:一是早期发病的CD肛瘘常被误诊为腺源性肛瘘,接受错误的手术治疗,导致肛管结构和控便功能被严重破坏;二是相当比例的CD肛瘘因肠道病变不典型而延迟诊断,耽误了早期多学科治疗时机,甚至因等待观察期而加重瘘管的复杂程度。
肛管磁共振成像(magnetic resonance imaging,MRI)通过提供肛瘘的精确解剖诊断,提高外科医生的引流手术准确性,是评价肛瘘病变最有效的方式[8]。已有文献报道通过肛管MRI比较CD肛瘘和腺源性肛瘘异同点[9]。但尚无使用MRI对两类肛瘘直接进行病因鉴别诊断的研究。基于深度卷积神经网络(deep convolutional neural networks,DCNN)构建深度学习算法是近10年人工智能和医学融合应用领域的热点[10,11],目前在恶性肿瘤的早筛、各类疾病的疗效预测领域进行了广泛探索性研究。在炎症性肠病领域,已有文献报道深度学习在小肠结肠病变的早期诊断和药物疗效预测方面的作用[12,13]。但尚无相关研究结合深度学习技术进行肛周病变的早期鉴别诊断。因此,本研究拟探索基于DCNN和迁移学习策略构建CD肛瘘的肛管MRI病因诊断模型的可行性。
采用回顾性研究方法。检索电子病案数据库,收集中山大学附属第六医院2014年1月至2019年12月诊断为肛瘘、肛周脓肿或直肠瘘的患者。
CD的纳入标准:首诊确诊CD肛瘘,初诊时接受体格检查和肛管MRI检查发现肛周瘘管病变,同时接受系统性检查,按共识诊断标准可确诊为CD[14]。排除标准:(1)已接受挂线引流或者置管引流手术,肛周存在"异物"的患者;(2)MRI图像质量欠佳或存在伪影的患者。
腺源性肛瘘的纳入标准:首诊确诊腺源性肛瘘,初诊时接受体格检查和肛管MRI检查发现肛周瘘管病变,经实验室检查、内镜检查、病理检查,必要时其他辅助检查(如小肠CT成像、小肠MRI成像、胶囊内镜、胃肠道彩超)排除炎症性肠病及其他特殊感染,最终诊断为肛腺感染所致肛瘘[15]。排除标准:(1)虽确诊腺源性肛瘘,但病历溯源诊断伴随藏毛窦、化脓性汗腺炎或其他特异性疾病;(2)已接受挂线引流或者置管引流手术,肛周存在"异物"的患者;(3)MRI图像质量欠佳或存在伪影的患者。
经数据筛查了8666例次肛管增强MRI检查,筛选后1118例CD肛瘘患者和5154例腺源性肛瘘患者符合研究条件,搭建两个有效数据库。本研究已获得中山大学附属第六医院医学伦理委员会批准(批准号:2022ZSLYEC-421)。
通过EXCEL软件随机化函数组合(INDIRECT+RANDABETWEEN),分别从上述两个数据库中选取200例患者。将每组200例患者按训练集、验证集和测试集以8∶1∶1的比例分配,均使用MRI仪(型号Optima 360 1.5 T,美国通用公司)检查,扫描参数见表1。肛管MRI序列包括T2平扫序列(轴位、冠状位和矢状位)和LAVA增强序列(轴位、冠状位和矢状位)。最后批量脱敏所有图像中的个人和医院信息数据,以DICOM格式保存。

肛管增强磁共振成像1.5 T扫描参数
肛管增强磁共振成像1.5 T扫描参数
| 序列 | TR(ms) | TE(ms) | FOV(cm) | 矩阵 | 层厚(mm) | 层间距(mm) |
|---|---|---|---|---|---|---|
| T2WI | ||||||
| 轴位 | 智能 | 120 | 28 | 320×224 | 4 | 0.50 |
| 冠状位 | 智能 | 120 | 26 | 256×192 | 5 | 0 |
| 矢状位 | 智能 | 120 | 30 | 288×224 | 4 | 0.50 |
| LAVA增强 | ||||||
| 轴位 | 6.30 | 2.10 | 38 | 320×224 | 4 | -2 |
| 冠状位 | 6.50 | 2.10 | 36 | 320×224 | 4 | -2 |
| 矢状位 | 6.50 | 2.10 | 32 | 320×224 | 4 | -2 |
注:TR为重复时间;TE为回波时间;FOV为视场
收集人口学资料和瘘管MRI特征。人口学资料包括年龄、性别、体质量指数(body mass index,BMI)、肛瘘病程、既往肛瘘手术史。瘘管MRI特征由1位放射科医生和1位结直肠外科医生共同确定,包括瘘管高度、是否同时伴有脓肿、是否存在多发瘘管、是否累及肛提肌上间隙和下间隙、瘘管是否与泌尿生殖系统关系密切。
算法构建的流程主要包括:(1)数据预处理。所有高分辨率MRI图像均接受图像质量增强,采用高斯去噪结合限制对比度自适应直方图均衡化算法提升图像对比度,使组织纹理更加清晰;(2)搭建DCNN,输入训练集的图像数据(CD肛瘘和腺源性肛瘘各160例,共78 321张MRI图像)进行模型训练,反向传播根据误差调整训练参数的值,迭代训练使最终的交叉熵损失最小,直至收敛;(3)根据验证集(CD肛瘘和腺源性肛瘘患者各20例,共9697张MRI图像)的结果选择最佳的训练模型。见图1、图2。




本研究采用4种DCNN(MobileNetV2、VGG11、ResNet18、ResNet34)构建CD肛瘘肛管MRI病因诊断模型[16,17,18]。4种DCNN分类模型主要根据组成块搭建和叠加数量的不同而区分(图3)。其中,轻量级的MobileNetV2相比其他3种网络,模型参数量和计算量较少,ResNet18和ResNet34次之,VGG11参数量和计算量最大。同时每种DCNN分别采用迁移学习(transfer learning)[19]和非迁移学习策略进行模型训练。其中迁移学习策略将从Pytorch中的models库里调用上述4种DCNN在大型公共数据集ImageNet(http://www.image-net.org/)的预训练权重,然后在学习集训练过程中分别加载预训练权重,同时对网络的输出层进行微调;非迁移学习策略使用原有的网络结构进行训练,训练过程中不加载ImageNet的预训练权重。因此,分别基于两种学习策略来搭建DCNN,每种模型可再分成迁移学习型(T)和非迁移学习型(U),共获得8种深度学习预测模型。


本研究采用Pytorch深度学习框架和Windows10计算机操作系统,该计算机包含一个Intel(R)Core(TM)i7-10700 CPU @ 2.90 GHz的处理器和32 GB RAM,同时使用了图形处理器(GPU)来加速网络模型的训练和测试,显卡型号为GeForce RTX 3060。非迁移学习过程中,使用随机梯度下降(SGD)优化器,批量大小设置为64,学习率为0.01,权重衰减为0.0001,动量大小设置为0.9。迁移学习过程中,除了改变学习率的大小,设置为0.0001,其余超参数设置与非迁移学习时一致。所有训练过程均进行了100轮次。此外,训练过程中采用随机水平翻转、随机旋转15°、加入椒盐噪声等操作对数据进行增强,以期在一定程度上减轻模型的过拟合现象。
将基于不同DCNN构建的最佳模型在测试集(CD肛瘘和腺源性肛瘘患者各20例,共9260张MRI图像)进行预测能力检验。同时将测试集患者进行双盲处理后,由中山大学附属第六医院1位高年资(12年临床经验)和1位低年资(3年临床经验)的放射科医生分别阅片后对患者进行肛瘘病因诊断。
采用SPSS 26.0软件,符合正态分布的数值变量采用
± s表示,组间比较采用t检验;不符合正态分布的数值变量采用M(Q1,Q3)表示,组间比较采用Mann-Whitney U检验;分类变量采用频数和百分比表示,组间比较采用卡方检验。通过测试集检验预测模型效能,包括采用Python语言2.7.13版本绘制受试者工作特征(receiver operating characteristic,ROC)曲线并计算曲线下面积(area under curve,AUC)。计算约登指数[1-(假阳性率+假阴性率)]确定分类模型诊断单例患者所有图像中判断为CD肛瘘的图像占比的最佳阈值后,确定每种预测模型的准确率、敏感性和特异性并绘制列联表。采用Medcalc软件进行DeLong检验比较不同模型的AUC[20]。以P<0.05为差异具有统计学意义。
CD肛瘘患者200例,其中男性147例,女性53例;年龄(26.5±9.7)岁。腺源性肛瘘患者200例,其中男性180例,女性20例;年龄(38.3±12.8)岁。与腺源性肛瘘相比,CD肛瘘患者的女性占比更高,发病年龄更小,BMI更低,肛瘘病程更长,高位瘘管比例更高,伴随脓肿的比例较低,瘘管累及肛管前深间隙(与泌尿生殖系统密切相关)的比例更高,差异均具有统计学意义(均P<0.05)。两者形成多发瘘管(多原发或分支)的比例、肛提肌上间隙受累的比例、肛提肌下间隙受累(深部坐骨肛管窝)的比例差异均无统计学意义(均P>0.05)。见表2。

克罗恩病肛瘘和腺源性肛瘘一般资料和瘘管特征的比较
克罗恩病肛瘘和腺源性肛瘘一般资料和瘘管特征的比较
| 项目 | 克罗恩病肛瘘(200例) | 腺源性肛瘘(200例) | 统计值 | P值 |
|---|---|---|---|---|
| 性别[例(%)] | χ2=18.248 | <0.01 | ||
| 男 | 147(73.5) | 180(90.0) | ||
| 女 | 53(26.5) | 20(10.0) | ||
年龄(岁, ) | 26.5±9.7 | 38.3±12.8 | t = 10.389 | <0.01 |
体质量指数(kg/m2, ± s) | 19.0±3.4 | 23.8±4.0 | t = 12.965 | <0.01 |
| 既往手术史[例(%)] | 78(39.0) | 65(32.5) | χ2=1.839 | 0.175 |
| 肛瘘病程[月,M(Q1,Q3)] | 12.0(6.0,48.0) | 6.0(1.0, 12.0) | Z=-5.839 | <0.01 |
| 高位肛瘘[例(%)] | 119(59.5) | 89(44.5) | χ2=9.014 | 0.003 |
| 伴随脓肿[例(%)] | 65(32.5) | 119(59.5) | χ2=29.348 | <0.01 |
| 多发瘘管(原发或分支)[例(%)] | 127(63.5) | 112(56.0) | χ2=2.339 | 0.126 |
| 肛提肌上间隙受累[例(%)] | 37(18.5) | 31(15.5) | χ2=0.638 | 0.424 |
| 肛提肌下间隙受累[例(%)] | 45(22.5) | 43(21.5) | χ2=0.058 | 0.809 |
| 肛管前深间隙受累[例(%)] | 31(15.5) | 6(3.0) | χ2=18.614 | <0.01 |
从表3和图4可以看出,以DCNN框架构建的CD肛瘘诊断预测模型均可以获得较高的准确率。尽管4种DCNN模型结合迁移学习策略在测试集的准确率均较非结合迁移学习策略的预测模型有所提升,但统计发现4种DCNN结合迁移学习策略与对应的非结合迁移学习策略模型间的AUC差异均不存在统计学意义(均P>0.05)。

4种深度卷积神经网络模型和不同年资放射科医生在测试集预测诊断克罗恩病肛瘘的表现
4种深度卷积神经网络模型和不同年资放射科医生在测试集预测诊断克罗恩病肛瘘的表现
| 项目 | 医生诊断 | MobileNetV2 | VGG11 | ResNet18 | ResNet34 | |||||
|---|---|---|---|---|---|---|---|---|---|---|
| 高年资 | 低年资 | T | U | T | U | T | U | T | U | |
| cut-off值 | - | - | 0.65 | 0.58 | 0.68 | 0.55 | 0.68 | 0.55 | 0.57 | 0.78 |
| 准确率(%) | 90.0 | 75.0 | 92.5 | 82.5 | 92.5 | 85.0 | 87.5 | 85.0 | 90.0 | 85 |
| 曲线下面积a | 0.900 | 0.750 | 0.943b | 0.898 | 0.935c | 0.932 | 0.920d | 0.902 | 0.929e | 0.919 |
| 灵敏度 | 0.90 | 0.75 | 0.90 | 0.80 | 0.90 | 0.90 | 0.85 | 0.80 | 0.90 | 0.80 |
| 特异性 | 0.90 | 0.75 | 0.95 | 0.85 | 0.95 | 0.80 | 0.90 | 0.90 | 0.90 | 0.90 |
注:a10组曲线下面积的95%CI自左到右依次为0.763~0.972、0.588~0.873、0.820~0.991、0.760~0.971、0.810~0.988、0.806~0.987、0.789~0.988、0.767~0.973、0.801~0.986、0.788~0.981;经过DeLong检验,与低年资医生诊断曲线下面积比较,bP=0.011,cP=0.018,dP=0.026,eP=0.023;T为迁移学习型;U为未迁移学习型;测试集包括20例克罗恩病肛瘘患者和20例腺源性肛瘘患者


进一步比较了结合迁移学习策略下4种DCNN模型的诊断效能的差异。尽管在测试集中,MobileNetV2-T和VGG11-T预测模型可以获得更高的准确率,但结合迁移学习策略的4种DCNN预测模型间AUC差异均不存在统计学意义(均P>0.05)。
受限于医生经验水平和检查方式,以肛周症状初诊的CD患者极易发生误诊。即使在综合医院,也有5% ~ 10%的CD患者因初诊时仅有肛瘘病变,无显著肠道病变而延迟诊断[21]。因此,本研究探索并初步证实了DCNN结合高分辨率肛瘘MRI构建CD肛瘘病因诊断模型的可行性。这为提高我国CD肛瘘的早期诊断和整体治疗效果具有重要临床意义。
CD肛瘘和腺源性肛瘘的发病机制不完全相同。CD肛瘘受累的肛管直肠黏膜及周围脂肪结缔组织的宏观以及微观环境,与腺源性肛瘘不尽相同。因此,采用DCNN模型从肛瘘MRI影像组学中进行高通量和多维度的学习,实现端到端的二分类检测,理论上是可行的。研究结果证实了这种设想,4种常用的DCNN构建的预测模型均可获得较高的准确率。目前认为,迁移学习策略可以提高模型的泛化性能[22]。尽管本研究结果差异没有获得统计学意义,但从分类评价指标结果来看,迁移学习策略可有助于提升模型的检验效能。差异未获得统计学意义的原因可能与训练集样本量较小有关,也可能与迁移学习中加载的学习权重为DCNN在自然图像中的预训练权重,而非MRI相关图像的权重有关,因此未充分发挥迁移学习策略的优势。从不同模型在测试集的准确率看,MobileNetV2和VGG11比两种ResNet表现更好,但4种模型之间的AUC比较差异并无统计学意义。推测这可能也与测试集的样本量较小相关。因此本研究尚无法判断哪种DCNN为最优模型。但MobileNetV2是轻量级DCNN[16],VGG11是多层卷积模块叠加而成的参数量较大的DCNN[17]。从临床转化应用角度看,轻量级DCNN构建的预测模型实用性更强,更容易加载到应用终端并实现临床的前瞻性应用。因此,MobileNetV2模型将是后续研究的重点。此外,基于迁移学习策略的4种DCNN的预测模型表现与高年资放射科医生的肛瘘病因诊断水平相当(均P>0.05),且均优于低年资放射科医生(均P<0.05)。这意味着构建人工智能CD肛瘘病因诊断模型不仅有助于早期诊断,更有利于均质化提高全国范围内基层医院的诊断水平,具有推广价值。
但本研究尚存在一定局限性。由于是初期探索性研究,团队在包含6600余例患者的数据库中随机选取了400例患者(1∶1配对)进行深度学习预测模型的构建。样本量相对较小,获得的统计学分析结果尚需要更多的论证。未来拟在本研究基础上,选择表现更好的MobileNetV2-T和VGG11-T网络,扩大训练集样本量进行模型训练。同时增加院内及院外均质化成像的MRI图像测试集样本量,完成内部和外部验证。
综上所述,本研究采用基于DCNN的深度学习技术,结合迁移学习策略和高分辨率肛管MRI构建CD肛瘘的早期病因诊断模型具有可行性。初步研究结果表明,4种模型的诊断水平与高年资放射科医生的诊断水平相当,从临床转化研究的角度判断,MobileNetV2网络和VGG11网络可能优于ResNet网络。
所有作者均声明不存在利益冲突

)
± s)



















