
构建一种基于深度学习的肺结节分类以及分割算法,探究其在不同CT重建算法下的诊断效能。
回顾性收集2019年6至9月天津医科大学朱宪彝纪念医院放射科363例胸部CT平扫影像学资料,每例患者的胸部CT平扫均包含三种CT重建算法(肺重建、纵隔重建、骨重建)生成的图像,这些数据构成了模型的测试集;模型的训练集由公开数据集(LIDC-IDRI)和私有数据集共4 185例患者胸部CT图像组成。模型的构建采用3D深度卷积神经网络和递归神经网络结合的方式,在多任务联合学习下训练肺结节密度类型分类和分割,最后将训练好的模型在天津医科大学朱宪彝纪念医院放射科363例测试病例上进行效果测试,得到三种CT图像重建算法下结节分类准确率和分割Dice系数指标。采用方差分析对三种CT重建算法下的结节分类准确率和分割Dice系数进行比较以分析差异是否有统计学意义。
在三种CT重建算法下,模型对肺结节密度类型的分类准确率分别为98.67%±5.70%、98.38%±6.61% 和97.89%±7.32%,其中实性结节的分类准确率分别为98.79%±5.58%、98.49%±6.89%和97.90%±7.41%,亚实性结节的分类准确率分别为97.57%±10.19%、98.52%±7.77%和98.52%±7.77%,三种不同重建算法下的肺结节的分类准确率差异无统计学意义(均P>0.05)。三种重建算法下,所有结节分割的Dice系数分别为79.87%±5.78%、79.02%±6.04%和79.31%±5.95%,三组间结节分割的Dice系数差异无统计学意义(均P>0.05)。
结合了3D卷积神经网络和递归神经网络的深度学习算法,对不同CT重建算法图像中肺结节的分类和分割均有较为稳定的效果。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
肺癌是死亡率最高的癌症之一,对其开展早期筛查具有重大意义[1, 2, 3]。目前CT已经成为肺癌筛查的通用手段。与此同时,近年来随着深度学习技术的发展,不少研究将深度学习技术应用于胸部CT图像肺结节分析并取得了不错的效果[4, 5, 6]。CT成像质量受到包括辐射剂量、重建层厚、重建算法等诸多因素的影响[7, 8, 9, 10]。既往很多的研究都集中在肺结节检测和肺结节良恶性鉴别方面[11, 12, 13, 14],缺乏对肺结节密度分类和分割的研究,但这两方面是决定患者随访观察的重要因素(参考Lung-RADS[15]),这方面的研究具有很重要的临床价值。基于此,本文拟设计一种可以在不同重建算法下效果稳定的肺结节分类和分割算法,使用3D卷积神经网络(CNN)[16]以更充分挖掘肺结节的影像学特征,使用融合了注意力机制[17]的递归神经网络(RNN)[18]以有效利用肺结节的全局和局部上下文信息,并利用分类和分割两种任务联合学习[19],互为补充,帮助模型进一步提升效果。
本文为横断面研究,回顾性收集2019年6至9月在天津医科大学朱宪彝纪念医院放射科进行胸部CT检查的363例患者的数据作为测试集,其中男性患者210例,女性患者153例,年龄20~90(61±11)岁。训练集则由公开数据集(LIDC-IDRI)和私有数据集共4 185例患者的数据构成,包含2 214例男性患者,1 971例女性患者,年龄在20~87(46±14)岁。纳入标准:(1)年龄20~90岁,男女不限;(2)检查发现有肺结节;(3)胸部CT平扫图像中,同时包含肺重建(lung)、纵隔重建(standard)、骨重建(bone)三种重建算法的图像。排除标准:(1)呼吸运动伪影过重;(2)肺部有弥漫性病变。本研究已通过天津医科大学朱宪彝纪念医院医学伦理委员会批准(DXBYYhMEC2019-23),患者知情同意豁免。
所有胸部CT平扫数据均来自多排螺旋CT(GE Discovery CT,美国GE公司)。检查时患者采取仰卧位,于吸气末行胸部CT扫描,扫描参数为120 kV,层厚1 cm,图像矩阵512×512,重建层厚1.25 mm。每例患者的胸部CT都包括肺重建、纵隔重建、骨重建三种重建算法的图像(图1)。


为了构建效果稳定、不受重建算法影响的算法模型,从模型提取的特征入手,尽可能增强特征的表示能力,以此达到对抗重建算法变化带来的影响。模型设计主要从以下4点入手:(1)采用深度神经网络而非传统机器学习,以数据驱动的方式自动学习特征,避免传统机器学习中基于规则方式定义特征所带来的局限性;(2)相比于自然图像所常用的2D卷积神经网络,本文采用3D卷积神经网络,有助于捕捉更多肺结节的空间上下文信息;(3)构建融合了注意力机制的递归神经网络,并将递归神经网络中的矩阵乘法替换为(2)中的3D卷积神经网络,将日常阅片过程中对结节不同区域分焦点观察的过程用递归神经网络建模成一个时序过程,通过不断地迭代,在每一个迭代时刻下都同时生成一个注意力图, 提取结节不同局部细节特征并融合多区域的特征;(4)模型的上层设计采用了多任务学习的方式,在预测结节轮廓的同时预测结节的密度类型,这样两个任务之间是互为补充的关系,在模型学习结节区域的同时能注意到不同密度类型所带来的影响,能够帮助模型进一步提升两个任务的识别精度。模型的具体框架如图2所示。


两名中年资医师(≥5年)对于入组的363份胸部CT图像进行了独立双盲法评估,评估内容包括肺结节的轮廓勾画和密度类型判定(实性结节和亚实性结节)。将两名医师不一致的标注,交由另一名高年资医师(≥15年)进行审核,审核结果作为专家标注,也即所谓的金标准。最后,将上述模型输出的肺结节密度类型和轮廓与金标准对比,得到模型对于肺结节密度分类的准确率和分割的Dice系数,并进行统计学分析。
肺结节密度分类采用平均每份CT密度分类准确率指标,肺结节分割采用平均每个肺结节的分割Dice系数进行评价。Dice系数计算公式如下:
其中表示系统模型分割和金标准重叠的面积,表示模型分割的结节面积和金标准中对应结节的面积之和,当模型分割的结果和金标准中对应结果一致时,Dice系数为1;当二者完全不重叠时,Dice系数为0。
本研究采用SPSS 22.0统计软件包进行数据分析和处理;应用Scipy软件1.4.1统计肺结节密度分类的准确率及分割的Dice系数。年龄、密度分类的准确率、Dice系数符合正态分布,以表示;采用率和频数描述结节个数。采用方差分析进行三组不同CT重建算法之间肺结节分类准确率和分割Dice系数的比较。双侧检验,检验水准α=0.05。
训练集包括一个公开数据库(LIDC-IDRI),包含1 018份胸部CT共计910结节(排除3 mm以下小结节,未标注这部分结节轮廓),以及一个私有数据库,包含3 167份胸部CT共7 562个结节。训练集中共标注实性结节6 268个,亚实性结节2 204个。在测试集363例图像中,共标注1 066个结节/重建算法(即三种CT重建算法的图像中,每种图像均标注了1 066个结节),其中包含967个实性结节(90.71%)和99个亚实性结节(9.29%)。以其中一个重建算法为例,最大截面直径0~3 mm结节有301个(28.23%),3~6 mm结节有561个(52.63%),6~10 mm结节有142个(13.32%),>10 mm结节有62个(5.82 %);体积0~20 mm3结节有200个(18.76%),20~40 mm3结节有335个(31.43%),40~100 mm3结节有314个(29.46%),>100 mm3结节有217个(20.35%)。
三种不同CT重建算法下,对1 066个CT的结节的分类准确率以及分别的实性、亚实性结节分类准确率均较高,且差异无统计学意义(均P>0.05)(表1)。

三种不同重建算法下1 066个肺结节密度类型的准确率分析(%)
三种不同重建算法下1 066个肺结节密度类型的准确率分析(%)
| 重建算法 | 所有结节 (n=1 066) | 实性结节 (n=967) | 亚实性结节 (n=99) |
|---|---|---|---|
| 肺重建 | 98.67±5.70 | 98.79±5.58 | 97.57±10.19 |
| 纵隔重建 | 98.38±6.61 | 98.49±6.89 | 98.52±7.77 |
| 骨重建 | 97.89±7.32 | 97.90±7.41 | 98.52±7.77 |
| F值 | 1.49 | 1.83 | 0.21 |
| P值 | 0.23 | 0.16 | 0.81 |
肺重建、纵隔重建和骨重建,三种不同重建算法下所有结节、实性结节、亚实性结节的Dice系数差异均无统计学意义(均P>0.05)(表2)。为了进一步探究深度学习模型在轮廓分割上的效果,以结节最大截面直径进行划分,得到模型在不同大小结节下的效果。三种不同CT重建算法下,0~3 mm结节的Dice系数平均值分别为75.33%±7.78%、72.55%±7.26%和74.17%±7.24% (F=3.58,P=0.02);3~6 mm结节的平均值分别为81.10%±6.48%、80.72%±6.43%和81.08%±6.68% (F=0.65,P=0.52);6~10 mm结节的平均值分别为84.01%±6.24%、83.67%±6.18%和83.59%±5.90% (F=0.08,P=0.92);>10 mm结节的平均值分别为85.55%±5.35%、84.28%±5.38%和84.48%±5.25%(F=0.04,P=0.96)。

三种不同重建算法下1 066个肺结节分割结果(Dice系数)(%)
三种不同重建算法下1 066个肺结节分割结果(Dice系数)(%)
| 重建算法 | 所有结节 (n=1 066) | 实性结节 (n=967) | 亚实性结节 (n=99) |
|---|---|---|---|
| 肺重建 | 79.87±5.78 | 79.72±5.89 | 81.83±6.19 |
| 纵隔重建 | 79.02±6.04 | 78.79±5.89 | 82.12±6.56 |
| 骨重建 | 79.31±5.95 | 79.10±6.03 | 82.39±6.13 |
| F值 | 1.71 | 1.59 | 0.09 |
| P值 | 0.18 | 0.20 | 0.90 |
为了解决不同CT重建算法下肺结节自动分割以及结节密度类型分类不稳定的问题,本研究提出了一种将肺结节分割和密度类型分类联合学习的深度神经网络模型,充分利用这两个任务之间的互补性,以达到彼此促进的目的;同时模型里创新性地融合了3D卷积网络、注意力机制和递归神经网络等诸多技术,以保证模型可以全面学习到肺结节的局部和全局特征,并进行有效地特征融合,以增强所提取特征的表达能力,借此来提升模型对于不同图像质量下特征提取的有效性。
对本研究中入组的1 066个肺结节的测试结果表明,使用本研究所构建的方法,不同重建算法下肺结节的分类准确率差异无统计学意义(P>0.05);不同重建算法下结节分割的Dice系数差异也无统计学意义(P>0.05),模型在不同CT重建算法下表现稳定。肺结节按照不同大小分组的统计结果也表明,模型效果都随着结节的增大而提升,除3 mm以下结节外,其余同一分组在不同重建算法下分割效果稳定,不同重建算法下模型分割出来的实性、亚实性结节的轮廓非常相似(图3、4),维持了较高的一致性,且差异无统计学意义(P>0.05)。此外通过分析不同大小结节下模型的效果,发现分割效果不好的主要集中在直径<3 mm的微结节上,这是由于微结节的尺寸较小,边界不容易确定,导致Dice系数指标易产生偏差,不过随着结节增大,模型的效果不断变好,而偏大的结节临床分析的意义更大,表明模型符合临床的需求。


综上所述,本文所构建的模型在肺结节分割和密度类型分类两方面都展现出了良好的性能,并且在不同CT重建算法下表现稳定,这表明其在临床上具有一定的实用价值。本文的局限性主要在于入组病例是单中心,规模不够大,而且由于亚实性结节在正常情况下出现的频率不高,使得入组的亚实性结节数量偏少,因而对其的验证可能不够充分。未来的研究一是希望扩展到多中心至少上千例的入组样本;二是希望扩展到随访数据,用随访数据来进一步验证模型的泛化性。
幸子健负责数据清洗、模型的构建、训练和测试,其他作者均声明不存在利益冲突





















