
基于影像组学特征构建预测模型,预测肺亚实性结节非侵袭性/侵袭性的病理亚型。
回顾性收集2015 年1月至2019年9月东南大学附属中大医院及东部战区总医院胸部高分辨率计算机断层扫描(HRCT)表现为肺亚实性结节、手术病理结果为不典型瘤样增生(AAH)、原位腺癌(AIS)、微浸润性腺癌(MIA)、浸润性腺癌(IA)共352例患者资料,其中男108例,女244例,年龄[M(Q1,Q3)]57(50,65)岁。根据病理分为非侵袭组233例和侵袭组119例。按照训练集:内部测试集:外部测试集大约3∶1∶1的比例分为训练集(215例,非IA/IA为155例/60例)、内部测试集(69例,非IA/IA为52例/17例)及外部测试集(68例,非IA/IA为26例/42例,均为东部战区总医院病例)。记录特定的结节定量参数、组学特征、形态学特征、患者临床资料、血清肿瘤标志物。LASSO 回归用于构建组学标签。使用 logistic 回归分析分别构建形态学模型、CT 模型、综合模型,在测试集进行验证。
基于训练集筛选出2个最有意义的特征为Shape_MinorAxis(Gradient)、Glszm_ZoneEntropy(LBP)(均P<0.001),构建组学标签=1.065 75×Shape_MinorAxis(Gradient)+0.030 58×Glszm_ZoneEntropy(LBP)。综合组学标签、胸膜凹陷征、定量参数(直径、平均密度)构建的 CT 模型为最优模型,回归方程Ln(P/1-P)=-2.417 11+1.031 60×组学标签+1.203 06×直径+1.614 21×(胸膜凹陷征=有)在训练集、测试集的AUC分别为0.954(95%CI:0.927~0.981)、0.865(95%CI:0.764~0.966),优于形态学模型0.857(95%CI:0.796~0.918)、0.818(95%CI:0.686~0.949)及综合模型0.951(95%CI:0.921~0.981)、0.856(95%CI:0.730~0.982)。
综合构建的CT 模型对预测以亚实性结节为表现的侵袭性肺腺癌具有较好的预测效能。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
随着高分辨率计算机断层扫描(HRCT)广泛应用于肺癌筛查,肺结节检出率日益提高[1],其中磨玻璃结节被临床广泛关注[2]。病理学上的不典型腺瘤样增生(AAH)、原位腺癌(AIS)、微浸润性腺癌(MIA)和浸润性腺癌(IA),HRCT上均可表现为持续存在的磨玻璃结节,而不同亚型的肺腺癌及其癌前病变的治疗方式及预后亦不同,且AIS、MIA、IA的术前穿刺活检阳性率低,术中冰冻切片的延迟或误判影响对切除范围的判断[3]。随着影像设备及人工智能的技术发展,应用于临床的影像组学研究概念日趋增多[4],而目前关注磨玻璃结节的组学研究报道尚少,因此本研究基于磨玻璃结节影像组学特征,构建预测肺亚实性结节非IA/IA 病理亚型的预测模型,旨在为临床提供更合理的手术建议。
本研究为横断面研究,回顾性收集2015年1月至2019年9月东南大学附属中大医院及东部战区总医院符合条件352例患者资料,其中男108例,女244例,年龄57(50,65)岁。
纳入标准:(1)行亚肺叶或肺叶切除,有明确病理结果如AAH、AIS、MIA、IA的患者,临床信息完整;(2)追溯图像存储与传输(PACS)系统,HRCT 表现为单发亚实性结节(SSN),6.0 mm≤直径≤3.0 cm[直径=(长轴径+短轴径)/2];(3)术前未行穿刺活检或抗炎治疗;术前行 HRCT 检查,有完整的连续薄层医学数字传输与通信(DICOM)图像(层厚/层间距≤1.50 mm),图玛森维σ-Discover Lung肺结节检测系统(中国苏州图玛深维医疗科技有限公司)能正确识别并勾画,病灶内无明显空洞。排除标准:(1)查阅电子病历系统,合并其他恶性肿瘤的患者;(2)查阅电子病历系统,存在活动性自身免疫性疾病的患者。
首先按照3∶1的比例将东南大学附属中大医院病例随机划分为训练集(215例)及内部测试集(69例),然后外部测试集以东部战区总医院病例100例中符合要求的68例作为独立外部测试集。本研究已通过东南大学附属中大医院伦理委员会审核(2021ZDSYLL031-P01),患者知情同意豁免。
1. 临床资料:年龄、性别;血清肿瘤标志物:神经元烯醇化酶(NSE)、癌胚抗原(CEA)、细胞角蛋白 19 片段(CYFRA21-1)。
2. 仪器:使用胸部 HRCT 扫描(Siemens Sensation 64/Siemens Somatom Definition/Siemens Somatom Perspective,德国西门子公司;GE Discovery CT750 HD,美国通用电气公司;Philips iCT 256,荷兰飞利浦公司)。受试者取仰卧位,扫描范围从胸部入口到下肺(肋膈角)。扫描参数:管电压120或130 kVp,管电流29~656 mA,探测器排数6、64或128层,转速0.5、0.6或0.8 s/圈,扫描矩阵512×512、768×768。图像均采用高分辨率算法重建,重建层厚1.00或1.25 mm。
3. 影像学资料:记录病灶定量参数、形态学特征、影像组学特征:(1)定量参数:结节直径、平均密度;(2)形态学特征:毛刺征、胸膜凹陷征、空气支气管征、血管集束征、空泡征;(3)影像组学特征:一阶(First Order)特征,形状(Shape)特征,灰度共生矩阵(GLCM)特征,灰度区域大小矩阵(GLSZM)特征,灰度行程矩阵(GLRLM)特征,邻域灰度差分矩阵(NGTDM)特征,灰度依赖矩阵(GLDM)特征。除原始图像外,特征可经由滤波器处理后的图像提取,滤波器包括小波(wavelet)、LBP、平方(square)、平方根(square root)、对数(logarithm)、指数(exponential)、梯度(gradient)和高斯拉普拉斯(LoG)滤波器。将符合要求的 DICOM格式薄层图像导入图玛森维σ-Discover Lung 肺结节检测系统,在原始图像及其衍生图像自动勾画并提取组学特征。
4. 质量控制:(1)病灶形态学评价:一名有5 年经验的放射科医师对病灶形态学进行评价,另一名有 15 年经验的高年资医师进行确认,二者有分歧时经商讨后达成共识;(2)组学特征评价:由一名有 5 年经验的放射科医师确认感兴趣区(ROI)范围,如与肉眼差别较大则重新选定 ROI 中心点进行识别。
本研究中将 IA 归为侵袭组,将 AAH、AIS、MIA归为非侵袭组[3,5, 6, 7](图1)。


注:AAH为不典型瘤样增生,AIS为原位腺癌,MIA为微浸润性腺癌,IA为浸润性腺癌;非侵袭组包括AAH、AIS、MIA,侵袭组包括IA
训练集用于构建模型,测试集用于模型验证,训练集∶内部测试集∶外部测试集大约为3∶1∶1的比例。模型包括:影像组学标签(仅依据影像组学特征建模),形态学模型(仅依据形态学特征构建),CT 模型(由组学标签、形态学特征、定量参数构建),综合模型(CT 模型的基础上纳入一般资料、肿瘤血清标志物构建)。由于外部测试集缺乏肿瘤标志物相关资料,不在外部测试集测试综合模型。
采用Python3.7软件和R 3.0.01软件进行数据处理及统计分析。训练集、内部测试集和外部验证集的年龄、直径、平均密度均为偏正态分布,以M(Q1,Q3)表示,两者之间比较采用秩和检验;其他数据为计数数据,采用χ²检验。对于影像组学特征选择:采用Z-Score方法对特征进行标准化处理,并基于Feature-selector特征选择库剔除缺失特征(缺失比例>0.6)、高度相关特征(相关度阈值>0.7)、低重要度特征(重要度阈值>0.98)。采用方差分析或Mann-Whitney U检验进行差异性分析,保留P<0.05的特征。采用最小绝对收缩算子(LASSO)(λ1se)合并10折交叉验证进行降维、构建组学标签(图2)。


采用二分类logistic回归构建模型,纳入单因素分析中P<0.05的变量并剔除存在共线性的变量(VIF值>10)。采用受试者工作特征(ROC)曲线及曲线下面积(AUC)评估模型在训练集和测试集中的表现,结合特异度、灵敏度、准确率、阳性预测值和阴性预测值辅助评价模型的预测性能。采用DeLong检验比较模型间AUC差异是否具有统计学意义。双侧检验,检验水准α=0.05。
直径、平均密度、毛刺征、胸膜凹陷征、空泡征、空气支气管征在训练集、测试集IA/非IA组间差异具有统计学意义(均P<0.05),训练集、内部测试集IA组的中位CT值及直径(-421.8、-471.3 HU;19.2、14.9 mm)高于非IA组的中位CT值及直径(-559.6、-559.5 HU;10.7、11.4 mm)。年龄在训练集、外部测试集组间差异有统计学意义(Z=2.99、2.54,P<0.05),CYFRA21-1仅在训练集组间差异有统计学意义(χ²=0.03,P=0.015)(表1)。

训练集+内部/外部测试集肺亚实性结节病例的临床资料比较
训练集+内部/外部测试集肺亚实性结节病例的临床资料比较
| 项目 | 训练集 | 内部测试集 | 外部测试集 | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
非IA组 (n=155) | IA组 (n=60) | Z/χ²值 | P值 | 非IA组 (n=52) | IA组 (n=17) | Z/χ²值 | P值 | 非IA组 (n=26) | IA组 (n=42) | Z/χ²值 | P值 | |
| 年龄(岁)a | 57.0 (48.0,64.0) | 63.0 (53.0,70.0) | 2.92 | 0.001 | 57.0 (48.8, 64.0) | 59.0 (55.0, 62.0) | 0.10a | 0.325 | 52.0 (44.2, 58.8) | 57.5 (49.2, 65.0) | 2.54 | 0.040 |
| 性别(男/女) b | 43/112 | 21/39 | 0.41 | 0.296 | 18/34 | 5/12 | 0.12 | 0.693 | 5/21 | 16/26 | 1.87 | 0.102 |
| 直径(mm) a | 10.7 (8.9, 14.1) | 19.2 (16.6, 24.2) | 8.86 | <0.001 | 11.4 (8.7, 13.5) | 14.9 (11.6, 23.0) | 3.78a | <0.001 | 8.4 (7.7, 9.5) | 17.4 (13.9, 20.3) | 8.65 | <0.001 |
| 平均密度(HU) a | -559.6 (-616.6, 481.9) | -421.8 (-503.5, 348.0) | 8.23 | <0.001 | -559.5 (-615.6, 512.2) | -471.3 (-499.2, 396.0) | 4.41a | <0.001 | -581.4 (-638.1, 524.3) | -433.5 (-526.5, 325.9) | 5.96 | <0.001 |
| 毛刺征(有/无) b | 55/100 | 48/12 | 43.33 | <0.001 | 20/32 | 12/5 | 13.58 | 0.021 | 11/15 | 27/15 | 29.52 | 0.019 |
| 胸膜凹陷征(有/无) b | 17/138 | 40/20 | 58.43 | <0.001 | 5/47 | 12/5 | 11.86 | <0.001 | 2/24 | 23/19 | 13.35 | <0.001 |
| 空气支气管征(有/无) b | 12/143 | 23/37 | 9.90 | <0.001 | 11/41 | 4/13 | 0.68 | 0.837 | 1/25 | 23/19 | 16.07 | <0.001 |
| 空泡征(有/无) b | 14/141 | 23/37 | 29.40 | <0.001 | 4/48 | 5/12 | 5.81 | 0.003 | 1/25 | 18/24 | 10.28 | <0.002 |
| 血管集束症(有/无) b | 89/66 | 42/18 | 20.51 | 0.090 | 27/25 | 13/4 | 2.81 | 0.075 | 14/12 | 32/10 | 5.83 | 0.016 |
| CEA(异常/正常/缺失) b | 5/145/5 | 3/54/3 | 0.03 | 0.520 | 2/49/1 | 1/16/0 | 0.52 | 0.733 | - | - | - | |
| NSE(异常/正常/缺失) b | 12/138/5 | 10/48/2 | 1.83 | 0.052 | 4/47/1 | 2/15/0 | 1.87 | 0.622 | - | - | - | |
| CYFRA21-1(异常/正常/缺失) b | 22/128/5 | 17/41/2 | 0.03 | 0.015 | 12/39/1 | 3/14/0 | 0.36 | 0.612 | - | - | - | |
注:CEA为癌胚抗原;NSE为神经元烯醇化酶;CYFRA21-1为细胞角蛋白 19 片段;IA为浸润性腺癌;aM(Q1,Q3);b例
图玛森维σ-Discover Lung肺结节检测系统自动勾画ROI并提取组学特征1 063个,特征选择基于训练集215例筛选出20个特征,组学热图显示组学特征与IA组/非IA组分类之间存在一定相关性(两种颜色相间分布)(图3)。降维后纳入2个最有意义的特征构建组学标签,分别为Shape_MinorAxis(Gradient图像)、Glszm_ZoneEntropy(LBP图像)(t =-4.34、-11.34,均P<0.001),组学标签=1.066×Shape_MinorAxis(Gradient)+0.031×Glszm_ZoneEntropy(LBP)。


注:IA为浸润性腺癌
组学标签在训练集、外部测试集AUC分别为0.892(95%CI:0.849~0.934)、0.914(95%CI:0.847~0.981),在内部测试集诊断效能(AUC=0.760,95%CI:0.613~0.907)低于形态学模型(AUC=0.818,95%CI:0.686~0.949)。两个定量参数:直径的最佳阈值为14.0 mm,此时训练集的特异度和灵敏度分别为0.742、0.900,在训练集、内部测试集、外部测试集中的AUC分别为0.888(95%CI:0.840~0.934)、0.710(95%CI:0.561~0.860)、0.912(95%CI:0.842~0.982);平均密度的最佳阈值为-470 HU,此时训练集的特异度和灵敏度分别为0.826、0.633,在训练集、内部测试集、外部测试集中的AUC分别为0.807(95%CI:0.744~0.870)、0.824(95%CI:0.698~0.948)、0.845(95%CI:0.750~0.940)(表2)。CT模型回归方程Ln(P/1-P)=-2.417 11+1.031 60×组学标签+1.203 06×直径+1.614 21×(胸膜凹陷征=有)在训练集、内部测试集、外部测试集的AUC分别提升至0.954(95%CI:0.927~0.981)、0.865(95%CI:0.764~0.966)、0.940(95%CI:0.889~0.991),训练集、内部测试集AUC高于综合模型(训练集AUC=0.951,95%CI:0.921~0.981;内部测试集AUC=0.862,95%CI:0.759~0.966)。CT模型在训练集、内部测试集、外部测试集均具有最高准确性(训练集AUC=0.907,内部测试集AUC=0.870,外部验证集AUC=0.868)(表2、图4)。DeLong test用于模型间AUC的显著性检验,CT模型与综合模型在训练集(P=0.842)中的差异无统计学意义,与其他模型比较差异具有统计学意义(P<0.01)。

亚实性结节侵袭性影响因素的logistic回归分析
亚实性结节侵袭性影响因素的logistic回归分析
| 项目 | β值 | Wald χ2 值 | OR值(95%CI) | P值 |
|---|---|---|---|---|
| 年龄(岁) | 0.033 | 3.03 | 1.033(0.997~1.073) | 0.082 |
| 性别(男性) | -0.142 | 0.12 | 0.867(0.367~1.933) | 0.735 |
| 直径(mm) | 0.236 | 31.92 | 1.266(1.174~1.383) | <0.001 |
| 平均密度(HU) | 0.013 | 29.27 | 1.013(1.008~1.019) | <0.001 |
| 毛刺征 | 2.278 | 24.31 | 9.761(4.147~25.971) | <0.001 |
| 胸膜凹陷征 | 2.650 | 35.40 | 16.240(7.780~33.90) | <0.001 |
| 空气支气管征 | 1.175 | 6.86 | 3.238(1.331~17.845) | 0.009 |
| 空泡征 | 1.668 | 10.69 | 5.304(1.967~14.926) | <0.001 |
| 血管集束征 | 2.640 | 12.39 | 14.015(4.020~88.746) | <0.001 |
| CEA | 0.507 | 0.42 | 1.660(0.354~8.144) | 0.518 |
| NSE | 0.771 | 1.88 | 2.162(0.681~6.450) | 0.057 |
| CYFRA21-1 | -0.676 | 0.02 | 0.935(0.343~2.305) | 0.019 |
| 组学标签 | 0.276 | 14.14 | 1.318(1.1.57~1.549) | <0.001 |
注:CEA为癌胚抗原;NSE为神经元烯醇化酶;CYFRA21-1为细胞角蛋白 19 片段


注:AUC为曲线下面积
磨玻璃结节目前诊断及治疗还不规范,尚未达成统一共识,不少磨玻璃结节的过度手术治疗屡见不鲜。2021年WHO肺肿瘤组织新分类[8]将AAH、AIS定义为腺体前驱病变,也就是说AIS非恶性肿瘤,更增加了AIS不需要手术的强烈证据;MIA作为早期恶性肿瘤,切除后基本无复发、预后很好,5年生存率达100%,而手术叶切、段切或楔形切除也未达成共识;但表现为磨玻璃结节的浸润性肺腺癌预后最差,手术采取肺叶切除及淋巴结清扫术式。本研究按磨玻璃结节的病理类型分为非侵袭组和侵袭组,基于磨玻璃结节的影像组学特征构建综合模型,旨在提高对表现为亚实性磨玻璃结节的侵袭性肺腺癌的术前预测能力,以期指导外科的手术方案选择。
本研究的理论基础在于肺结节内部结构的细微差异可以用影像组学来量化[9, 10]。此前已有多项研究探讨影像组学应用于亚实性结节的诊断价值,例如研究单发亚实性结节IA与MIA的鉴别[11]、IA和MIA的分类[12]等。目前相关组学研究多集中于临床小队列,易受图像采集、图像质量、组学特征提取方法差异等影响,且由于组学特征的冗杂性及部分特征高度相关性,各研究构建模型纳入的组学特征不尽相同。本研究纳入Shape_MinorAxis、Glszm_ZoneEntropy构建组学标签,训练集、内部测试集的AUC分别为0.892(95%CI:0.849~0.934)、0.760(95%CI:0.613~0.907);独立外部测试集的AUC为0.914(95%CI:0.847~0.981),高于训练集、内部验证集及上述研究结果。Shape_MinorAxis是三维ROI椭圆球的第二大轴长度;Glszm_ZoneEntropy是灰度区域大小矩阵中的区域熵,是一个纹理特征,值越大表明区域内纹理异源性越大。这2个组学特征被纳入可能与亚实性结节的病灶大小及异质性有关:大小是鉴别IA的一个重要独立预测因素,恶性风险随大小的增加而增加[13, 14];腺癌组织学异质性表现为病灶内的成分差异[15],在影像学上表现为实性密度的增加,其实性密度正是由于病理学上的浸润性成分侵犯周围血管及基质,导致肺泡塌陷、通气量减少而形成[16, 17]。
有文献认为理想的肺结节诊断、预测和预后模型应是综合模型,除组学特征外可纳入组织学、血清标志物、病史等特征[9];然而在综合模型的特征选择方面,哪些特征的纳入有利于提高诊断效能,联合影像学特征、影像组学特征[11]或其他特征如语义特征等的模型[10]是否优于单一模型,现有研究结果之间尚存在差异。在本研究中,综合构建的CT 模型对亚实性结节的侵袭性肺腺癌预测表现较佳,在训练集、内部测试集、外部测试集均具有较好的预测效能(AUC=0.954、0.865、0.940)。
本研究的优势在于采用自动识别+人工确认的方式分割图像、提取组学特征,具有可重复性,相对减少了人工误差和测量误差;并且采用了一个外部独立测试集,以更好评价模型的泛化能力。
本研究仍存在以下不足:(1)分类标准依靠术后病理,样本分布存在偏倚;(2)本研究为小数据集的回顾性研究,有文献指出基于小队列的模型缺乏标准化的扫描仪器和协议,容易过度拟合,缺乏对独立数据集的泛化能力,以及多中心验证的预测效能不佳[9]。虽然本研究纳入了外部独立测试集,模型在外部测试集具有较好的诊断效能,但外部测试集及总体数据集较小,仍无法避免这一点。
所有作者均声明不存在利益冲突





















