建立基于轴位及矢状位T1WI增强图像的影像组学模型术前预测脑膜瘤病理分级,并测试其表现。
回顾性收集2017年1月至2020年12月病理诊断为脑膜瘤且符合纳入标准患者(132例)的MRI图像。使用图像分割软件ITK-SNAP勾画感兴趣区,再采用pyradiomics从中提取影像组学特征,将数据以8∶2的比例分成训练集(105例)和测试集(27例)。通过组内相关系数评估特征的可重复性,之后筛选特征,采用RBF核支持向量机算法构建模型。最后,使用测试集数据评估模型表现,并绘制受试者工作特征(receiver operating characteristic,ROC)曲线。
基于轴位和矢状位图像的综合模型表现优于其他单序列模型,各模型表现在应用少数类过采样技术(synthetic minority over-sampling technique,SMOTE)后均有不同程度的提升。应用SMOTE的综合模型测试表现最优,其ROC曲线下面积、敏感度、特异度、准确度分别为0.982、0.900、1.000和0.963。
基于轴位和矢状位T1WI增强图像的影像组学模型有助于术前预测脑膜瘤病理分级。
本刊刊出的所有论文不代表本刊编委会的观点,除非特别声明
脑膜瘤是成年人最常见的颅内肿瘤,约占颅内原发性肿瘤的三分之一[1, 2]。WHO等级是脑膜瘤重要的预后因素,可影响治疗策略的选择[3]。低级别脑膜瘤(grade Ⅰ)预后良好,手术即可获得良好的治疗效果[4, 5, 6]。高级别脑膜瘤(grade Ⅱ、Ⅲ)侵袭性更高,预后也更差,五年复发率高达50%~90%[7]。如果在术前能够以非侵入的方式预测脑膜瘤级别,就可以为治疗方案制定和预后评估提供更多信息。MRI是脑膜瘤评估的重要手段,然而主观评价模式在术前预测脑膜瘤病理分级的能力方面存在争议[8, 9]。近年来,机器学习在影像诊断领域应用日益广泛,国内外研究者在此方面已经取得了不错的成果[10, 11, 12]。目前通过影像组学模型术前预测脑膜瘤病理等级的相关研究只使用轴位图像,大多也未处理类别不平衡、特征可重复性差等问题。因此我们完善研究方法,尝试用轴位和矢状位T1WI增强图像构建模型,并测试其表现。
回顾性连续收集2017年1月至2020年12月,在哈尔滨医科大学附属第二医院术前行MRI检查脑膜瘤患者的MRI图像(153例)。纳入标准:(1)病理明确诊断为脑膜瘤;(2)病理等级明确(2016版WHO中枢神经系统肿瘤分类);(3)序列包含轴位和矢状位增强T1WI。排除标准:(1)图像质量不佳、存在伪影;(2) MRI检查前接受过脑膜瘤手术或放疗;(3)多发脑膜瘤。本研究经哈尔滨医科大学附属第二医院伦理委员会批准(伦理审查批件号:KY2021-335),免除受试者知情同意。
采用GE Signa HDxt MRI以及GE Discovery MR750w扫描仪进行检查。GE Signa HDxt 1.5 T MRI扫描仪成像序列参数:轴位T1WI增强图像(TR:26 ms,TE:2063 ms,FOV:512 mm×512 mm,层厚:6 mm,矩阵:256×160)、矢状位T1WI增强图像(TR:10 ms,TE:1729 ms,FOV:512 mm×512 mm,层厚:6 mm,矩阵:288×160)。GE Discovery MR750w 3.0 T MRI扫描仪成像序列参数:轴位T1WI增强图像(TR:29 ms,TE:2242 ms,FOV:512 mm×512 mm,层厚:6 mm,矩阵:288×288)、矢状位T1WI增强图像(TR:23 ms,TE:1507 ms,FOV:512 mm×512 mm,层厚:6 mm,矩阵:256×192)。扫描前自动匀场,使用机器配套高压注射器,由肘静脉团注扎喷酸葡胺(Gd-DTPA),剂量为0.1 mmol/kg,注射速度为3.5 mL/s,随后以相同速率注射20 mL生理盐水冲刷。
研究流程见图1。在图像分割前,从PACS获取图像,使用N4偏置场矫正消除低频强度不均匀性。肿瘤分割流程见图2。由两名具备两年以上神经影像学经验的影像医生(A,B)独立进行图像分割,软件为ITK-SNAP (v3.8.0,http://www.itksnap.org/)。沿病灶边缘勾画感兴趣区,尽可能避开其他组织,抛弃顶部以及底部因容积效应所致模糊层面。在勾画完成一周后,由影像医生A再次勾画感兴趣区。
使用Python的pyradiomics库(v3.0,https://pyradiomics.readthedocs.io/)提取影像组学特征,并对图像进行图像标准化与重采样(1 mm×1 mm×1 mm)。开启的滤波器包括:local binary pattern、gradient、exponential、logarithm、square、squareroot、wavelet。每个序列可提取特征数为1688,轴位和矢状位两个序列共可提取3376个特征。提取的特征包括:648个一阶特征(firstorder)、28个形状特征、864个灰度共生矩阵(gray level co-occurrence matrix,GLCM)、576个灰度游程矩阵(gray level run length matrix,GLRLM)、576个灰度区域大小矩阵、180个邻域灰度差矩阵(neighbourhood gray tone difference matrix,NGTDM)、504个灰度相关矩阵(gray level dependence matrix,GLDM)。特征命名方式如下:滤波器_特征类型_特征名_序列。将数据以8∶2按原有高、低级别脑膜瘤比例随机划分为两组,训练集105例,测试集27例。
使用训练集数据进行特征可重复性评估。首先,计算影像医生A、B获得数据的观察者间组内相关系数(intra-class correlation coefficient,ICC)。之后,计算医生A两次勾画图像获得数据间的观察者内ICC。在医生A第二次提取的特征中,仅观察者间ICC与观察者内ICC同时大于0.9被选用。
对训练集数据进行标准化,标准化公式为z=(x-均数)/标准差,再用训练集特征的均数与标准差对测试集数据进行标准化。为消除类别不均衡的影响,我们对训练集数据采用少数类过采样技术(synthetic minority over-sampling technique,SMOTE)。
使用Scikit-learn库(v0.24,https://scikit-learn.org/stable/)进行特征筛选、建模、测试。首先,采用f_classif进行方差分析,保留P值小于0.05的特征。之后利用SelectFromModel计算各个特征的重要性,保留排名前30的特征,再采用带有5折交叉验证的套索算法(least absolute shrinkage and selection operator,LASSO)选择最优的特征组合。最后,使用RBF核支持向量机算法构建轴位、矢状位、综合模型,再进行网格搜索(带有5折交叉验证)选择最优超参数。
根据训练集模型受试者工作特征曲线计算约登指数,其最大值所对应阈值即为最优阈值。使用测试集数据检验模型,通过曲线下面积(area under the curve,AUC)、敏感度、特异度、准确度评估模型表现,敏感度、特异度、准确度为最优阈值下分类结果计算获得。
在153例患者中,有21例被排除,其中图像质量不佳、存在伪影者4例,MRI检查前接受过脑膜瘤手术或放疗者8例,多发脑膜瘤者9例。最终纳入患者132例(女93例,男39例,年龄18~84岁,中位年龄56岁),高级别脑膜瘤49例(女26例,男23例,年龄22~84岁,中位年龄55岁),低级别脑膜瘤83例(女67例,男16例,年龄18~69岁,中位年龄56岁)。
初步从感兴趣区提取3376个特征,观察者内ICC和观察者间ICC均大于0.9的特征有2534个,1289个特征来自轴位图像,1245个来自矢状位图像。使用SMOTE的综合模型特征筛选过程如下:2534—方差分析—308—模型选择—30—LASSO—21,最终获得21个特征构建模型,其类型及名称见表1。
特征类型 | 特征 |
---|---|
一阶特征 | gradient_firstorder_Skewness_TRA lbp-3D-m2_firstorder_InterquartileRange_TRA logarithm_firstorder_10Percentile_TRA square_firstorder_Range_TRA wavelet-HLL_firstorder_Kurtosis_TRA wavelet-LHL_firstorder_TotalEnergy_SAG |
形状特征灰度共生矩阵(GLCM) | original_shape_Flatness_TRA original_glcm_ClusterShade_TRA lbp-3D-m2_glcm_ClusterTendency_TRA wavelet-HLH_glcm_JointAverage_TRA wavelet-HLH_glcm_SumAverage_TRA original_glcm_ClusterShade_SAG lbp-3D-m1_glcm_MCC_SAG wavelet-LHH_glcm_SumEntropy_SAG wavelet-HHL_glcm_MaximumProbability_SAG wavelet-LLL_glcm_Imc2_SAG wavelet-LLL_glcm_MaximumProbability_SAG |
灰度相关矩阵(GLDM) | wavelet-LLH_gldm_LowGrayLevelEmphasis_TRA wavelet-LHL_gldm_HighGrayLevelEmphasis_TRA |
灰度游程矩阵(GLRLM) | lbp-2D_glrlm_ShortRunHighGrayLevelEmphasis_TRA |
邻域灰度差矩阵(NGTDM) | exponential_ngtdm_Strength_TRA |
模型的脑膜瘤分级结果见表2。综合模型的表现优于单序列模型。在使用SMOTE后,各个模型的AUC均有提升,矢状位、综合模型在分类准确度方面也有提升。在众多模型中,使用SMOTE的综合模型表现最为优秀,在AUC与准确度方面均高于其他模型。使用SMOTE的综合模型最优阈值为0.512,在阈值下测试分类准确度为0.963,仅有一例高级别脑膜瘤被错误分为低级别。
模型 | 下采样 | 训练集 | 测试集 | |||
---|---|---|---|---|---|---|
AUC | AUC | 敏感度 | 特异度 | 准确度 | ||
轴位 | 无 | 0.981 | 0.876 | 0.700 | 0.941 | 0.852 |
SMOTE | 0.995 | 0.935 | 0.800 | 0.882 | 0.852 | |
矢状位 | 无 | 0.967 | 0.882 | 0.500 | 0.882 | 0.741 |
SMOTE | 0.996 | 0.976 | 0.800 | 1.000 | 0.926 | |
综合 | 无 | 0.995 | 0.976 | 1.000 | 0.824 | 0.889 |
SMOTE | 1.000 | 0.982 | 0.900 | 1.000 | 0.963 |
注:SMOTE为少数类过采样技术。
脑膜瘤是成年人最常见的原发性颅内肿瘤,高级别脑膜瘤预后差、易复发,术前了解病理分级有助于临床决策的制定,具有重要的意义[13]。MRI是脑膜瘤非侵入评估的主要手段,然而常规序列仍然有一些局限,尤其是在术前预测脑膜瘤病理分级方面[14]。Kawahara等[15]研究表明,不清晰的肿瘤边界和不均匀强化在高级别脑膜瘤出现的频数更高,有助于预测脑膜瘤病理分级。但这些表现缺乏特异性,低级别脑膜瘤也可出现。在一项拥有更大样本量(n=184)的研究中,Ke等[8]发现肿瘤位置、数量、大小、边缘、强化等级、强化模式、硬膜尾长度、颅骨侵犯、静脉窦形态、中线移位距离、瘤周水肿在高级别与低级别脑膜瘤间差异无统计学意义。尽管已有相关研究应用弥散成像相关技术鉴别脑膜瘤病理分级,但是其效果存在一些争议[16]。随着技术的进步,机器学习相关方法逐步应用于影像学,大量研究已经证实机器学习在某些疾病诊断、鉴别方面优于传统的主观诊断。Ugga等[17]的一项诊断性meta分析表明,影像组学在脑膜瘤病理分级方面表现出色,其AUC为0.88。
目前,机器学习技术在肿瘤影像鉴别的应用主要可以分为两类,一是影像组学,二是卷积神经网络[18, 19]。Banzato等[10]收集了117例脑膜瘤患者图像,使用ADC图像训练Inception v3卷积神经网络预测脑膜瘤病理分级,留一交叉验证分数为0.94,样本量的限制导致其并未拿出额外独立数据测试模型表现。大部分医学影像数据样本量都相对较小,在一定程度上限制了卷积神经网络的应用[20]。在样本较小的情况下训练卷积神经网络进行疾病分类任务容易发生过拟合,导致泛化能力差[21]。回顾近期相关研究,我们可以发现影像组学对样本量需求更低,表现也十分优秀[10,12,22, 23]。因此,本研究选择影像组学的方法构建模型。
本研究共构建6个模型,其中使用SMOTE的综合模型表现最为优秀,测试AUC及准确度分别为0.982、0.963。Coroller等[11]收集175例脑膜瘤,先使用主成分分析,之后计算特征的方差和相关系数进行特征筛选,最终得到的影像组学模型测试AUC为0.779。与其他相关研究比,其模型表现不佳,这可能是特征工程方面的问题所导致,主成分分析可能会损失部分特征的有用信息。在特征筛选前,本研究计算各个特征的重要性,选择前30个特征。这种方法既提高了计算效率,也避免保留过多特征导致模型表现不佳的可能。Chu等[24]收集98例脑膜瘤(训练集70例,测试集28例),从轴位T1WI增强图像中提取影像组学特征,使用Logistic回归构建模型,其测试AUC和准确度分别为0.948、0.929 (26/28)。尽管我们应用了非线性的RBF核支持向量机算法,但未使用SMOTE的轴位模型的AUC和准确度仍然低于Chu等的模型。本研究的图像并非来自同一台机器,扫描参数存在差异,可能影响会模型的表现[8]。但在加入矢状位特征与SMOTE后,模型表现有所提高。这可能是因为矢状位T1WI增强图像含有与轴位T1WI增强图像不同的信息,两者结合可以更好地呈现不同级别脑膜瘤的异质性。此外,通过下采样增加高级别脑膜瘤的样本量,让两种级别样本量更均衡。这两项改进在一定程度上提高了模型表现。
本研究仍然存在几点不足:(1)由于grade Ⅱ、Ⅲ脑膜瘤发病率较低,所以将两类合并为高级别脑膜瘤。(2)样本量相对有限,结果仍需要更大规模的研究进行验证。(3)本研究的图像并非来自同一型号机器。(4)尽管增强使用对比剂都是Gd-DTPA,但来自不同公司。
综上所述,本研究表明基于轴位和矢状位T1WI增强图像的影像组学模型可以在术前预测脑膜瘤病理分级,具备优秀性能,有助于临床决策的制订,有一定的临床价值。
作者利益冲突声明:全体作者均声明无利益冲突。