
研究和搭建人工智能深度学习网络,在两个公开的大脑MRI图像数据集上实现高准确率的MRI脑肿瘤的四分类。
提出一种多尺度残差网络的MRI脑肿瘤分类模型,实现脑肿瘤的四分类任务。模型包括多尺度输入、改进残差、下采样和双通道池化共四个模块。将Kaggle中正常人和Figshare中肿瘤患者的脑部MRI图像进行数据集组合,对提出的模型进行训练和性能评估,优化网络超参数,提高分类准确率。
在352张MRI图像上测试模型,仅使用多尺度输入模块时,得到平均分类准确率为96.59%。添加下采样模块后,准确率达到98.58%。对比最大池化、均值池化和双通道池化,准确率分别为96.02%、97.16%、98.58%。多尺度残差网络对脑肿瘤具有很好的分类效果,对胶质瘤、脑膜瘤、垂体瘤和正常无肿瘤图像的分类准确率分别为99.14%、99.14%、99.42%和99.42%。
MRI是一种典型的检查脑肿瘤的医学成像方法,但放射科专家手工对脑肿瘤进行准确分类极具主观性和不确定性。提出的多尺度残差网络能为脑肿瘤自动分类提供有效的方法,且该网络提高了MRI脑肿瘤分类的准确率,很好地解决了梯度消失问题,提升了模型的泛化能力。
本刊刊出的所有论文不代表本刊编委会的观点,除非特别声明
脑肿瘤是严重危害人类生命健康的最常见疾病之一,胶质瘤等恶性肿瘤极易复发,致死率高[1]。脑肿瘤分类是脑肿瘤诊断领域研究的热点和难点,准确分类对患者的治疗效果和生存率等至关重要[2]。
在医学人工智能领域,为改进影像检查流程,基于人工智能深度学习进行肿瘤的自动检测和分类,是临床最具价值的功能。MRI是脑肿瘤的常见检查方式,各种网络也快速应用于MRI脑肿瘤的分类。但目前的主要挑战有:网络模型结构需要不断修改且训练难度大,临床脑肿瘤数据量较少,分类准确率不高,研究者们正着力解决这些问题。
网络模型的结构对于MRI脑肿瘤的分类至关重要。VANKDOTHU等[3]将卷积神经网络(convolution neural network, CNN)和长短时记忆(long short term memory, LSTM)相结合,提出一种CNN-LSTM框架,实现对脑MRI图像进行胶质瘤、脑膜瘤、垂体瘤和无肿瘤的四分类,在Kaggle数据集上获得92%的准确率。NASER等[4]先使用U-net模型分割出肿瘤区域,再对VGG16网络的最后三层和分类器进行训练和微调,实现胶质瘤的Ⅱ级和Ⅲ级分类,获得89%的准确率。这些方法均采用迁移学习技术,迁移学习技术采用预训练模型,能在一定程度上克服数据量少的困难,但该技术反向传播时模型无法得到充分更新。
残差网络(residual network, ResNet)使用跳跃连接缓解了网络过深带来的梯度消失和过拟合问题[5]。LU等[6]将金字塔扩张卷积模型集成到ResNet的底部,对胶质瘤获得80.11%的分类准确率。KUMAR等[7]利用全局平均池化代替ResNet50的全连接层,实现对胶质瘤、脑膜瘤和垂体瘤98%的分类准确率。
此外,使用多尺度能提取脑肿瘤不同空间的信息。2021年,FRANCISCO等[8]提出一种多尺度CNN,在三个空间尺度对MRI脑肿瘤图像进行处理,获得97.3%的分类准确率。SOBHANINIA等[9]提出一种基于特征聚合的级联多尺度多任务学习框架,实现分割和分类双任务,获得97.98%的分类准确率。不同的池化方式会导致分类效果存在差异,HAZARIKA等[10]结合最大池化和最小池化,提出双通道池化,对阿尔茨海默病进行分类。CHANG等[11]使用最大池化和均值池化实现脑肿瘤的分割。最大值池化提取的特征图更侧重于纹理信息[12],均值池化提取的特征图更侧重于背景信息的。因此,本文结合这两种池化方式实现脑肿瘤的分类。
在脑肿瘤四分类任务上,目前代表性研究成果有:VANKDOTHU等[3]结合CNN和LSTM,得到92%的准确率;ALNOWAMI等[13]评估不同的数据预处理方法对DenseNet性能的影响,实现96.52%的最优准确率;RAJEEV等[5]先采用改进的Gabor小波变换(improved Gabor wavelet transform, IGWT)提取脑肿瘤特征,再输入混合Elman双向LSTM(Elman bidirectional LSTM, EBiLSTM)进行分类,准确率达98.4%。
这些方法虽然准确率较高,但有的需要额外的传统特征提取方法,有的容易出现梯度消失及过拟合问题。我们结合多尺度和ResNet的优点,提出一种新网络,以简化网络实现,提高MRI脑肿瘤的分类准确率。
相比其他领域的数据,头部肿瘤病例的MRI数据更难获取,数据量也较少。本文使用两个公开的数据集的组合,对头部MRI图像进行肿瘤的四分类。第一个是Kaggle的500张正常无肿瘤脑部MRI图片(https://github.com/sartajbhuvaji/brain-tumor-classification-dataset);第二个是Figshare数据集(https://figshare.com/articles/dataset/brain_tumor_dataset/1512427),该数据集来自2005年至2010年间中国广州南方医院和天津医科大学总医院,包含了233名匿名癌症患者的3064张脑肿瘤MRI图片。经临床专业人员进行人工归类,所有MRI图片都有标签,作为有监督网络训练时的参考。其中脑膜瘤708张、胶质瘤1426张、垂体瘤930张,四类代表性MRI图像如图1所示。采用的两个数据集均遵守《赫尔辛基宣言》,我们的任务就是对这四种MRI图像进行分类。


将数据送入网络之前,先对MRI图像进行预处理。将图片大小统一为224×224,按8∶1∶1将数据划分为训练集、验证集和测试集。并对训练集图像进行旋转、翻转等数据增强操作,以增加数据量,防止模型过拟合。数据集分布如表1所示。

数据集分布
Number of dataset
数据集分布
Number of dataset
| 类别 | 训练集 | 验证集 | 测试集 | 总和 |
|---|---|---|---|---|
| 胶质瘤 | 1141 | 143 | 142 | 1426 |
| 脑膜瘤 | 567 | 71 | 70 | 708 |
| 垂体瘤 | 745 | 93 | 92 | 930 |
| 无肿瘤 | 402 | 50 | 48 | 500 |
受Inception-Resnet-V2[14]、Resnet50[15]等网络的启发,提出一种用于脑肿瘤分类的多尺度混合ResNet网络。该网络结构如图2所示,包括多尺度输入模块、多深度残差块、下采样模块和双通道池化模块。


使用多尺度模块作为网络的输入端,包括三条处理路径,用三个不同大小卷积核提取输入图像在三个不同空间尺度的信息,如图3所示。


该模块输入为224×224的脑肿瘤图像,卷积操作表示为。分别经过第一层7×7、5×5、3×3三个卷积核,conv为卷积,输出为、、。然后使用add函数将和的像素值相加,得到输出;同样将和的像素值相加,得到输出。最后将进行add相加像素操作,得到该模块输出为。使用add函数将获取的不同尺度的像素联合起来,可增加每一维度的特征信息量,防止信息丢失,有助于脑肿瘤图像的最终分类。
本文使用加宽加深的残差块,有效地提升了模型的分类准确率,如图4所示。相比基础的残差块,在3×3卷积后添加了一个1×1的卷积,增加了网络的深度。这有利于控制通道数量,使得在每次卷积过程中感受到的信息及提取的特征都不相同。


在网络中,在双通道池化层后使用两个由图4A和图4B组合的残差块,输出通道数分别为128和256。改进残差块在每一个3×3卷积中还包含LeakyReLU激活函数、Dropout层和批归一化层。
下采样模块的主要作用是减小特征图的尺寸,降低计算量,防止过拟合。该模块结合Inception-Resnet-V2网络中的Reduction-A和Reduction-B模块,将Reduction-B模块的一条1×1~3×3卷积换成Reduction-A模块中的3×3卷积,如图5所示。上一层输出作为该模块输入,通过四条不同的路径,得到输出分别为、、、。再经过cat进行通道拼接,最后经过1×1卷积进行通道数减半。输出。


双通道池化如图6所示,结合两种池化,能更多地保留脑肿瘤图像特征信息。


实验使用Python 3.8语言,在Pytorch框架下搭建模型,在NVIDIA Tesla V100 GPU上实现。采用随机梯度下降(stochastic gradient descent, SGD)法,初始学习率为0.01,每10个epoch调整一次。动量设置为0.9,权值衰减设置为0.0002。每批次训练样本32个,共200轮。
在深度学习领域,主要采用准确率、精确率、召回率和F1评分对模型的性能进行评估和验证[16]。本文也采用这些指标,便于评估和比较模型的性能,数学公式为:
其中,对测试数据,TP表示预测和实际值均为正,FP表示预测为正实际为负,TN表示预测和实际值均为负,FN表示预测为负实际为正。
为了分析多尺度输入模块对网络性能的影响,分别采用多尺度和单尺度(只使用一个7×7卷积)模块作为网络的输入端,进行网络实现。为了选择该网络的最适优化器,本文在多尺度模块的实验和有下采样模块的实验中,均选用SGD、适应性矩估计(adaptive moment estimation, Adam)、Adam权重衰减正则化(Adam weight decay regularization, AdamW)三种优化器作对比实验。多尺度输入模块实验结果如表2所示,可见多尺度优于单尺度,SGD优于其他两种优化器,测试平均准确率为96.59%。

多尺度和单尺度输入的准确率对比(%)
Comparison of multi-scale and single-scale input (%)
多尺度和单尺度输入的准确率对比(%)
Comparison of multi-scale and single-scale input (%)
| SGD | Adam | AdamW | |
|---|---|---|---|
| 单尺度 | 96.13 | 95.86 | 96.05 |
| 多尺度 | 96.59 | 96.30 | 96.57 |
注:SGD为随机梯度下降法;Adam为适应性矩估计法;AdamW为自适应梯度法。
在SGD优化器下,计算的评价指标如表3所示,对于F1值和召回率两种评价指标,脑膜瘤较其他三类低,其他三种类型脑MRI图片的各分类评价指标都很高。

使用SGD优化器的模型性能(%)
Model performance (%) with the SGD optimizer
使用SGD优化器的模型性能(%)
Model performance (%) with the SGD optimizer
| 类别 | 精确率 | 召回率 | F1值 | 准确率 |
|---|---|---|---|---|
| 胶质瘤 | 95.21 | 97.89 | 96.53 | 97.14 |
| 脑膜瘤 | 96.92 | 90.00 | 93.33 | 97.42 |
| 垂体瘤 | 97.85 | 98.91 | 98.38 | 99.12 |
| 正常 | 97.92 | 97.92 | 97.92 | 99.41 |
| 均值 | 96.98 | 96.18 | 96.54 | 98.27 |
注:SGD为随机梯度下降法。
确定多尺度输入模块为网络输入后,对下采样模块进行实验,分析其对网络性能的影响。对三种优化器下带有下采样模块的网络进行训练,准确率和损失曲线如图7所示。


第200轮的模型准确率如表4所示。可见,带有下采样模块的模型,三种优化器的准确率均有提高,其中SGD达到了98.58%。因此,选择SGD作为提出网络的最适优化器。

不同优化器(有下采样模块)下的模型准确率(%)
Model accuracy (%) for different optimizers (with subsampling modules)
不同优化器(有下采样模块)下的模型准确率(%)
Model accuracy (%) for different optimizers (with subsampling modules)
| SGD | Adam | AdamW |
|---|---|---|
| 98.58 | 97.16 | 97.44 |
注:SGD为随机梯度下降法;Adam为适应性矩估计法;AdamW为自适应梯度法。
表5列出了SGD优化器下有下采样模块的模型对测试集的效果。可见,增加下采样模块极大地提高了模型对脑肿瘤(尤其是脑膜瘤)的分类准确率。

SGD优化器(有下采样模块)下的模型性能(%)
Model performance (%) with SGD optimizer (with subsampling modules)
SGD优化器(有下采样模块)下的模型性能(%)
Model performance (%) with SGD optimizer (with subsampling modules)
| 类别 | 精确率 | 召回率 | F1值 | 准确率 |
|---|---|---|---|---|
| 胶质瘤 | 98.60 | 99.29 | 98.94 | 99.14 |
| 脑膜瘤 | 98.55 | 97.17 | 97.86 | 99.14 |
| 垂体瘤 | 97.87 | 100.00 | 98.92 | 99.42 |
| 正常 | 100.00 | 95.83 | 97.87 | 99.42 |
| 均值 | 98.76 | 98.07 | 98.40 | 99.28 |
注:SGD为随机梯度下降法。
由此,确定了网络中加入多尺度输入和下采样模块。再对网络使用最大池化、均值池化和双通道池化进行对比实验,分类指标如表6所示。使用双通道池化层的模型对肿瘤的评价指标均优于最大池化模型和均值池化模型,特别是对于脑膜瘤的分类能力有很大提高。

三种池化的模型性能(%)
Model performance (%) for three pooling styles
三种池化的模型性能(%)
Model performance (%) for three pooling styles
| 类别 | 精确率 | 召回率 | F1值 | 准确率 | |
|---|---|---|---|---|---|
最大 池化 | 胶质瘤 | 93.33 | 98.59 | 95.89 | 96.57 |
| 脑膜瘤 | 93.75 | 85.71 | 89.55 | 96.02 | |
| 垂体瘤 | 100.00 | 98.97 | 99.45 | 99.70 | |
| 正常 | 100.00 | 97.92 | 98.95 | 99.70 | |
| 均值 | 96.77 | 95.30 | 95.96 | 98.00 | |
均值 池化 | 胶质瘤 | 96.55 | 98.59 | 97.56 | 97.99 |
| 脑膜瘤 | 94.20 | 92.86 | 93.53 | 97.43 | |
| 垂体瘤 | 98.90 | 97.83 | 98.36 | 99.41 | |
| 正常 | 100.00 | 97.92 | 98.95 | 99.70 | |
| 均值 | 97.41 | 96.80 | 97.10 | 98.63 | |
双通 道池化 | 胶质瘤 | 98.60 | 99.29 | 98.94 | 99.14 |
| 脑膜瘤 | 98.55 | 97.17 | 97.86 | 99.14 | |
| 垂体瘤 | 97.87 | 100.00 | 98.92 | 99.42 | |
| 正常 | 100.00 | 95.83 | 97.87 | 99.42 | |
| 均值 | 98.76 | 98.07 | 98.40 | 99.28 |
三种池化方式对不同类别肿瘤的分类准确率如表7所示。对脑肿瘤,最大池化、均值池化和双通道池化的准确率分别为96.02%、97.16%和98.58%。可见,双通道池化能有效地提高模型对脑肿瘤的分类能力。

三种池化方式平均准确率(%)
Accuracy of different pooling methods (%)
三种池化方式平均准确率(%)
Accuracy of different pooling methods (%)
| 胶质瘤 | 脑膜瘤 | 垂体瘤 | 正常 | 准确率 | |
|---|---|---|---|---|---|
| 最大池化 | 96.57 | 99.02 | 99.70 | 99.70 | 96.02 |
| 均值池化 | 98.00 | 97.43 | 99.41 | 99.70 | 97.16 |
| 双通道池化 | 99.14 | 99.14 | 99.42 | 99.42 | 98.58 |
所提出多尺度ResNet的预测结果可用混淆矩阵表示,如图8所示。其中列为真实类别,行为预测类别。可见,每一类肿瘤都能被正确分类,每一类仅有极少的MRI图片被分为其他类别。


将本文提出的多尺度ResNet与脑肿瘤四分类领域的相关研究(文献[7][8][9][17])作比较,如表8所示。

与最新研究的准确率的比较
Accuracy comparison with other research
与最新研究的准确率的比较
Accuracy comparison with other research
| 作者 | 年份 | 研究方法 | 准确率/% |
|---|---|---|---|
| SOBHANINIA等[9] | 2021 | Multiscale-CNN | 97.98 |
| FRANCISCO等[8] | 2021 | Multiscale-CNN | 97.30 |
| DESHPANDE等[17] | 2021 | DCT-CNN-ResNet50 | 98.14 |
| KUMAR等[7] | 2021 | Resnet-50 | 98.00 |
| 我们的方法 | 2022 | 多尺度残差网络 | 98.58 |
注:文献7中Resnet-50为50层深度残差网络;文献8中Multiscale-CNN为多尺度卷积神经网络;文献9中Multiscale-CNN为多尺度级联多任务卷积神经网络;文献17中DCT-CNNN-ResNet50为离散余弦变化结合卷积神经网络和50层深度残差网络。
如表8所示,与其他模型相比,我们的模型对脑部MRI图像的分类的可靠性更高,平均肿瘤分类准确率达到98.58%。其中一些分类方法需要在分类前进行肿瘤分割,例如文献[8]和[9]中的分类方法。此外,所有这些方法均只使用多尺度结合其他方法,或残差结合其他方法。相比之下,本文将多尺度与残差相结合,在脑肿瘤分类中具有最高的准确率。
本文提出了一种利用多尺度残差CNN对公开的脑肿瘤MRI图像进行自动分类的方法。该网络与现有本领域方法比较,具有更高的分类准确率,而且实现简单。
许多研究在分类前需要额外的操作,使处理过程变得复杂。比如使用特征提取器来提取特征(如Gabor提取[5]),或先进行图像分割操作。如KHAIRANDISH等[18]在结合CNN和支持向量机(support vector machine, SVM)进行分类前,采用基于阈值的分割模型对脑肿瘤进行分割,得到分类准确率为98.4959%。DEVI等[19]先利用小波变换进行特征提取,然后利用自适应核模糊C均值聚类技术分割肿瘤,最后使用CNN-LSTM实现分类,分类准确率为97.85%。NEELIMA等[20]先采用旗鱼分析优化器(sailfish political optimizer, SPO)算法训练最优DeepMRSeg策略进行分割[20],然后结合条件自回归风险值(conditional autoregressive value at risk, CAViaR),提出基于CAViaR-SPO的生成对抗网络(generative adversarial network, GAN)用于脑肿瘤分类,得到分类准确率为91.7%。以上这些额外的特征提取或分割操作增添了分类前的不确定性来源,每一步的误差都会影响后续的分类效果。
我们直接用头部MRI原始图像作为输入,不需要额外的预处理阶段。网络自动学习特征,实现简单,并不需要借助其他传统变换,属于真正的人工智能深度学习。
此外,对于数据集中存在不平衡的脑肿瘤数据的情况,我们的模型取得了更优的性能。新网络对脑膜瘤的分类准确率大大提高,并未因数据集中脑膜瘤数据量较少而出现其他模型中[3, 5, 11]对其分类准确率最低的情况。可见,新模型将残差块连接在多尺度输入模块后面,解决了梯度消失的问题,对脑肿瘤的泛化能力更强,后续还可进一步推广到诸如对MRI胶质瘤的分级任务中。
现有的大多数研究均使用交叉验证或大量数据增强操作来处理小数据集带来的过拟合问题。如BADŽA等[21]使用十倍交叉验证评估网络的性能,对胶质瘤、脑膜瘤、垂体瘤的分类准确率为96.56%。AURNA等[22]从5个预训练模型和一个提出的CNN模型中选择两个最好模型,将其串联进行特征提取,并采用6种增强技术(水平翻转、旋转、缩放、高度移动、宽度移动、缩放),实现对Figshare数据集98.16%的分类准确率。KOKKALLA等[23]对预训练Inception-ResNet-V2模型的输出层进行改进,采用五倍交叉验证在相同数据集上获得99.69%的准确率。GHASSEMI等[24]使用旋转、镜像等数据增强操作,对GAN进行训练,实现对脑肿瘤95.60%的分类准确率。KHAN等[25]提出一种基于k-means聚类和CNN模型,并辅以合成数据增强的混合方法,采用旋转、缩放、锐化等6种数据增强技术,在BraTS(2015)数据集上的分类准确率为94.06%。而我们的网络直接将原始数据分为训练集、验证集和测试集,也能达到很好的效果,证明提出的模型对于小型数据集具有很好的泛化能力。
首先,对输入信号进行不同尺度组合以及下采样模块的集成以获得更好的性能是一种更有效的分类方法,但也会导致模型的计算量增加。因此,今后应提供更好的解决方案,以平衡模型的性能和复杂度。其次,我们的研究仅使用单一的旋转和翻转数据增强操作,未考虑其他数据增强操作(如模糊、亮度等)对模型性能的影响,可以考虑采用更加丰富的数据增强策略。
本研究提出一种新的用于MRI脑肿瘤分类的多尺度ResNet,实现了对胶质瘤、脑膜瘤、垂体瘤和无肿瘤的四分类任务,平均准确率达到98.58%。
该方法的创新之处在于将多尺度与残差结构相结合,并添加下采样模块,组成了多尺度混合残差CNN模型。将待测试的MRI图像正确分为胶质瘤、脑膜瘤、垂体瘤和无肿瘤的分类准确率分别为99.14%、99.14%、99.42%和99.42%。这有助于临床医生准确诊断脑肿瘤类型,及时制订治疗方案,对提高患者的治疗效果和生存率等也至关重要。
在今后研究方向中,我们将进一步优化网络模块,使得网络结构更加简单。在实现高效的MRI脑肿瘤分类同时,研究用于其他医学图像上的通用性。并考虑其他的数据增强方法,进一步提高模型的泛化能力。还可以将训练好的网络开发成移动App应用,在手机和平板端实现头部MRI图像的肿瘤分类,便于医生和个人快捷使用。
黄敏, 熊正云, 朱俊琳. 基于多尺度残差网络的MRI脑肿瘤分类[J]. 磁共振成像, 2023, 14(1): 124-129.
HUANG M , XIONG Z Y, ZHU J L. MRI brain tumor classification based on multi-scale residual network[J]. Chin J Magn Reson Imaging, 2023, 14(1): 124-129.
Natural Science Foundation of Hubei Province (No. 2020CFB837).
全体作者均声明无利益冲突。





















