
探讨多视角融合以及主动轮廓约束的深度学习算法在10 μm级耳科专用CT图像上对听小骨分割的效果。
回顾性收集2019年10月至2020年12月北京友谊医院放射科10 μm级耳科专用CT检查的受试者数据共79侧耳(56侧来自志愿者,23侧来自标本)。对锤骨、砧骨和镫骨进行标注,将其划分为训练集(55侧)、验证集(8侧)和测试集(16侧)。采用感兴趣区域快速定位结合精准分割算法,分别从冠状面、矢状面和横断面3个视角对锤骨、砧骨和镫骨进行分割与融合。针对镫骨,同时设计了基于主动轮廓损失的镫骨分割方法。分割实验采用客观指标Dice相似系数(DSC)作为判别标准,比较本方法与基础方法、本方法与其他分割方法的组间DSC差异。
多视角融合分割算法对锤骨、砧骨和镫骨的平均DSC值分别为94.2%±2.7%、94.6%±2.6%和76.0%±5.5%;结合主动轮廓损失的约束方法后,对镫骨的平均DSC值进一步提升(76.4%±5.4%比76.0%±5.5%),且可视化结果显示镫骨结构的分割结果更加完整。
基于10 μm级耳科专用CT数据的多视角融合算法可实现对锤骨和砧骨结构的精准分割,结合主动轮廓损失约束方法,可进一步提升对镫骨结构的分割精度。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
锤骨、砧骨和镫骨等听小骨及其关节构成人耳的重要功能结构——听骨链,承担声音传导的重要功能。听骨链病变可导致听力下降甚至耳聋,严重影响患者的身心健康。然而,由于三块听小骨体积微小,通用型CT虽可显示锤骨和砧骨结构,但对于尺寸更小的镫骨则显示不全,尤其是镫骨底板几乎无法显示。因此,听小骨三维分割存在很大难度(图1A, 1C)。2020年报道的10 μm级耳科专用CT使空间分辨力得到大幅提升,镫骨底板显示率达到100%,为精准分割听小骨提供了高质量的数据基础(图1D~1F)[1]。但基于10 μm级耳科专用CT数据的智能分割算法研究至今尚未见有报道。


在传统智能分割方法中,常用的有阈值分割法、区域生长法、图割法等[2],但这类算法对复杂结构的分割效果欠佳。近年来,随着深度学习算法的普及,在分类[3]、分割等任务[4, 5]中取得了良好的精度,并逐步在医学影像领域展开研究和应用。全卷积网络[6, 7, 8, 9, 10, 11, 12]以及Transformer[13]算法在分割任务中表现出较高的精度,但依然存在二维算法难以充分利用层间特征、三维算法对标注数据需求大的问题。此外,大多数分割算法缺少对于目标边缘的约束,导致分割边缘欠佳。为此,本研究针对10 μm级耳科专用CT数据,提出基于多视角融合的听小骨分割算法,在有效提取CT层内信息的基础上,进一步融合层间特征,提高听小骨结构的分割精度。针对镫骨形状复杂、难以完整分割的问题,引入主动轮廓(ACE)损失约束[14],进一步提升镫骨分割的完整性。
本研究为结合横断面、矢状面和冠状面的多视角融合研究。回顾性收集2019年10月至2020年12月北京友谊医院放射科10 μm级耳科专用CT检查的79侧成人耳部(56侧来自志愿者,23侧来自头颅标本)数据。本研究获得首都医科大学附属北京友谊医院生命伦理委员会审核(2020-P2-156-01、2020-P2-061-02)。
实验数据采用北京朗视仪器股份有限公司10 μm级耳科专用CT扫描仪。参数设置:管电压100 kV,数据重建体素尺寸为0.1 mm×0.1 mm×0.1 mm,轴向面像素矩阵650×650,重建视野为65 mm×65 mm,层数为370层,曝光时间为40 s。
由影像医师单盲标注锤骨、砧骨、镫骨,并进行单盲审核,形成标注数据集:(1)训练集:随机抽取55侧标注数据集作为训练集,包含18侧标本数据和37侧志愿者数据;(2)验证集:8侧作为验证集,包含1侧标本数据和7侧志愿者数据,用于调节分割算法超参数;(3)测试集:16侧作为测试集,包含4侧标本数据和12侧志愿者数据,用于验证算法分割精度。采用Dice相似系数(DSC)作为客观评价标准。
1. 快速定位算法设计:针对10 μm级耳科专用CT数据量大、目标结构定位速度慢的问题,设计一种基于深监督机制[15]、密集编解码模块和多池化特征融合的快速定位网络,对目标感兴趣区域(ROI)进行快速定位。首先,将原始矩阵(650×650)图像下采样至224×224,输入ROI定位网络(图2)。在编码器第一阶段,通过步长为2、尺寸为5×5的卷积进行特征提取和降低空间分辨力,便于更快速定位。在编码器第二、第三、第四阶段采用密集连接块,每个密集连接块由3组卷积层、批归一化层(BN)、线性整流单元(ReLU)构成,在不同尺度上进行更加丰富的特征提取。在每层密集连接块后,采用多池化特征融合策略,分别利用最大池化和平均池化保留影像数据的边缘特征和背景特征,对二者拼接作为下一个密集连接模块的输入。在解码阶段,采用转置卷积根据编码器特征将图像恢复至原始矩阵维度的数据,并结合深监督机制,在不同尺度下约束损失函数,指导模型的训练。


注:aROI定位网络中间层与金标准计算的辅助损失;bROI定位网络解码器倒数第二层与金标准计算的辅助损失;cROI定位网络解码器最后一层输出与金标准计算的主损失;d总损失,包含三个不同尺度的监督损失加权求和;e线性整流函数
定位网络在深监督机制下的损失如公式1所示,其中lossaux1、lossaux2、lossmain分别来自编解码网络中间层、解码器倒数第二层以及解码器最后一层输出与金标准的计算结果。
不同尺度的监督损失采用Dice[16]损失函数(Dice loss)以及交叉熵损失函数(CE loss)之和作为定位损失函数,分别如公式2、3所示。其中,pred和gt分别代表预测结果和金标准,m为分割类别数,n为每个批次样本个数。

2. 多视角融合分割算法设计:采用TransUnet分割算法[17]作为主干网络模型(图3),是一种结合了Transformer[18]和卷积神经网络(CNN)的混合编解码分割网络。与CNN相比,Transformer具有较强的全局特征提取能力,而CNN可以更好地提取细节信息。在编码阶段,首先采用CNN特征编码器提取细节特征;然后,Transformer编码器提取全局上下文特征;最后,CNN解码器将图像恢复至原始输入尺寸,进行听小骨结构的精细分割。为了充分利用不同视角的互补信息,采用基于多视角融合的分割算法,分别从冠状面、矢状面和横断面进行CT影像分割,以Dice损失函数[10]和交叉熵损失函数指导分割算法训练。在测试时,3个视角的分割模型分别对ROI不同视角切片进行体素点类别概率预测;对多视角概率预测结果进行累加,进行极大似然估计,得到多视角融合的分割结果。


注:a以听小骨为中心224×224像素区域的感兴趣区域;b一种深度神经网络结构(图3左侧);c线性整流函数
3. 主动轮廓损失约束方法:基于多视角融合的听小骨分割方法中,镫骨结构的形状具有特殊性,分割难度大。本文引入主动轮廓损失作为约束,与Dice损失和交叉熵损失一起指导分割网络的训练,总损失函数如公式(4)所示,其中ACE损失函数如公式(5)所示。其核心利用欧拉曲线能量公式,通过平均曲率(curvature)和轮廓长度(length)对分割任务进行约束,其中,curvature的计算公式如式(6)所示,u为预测的二值化掩码,x、y分别代表二维图像水平方向和垂直方向,ux、uxx、uy、uxy、uyy为离散形式的中心有限差分,α和β是长度和曲率惩罚系数。根据公式,在镫骨分割任务中,α和β各取0.1时可以在曲率和轮廓长度之间取得平衡的约束关系。



采用DSC值作为客观评价指标,由公式(7)计算,其中gt和pred分别表示标注结果和分割算法预测结果。该评价指标用于描述预测结果与金标准标注之间的一致程度,对于小目标而言,DSC更加关注于小目标被完整分割的程度,受图像背景的影响较小。

采用SPSS 22.0统计软件进行数据分析。对于两组实验结果的比较,分割精度指标DSC符合正态分布时,以表示,采用配对t检验;符合非正态分布时,以M(Q1,Q3)表示,采用Kruskal-Wallis检验;对于多组分割结果的比较,采用配伍设计的方差分析。分别比较本方法与单视角、未引入主动轮廓损失约束及其他分割方法的分割精度。双侧检验,检验水准α=0.05。
由于形状差异,锤骨、砧骨和镫骨结构不同视角下的分割难易程度不一。多视角融合算法与单视角分割相比,显著提升对锤骨[(94.2%±2.7%)比(92.9%±3.1%)、(90.4%±3.7%)、(91.6%±3.1%),F=6.723,P=0.001]和镫骨[(76.0%±5.5%)比(63.2%±7.1%)、(72.6%±6.3%)、(71.4%±6.8%),F=27.693,P<0.001]的DSC精度(均P<0.05),对砧骨分割结果[(94.6%±2.6%)比(92.1%±3.4%)、(92.8%±2.3%),F=2.720,P=0.056]具有提升,但无统计学意义。多视角融合算法对锤骨和砧骨分割的DSC指标分别达到94.2%和94.6%,但对镫骨分割的DSC指标较低,为76.0%(表1)。

基于多视角融合的听小骨精细分割与各个视角分割Dice相似系数(DSC)对比(n=16)(%,)
基于多视角融合的听小骨精细分割与各个视角分割Dice相似系数(DSC)对比(n=16)(%,)
| 视角 | 锤骨 | 砧骨 | 镫骨 |
|---|---|---|---|
| 矢状面 | 92.9±3.1 | 92.1±3.4 | 63.2±7.1 |
| 横断面 | 90.4±3.7 | 92.8±2.3 | 72.6±6.3 |
| 冠状面 | 91.6±3.1 | 91.6±6.9 | 71.4±6.8 |
| 多视角 | 94.2±2.7 | 94.6±2.6 | 76.0±5.5 |
| F值 | 6.723 | 2.720 | 27.693 |
| P值 | 0.001 | 0.056 | <0.001 |
各个不同视角下分割模型的分割结果在表面曲率较大的区域,存在过分割或欠分割情况;单视角结果存在离散点(图4)。而在3个视角融合的结果中,离散点的问题被有效解决;在曲率较大位置,黄色区域明显增多。


在镫骨分割中,在矢状面上引入ACE损失约束后,16侧数据集的平均分割精度显著提升[(63.2%±7.1%)比(68.0%±7.2%),t=-2.625,P= 0.020];在多视角分割结果中,ACE损失的引入使平均DSC精度进一步提升[(76.0%±5.5%)比(76.4%±5.4%),t=-1.665,P=0.117],但差异无统计学意义。
选取分割精度最低的一套测试数据进行可视化(图5、6)。在矢状面上引入ACE损失以及在多视角下引入ACE损失的分割结果进行比较。在矢状面下进行分割,绿色区域较大,存在明显的欠分割现象,镫骨的分割残缺较为严重(图5A);而在矢状面引入ACE损失后,黄色预测正确体素数量明显增加,可以基本保持镫骨的形状(图5B);在多视角下,虽然过分割离散点控制得较好,但在镫骨顶部仍存在明显欠分割现象(图5C);在引入ACE损失后,镫骨顶部欠分割的现象得到缓解,结构分割更加完整(图5D)。




通过对基础方法单视角分割结果(图6A)与最终多视角结合ACE损失函数的分割结果(图6B)进行比较,可见分割的结构完整性明显提升。
在听小骨的分割任务中,本文方法对锤骨[(94.2%±2.7%)比(84.8%±6.0%)、(92.5%±2.9%),F=44.003,P<0.001]、砧骨[(94.6%±2.6%)比(88.2%±5.2%)、(92.0%±3.1%),F=15.866,P<0.001]、镫骨[(76.4%±5.4%)比(38.1%±16.0%)、(58.7%±15.3%),F=32.745,P<0.001]的DSC精度均显著优于3D-DSD[11]和SwinUnet[19]方法(均P<0.05)(表2)。

不同方法在听小骨分割任务的分割DSC对比(n=16)(%,)
不同方法在听小骨分割任务的分割DSC对比(n=16)(%,)
| 方法 | 锤骨 | 砧骨 | 镫骨 |
|---|---|---|---|
| 3D-DSD | 84.8±6.0 | 88.2±5.2 | 38.1±16.0 |
| SwinUnet | 92.5±2.9 | 92.0±3.1 | 58.7±15.3 |
| 本方法 | 94.2±2.7 | 94.6±2.6 | 76.4±5.4 |
| F值 | 44.003 | 15.866 | 32.745 |
| P值 | <0.001 | <0.001 | <0.001 |
近年来,基于深度学习的医学图像分割技术成为研究热点。针对CT三维容积数据,二维分割算法[6, 7]难以利用CT的层间信息,通常分割精准度较低。传统的三维分割算法[8, 9, 10, 11, 12]往往需要大样本的标注数据集进行训练,代价高昂。在耳部图像中,锤骨、砧骨和镫骨三个结构体积微小、结构形态复杂,其中镫骨结构最为特殊,为智能精准分割带来更大挑战。
本文基于10 μm级耳科专用CT图像数据设计了一种基于多视角融合和主动轮廓损失约束的听小骨结构分割方法。该方法分别在横、冠、矢3个视角下对锤骨、砧骨和镫骨进行分割与融合。与二维分割方法相比,多视角融合可有效利用不同视角之间的互补信息,提升分割精度;与三维分割方法相比,不需要大量的标注数据便可获得较好的结果。此外,针对镫骨结构复杂难以完整分割的问题,引入主动轮廓损失函数作为约束,显著提升了镫骨分割的结构完整性。
与传统CT图像数据相比,10 μm级耳科专用CT图像数据对锤骨、砧骨、镫骨等结构的显示能力大幅提升,尤其是对菲薄的镫骨底板,显示能力达到100%[1]。高质量的图像数据为智能分割算法效能提升提供了良好基础。在本文中,锤骨、砧骨的分割DSC精度分别达到94.2%和94.6%,镫骨分割指标达到76.4%,与文献报道的基于传统HRCT的智能分割结果比较,平均DSC精准度有了大幅提升(94.2%比82.2%,94.6%比81.5%)[3]。
为进一步验证本方法在10 μm级耳科专用CT中对听小骨分割的效能,与多个分割算法进行了分割精度的比较。其中,3D-DSD[11]是一种基于3D密集连接、深监督机制的高性能三维卷积神经网络,在HRCT的耳部关键结构分割中取得最优精度。SwinUnet[19]则是最近被提出的一种完全基于Transformer的U型结构分割算法,在多个器官分割和心脏分割任务中取得了优秀的成绩。在与上述方法的对比中,本方法对锤骨[(94.2%±2.7%)比(84.8%±6.0%)、(92.5%±2.9%)]、砧骨[(94.6%±2.6%)比(88.2%±5.2%)、(92.0%±3.1%)]和镫骨[(76.4%±5.4%)比(38.1%±16.0%)、(58.7%±15.3%)]的分割精度均达到最高。
本文提出的听小骨分割算法虽然具有较好的分割结果,但同时存在一定局限性。首先,分割精度有望进一步提升。目前用于训练的标注数据量较少,网络模型需要进一步在较大数据集上进行训练与测试。随着高质量标注数据的数量增多,网络模型的分割性能有望进一步提升。此外,利用大量未标注数据,开展基于半监督学习方法的研究,也是进一步提高算法分割准确率和鲁棒性的路径。其次,形状约束有待进一步完善。目前基于主动轮廓损失约束对特定投影面效果较为明显。因此,可考虑进一步自动评估镫骨的最佳约束投影面,有效发挥轮廓约束的作用;此外,开展由二维轮廓约束扩展到三维形态约束,也是值得探索的思路。第三,分割时间复杂度可有效降低。多视角分割与融合策略消除离群点,提高分割精度的同时,付出了3倍的2D分割时间复杂度;10 μm级耳科专用CT的图像分辨力提高,同时影像数据量大幅提升。研究不同解剖结构的最优分割分辨力,并实现自适应调节,可提高分割效率。后续工作将着重解决以上局限问题。
所有作者均声明不存在利益冲突





















