
设计一种结合迁移学习和多模态特征融合的肺功能预测方法,旨在提升特发性肺纤维化(IPF)患者肺功能预测的准确性。
首先,对CT影像和临床文本数据进行预处理,并设计自适应模块寻找最适合IPF患者的肺功能衰减函数。其次,特征提取模块包括CT特征提取、临床文本特征提取和肺功能特征提取3个子模块,以全面提取特征。然后,使用多模态特征预测网络全面评估肺功能的衰减情况。最后,对预训练模型进行微调以提升模型的预测性能。
针对OSIC肺纤维化进展比赛数据集,通过自适应模块发现线性衰减假设更符合患者肺功能衰减趋势。不同模态数据预测实验表明,加入临床文本特征的模型预测能力优于只使用CT影像的模型,使用CT影像+临床文本特征+肺功能特征的模型预测效果最优。结合迁移学习和多模态特征融合的肺功能预测方法改进的拉普拉斯对数似然(LLLm)为−6.706 5、均方根误差(RMSE)为184.5和平均绝对误差(MAE)为146.2,在性能上优于其他方法。且预训练模型相较于零基础训练模型具有更高的预测精度。
设计的结合迁移学习和多模态特征融合的肺功能预测方法有效地预测了IPF患者在不同周数的肺功能状态,为患者的健康管理和疾病诊断提供了重要的支持。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
特发性肺纤维化(idiopathic pulmonary fibrosis,IPF)是一种慢性进行性的肺部疾病,其特征是肺组织的瘢痕化和纤维化,导致肺功能逐渐衰退[1,2]。肺功能是评估IPF严重程度和疾病进展的重要指标,对患者的健康管理和疾病诊断具有深远的影响[3,4]。传统的肺功能评估方法,如肺功能测试[5,6]和氧气摄取量[7,8]测定,为临床提供了依据。而胸部计算机断层扫描(computed tomography,CT)图像因为包含了放射科医生评估所必需的图像信息,可以有效地评估肺纤维化引起的肺功能下降,但这存在一定主观性,目前还没有广泛应用的技术来预测肺功能的衰减情况。
近年来,人工智能为医疗领域带来了新的思路。多项研究已经使用机器学习技术来预测IPF的进展[9,10,11,12]。深度学习具有自动从数据中学习和提取关键特征的能力,尤其在处理复杂数据模式时展现出其优越性[13,14,15]。然而,尽管深度学习在肺功能预测任务上取得了优异表现,它也面临着一系列的挑战,如与特定领域的先验知识结合不足、数据有限时的特征提取困难以及模型的解释性问题等[16,17,18,19,20,21]。为了克服这些挑战,一些研究者尝试融合领域知识和深度学习模型,如Al Nazi等[22]的研究大幅提高了预测精度。此外,迁移学习技术可将先前领域学习到的特征和参数应用到新领域,可以解决当前数据量不足的问题并且提高学习效率,增强模型的稳定性和泛化能力[23]。
本研究设计了一种新的自适应肺功能预测算法,该算法可以处理多模态的数据(图像和文本)预测用力肺活量(forced vital capacity,FVC)的衰减。首先,收集CT影像数据和临床文本信息,并通过图像分割、特征选择和归一化等预处理步骤准备数据;其次,设计了自适应模块,它可以通过患者的FVC-Weeks数据自动选择最适合肺功能衰退曲线的衰减函数,并利用最小二乘法拟合衰减函数的参数,为后续模型训练提供伪标签;然后,在特征提取和模型构建阶段,使用预训练的ResNeXt-50模型从CT影像中提取图像特征,同时结合临床文本信息和肺功能特征,构造了一个综合特征集,通过全连接层将这些特征映射到伪标签上;最后,模型经过训练和微调后,使用测试集数据进行模型性能验证。使用多模态特征预测网络预测出衰减函数参数,再将参数带入到自适应模块拟合的衰减函数中,得到患者的FVC预测结果。本研究致力于设计一种结合迁移学习和多模态特征融合的高精度肺功能预测方法,为疾病的进一步研究和患者的健康管理提供有价值的参考和优质的支持。
本研究中使用的数据集来自开源成像联盟(open source imaging consortium,OSIC)肺纤维化进展比赛[24],且已获得组织者的授权和许可,以确保数据集的合法性和知识产权保护。在使用数据集时严格遵守适用的法律、法规和隐私保护政策。数据集包含176组患者的胸部CT扫描(图1)和相关临床文本信息(表1)。在0周时采集患者CT图像,并在1~2年的过程中进行多次随访。相关临床文本信息包括患者ID、百分比、年龄、FVC、性别、周数和吸烟状态,其中百分比表示每个患者的FVC相对于同年龄、同性别和同吸烟状态的人群中典型的FVC水平,周数是指与基线CT扫描的相对周数(可能为负数),吸烟状态分为从未吸烟、目前吸烟和曾经吸烟。

患者临床文本信息
患者临床文本信息
| 患者ID | 百分比(%) | 年龄 | 用力肺活量(ml) | 性别 | 周数 | 吸烟状态 |
|---|---|---|---|---|---|---|
| ID00007637202177411956430 | 58.25 | 79 | 2 315 | 男 | −4 | 曾经吸烟 |
| ID00007637202177411956430 | 55.71 | 79 | 2 214 | 男 | 5 | 曾经吸烟 |
| ID00007637202177411956430 | 51.86 | 79 | 2 061 | 男 | 7 | 曾经吸烟 |
| ID00007637202177411956430 | 53.95 | 79 | 2 144 | 男 | 9 | 曾经吸烟 |
| ID00007637202177411956430 | 52.06 | 79 | 2 069 | 男 | 11 | 曾经吸烟 |
| ID00007637202177411956430 | 52.86 | 79 | 2 101 | 男 | 17 | 曾经吸烟 |
| ID00007637202177411956430 | 50.32 | 79 | 2 000 | 男 | 29 | 曾经吸烟 |
| ID00007637202177411956430 | 51.93 | 79 | 2 064 | 男 | 41 | 曾经吸烟 |
| ID00007637202177411956430 | 51.77 | 79 | 2 057 | 男 | 57 | 曾经吸烟 |


使用Ubuntu 20.04操作系统,PyTorch深度学习开发框架。CPU为Intel酷睿i5-12600KF,GPU为的英伟达RTX3090。在训练过程中选用Adam作为优化器,batchsize设置为8,初始学习率设定为0.000 2,epoch设为200。
首先,剔除每个CT扫描的前30%和后30%的切片,因为这些切片所包含的肺部信息较少,对于肺功能预测的贡献有限;随后,从剩余的切片中随机选择一个中间位置的切片输入到模型中进行处理。选择中间切片的原因是中间位置的切片通常包含更大的肺部区域。
首先,对肺部的CT影像进行一系列的预处理,包括窗宽窗位调整(窗宽:1 600 hu,窗位:−600 hu)、中值滤波降噪、图像大小调整(512 mm×512 mm)、重采样(1 mm×1 mm×1 mm)、归一化处理;然后,使用基于阈值分割法和形态学操作进行肺部区域分割;最后,实施一系列的数据增强操作(包括随机旋转、随机平移、随机裁剪、随机缩放、水平翻转、垂直翻转、亮度调整和对比度调整)以提高模型的鲁棒性。
首先,将年龄信息转化为标准化的数值:计算样本年龄与训练数据集年龄平均值的差值,然后除以标准差;其次,将性别信息编码为数值,男性对应数值0,女性对应数值1;最后,吸烟状态信息通过数字向量编码,即"从不吸烟"对应[0,0],"过去吸烟者"对应[1,1],"目前吸烟者"对应[0,1]。
采用多个评价指标来全面评估结合迁移学习和多模态特征融合的肺功能预测方法的性能。改进的拉普拉斯对数似然(modified version of the Laplace log likelihood,LLLm)指标用于评估模型对其决策的信心和预测的准确性,反映每个预测结果的确定性和可靠性。为计算LLLm指标,根据Kaggle比赛[24]的参考方法,对于每个真实的FVC测量,按照以下公式计算FVC和置信度的测量值:


其中,Δ用于避免大误差带来的不利惩罚,将超过1 000 ml的误差截断为0。σclipped则将置信度裁剪为最大值为70 ml,以反映对FVC近似测量的不确定度。根据每周的预测结果计算LLLm指标,并对所有周的指标进行平均,得到最终的评估得分。LLLm的计算结果始终为负值,而值越低表示更好的性能。除了LLLm指标,还使用了均方根误差(root mean squared error,RMSE)和平均绝对误差(mean absolute error,MAE)作为辅助指标,以提供对预测结果准确性的衡量。
如图2所示,自适应肺功能预测模型的整体流程图由3个关键步骤组成:(1)引入的多种用于患者FVC预测的独特公式,自适应寻找最优的FVC衰减公式并生成参数标签;(2)使用ResNeXt-50从预分割的CT图像中提取深层特征并融合肺功能特征和临床文本特征;(3)微调预训练模型,优化模型的性能和预测能力。


以患者的FVC值和相应的时间作为输入。
进行数据归一化和异常值去除,确保数据质量。
FVC(t)代表时间t的FVC值。FVC的衰减模型旨在捕捉IPF患者的生理变化。此过程不仅需要考虑实际的医学背景和生物学机制,还要确保模型的数学性质与实际的生理过程相一致。模型选择的理论依据有(1)生理学与病理学考虑:FVC衰减趋势可能源于多种生理和病理机制的综合作用。因此,模型的选择应能反映这些机制对FVC的影响。如线性衰减可能暗示疾病的稳定进展,而非线性模型则可能反映疾病的复杂生理互动或疾病阶段的转变。(2)历史研究的经验:线性模型在以往的研究中已被验证,并被认为是描述FVC衰减趋势的可靠方式[17,18]。(3)数学模型的稳定性与可靠性:模型应该具有良好的数学性质[18,22],这意味着它们在最小二乘法等统计方法中能够得到稳定和可靠的参数估计。(4)模型的泛化能力:由于IPF患者可能存在多种不同的FVC衰减趋势,选择的模型应具有足够的灵活性和泛化能力,以捕捉这些可能的趋势变化。
基于上述理论依据,确定了以下几种具有代表性的衰减模型。
(1)线性衰减:FVC(t)=FVC(0)-b×t
该模型适用于一些IPF患者的疾病进展表现为均匀且连续的FVC衰减。这种情况下,衰减速率是恒定的,不受时间的影响。这可能对应于那些疾病发展相对稳定,没有经历急剧恶化或明显的缓解阶段的患者。
(2)指数衰减:FVC(t)=a×e−b×t+c
该模型表示疾病的进展初期迅速,但随着时间的推移,进展的速度逐渐减缓。这可能对应于那些疾病初期病变快速扩展,但随着疾病的发展,病变区域的增长速度逐渐降低的患者。
(3)对数衰减:FVC(t)=a×lgt+b
该模型代表了患者在疾病的早期可能没有明显的FVC衰减,但随着时间的推移,衰减逐渐加速。这种模型可能与那些在疾病的早期阶段表现出相对稳定,但在后期疾病迅速进展的患者相匹配。
(4)幂衰减:FVC(t)=a×tb+c
该模型表明FVC的衰减与时间的关系是非线性的。这可能适用于那些疾病进展不是均匀加速或减速,而是受到多种因素影响,并在某些时期内表现出复杂的进展模式的患者。
其中,t代表周数,而a、b和c是待确定的模型参数,FVC(0)代表初始测量的FVC值。
使用最小二乘法拟合上述模型,目标是最小化预测值与观测值之间的误差平方和。
使用RMSE和MAE来评估拟合的效果。


其中,FVCobs,i和FVCpred,i分别表示第i个观测和预测的FVC值。
根据评估,选择最佳的衰减模型和相应的参数,这将作为后续模型训练的基础。
通过以上步骤,使用最小二乘法拟合不同衰减函数的参数,并利用衡量指标对拟合效果进行评估。最终,选择拟合效果最好的线性衰减假设作为最优的肺功能衰减函数,并将其参数用于后续的模型训练。
由于ResNet及其变体结构在深层特征提取中的出色表现,因此本研究使用ResNeXt-50作为特征提取网络[25,26]。ResNeXt-50模型引入了残差连接[27],通过跳跃连接将输入数据与输出数据相加,有助于解决深层网络中的梯度消失问题,使得模型能够更好地学习到图像的高级特征表示。
ResNeXt-50网络层数结构见表2,总体包括5个卷积层。先通过conv1层的7×7卷积,再由conv2层中3×3的卷积核进行下采样,然后重复堆叠残差网络的Block结构,堆叠的个数分别是3、4、6、3,再通过全局平均池化下采样,全连接层连接,最后经由Softmax层激活将分类结果输出。中间堆叠残差神经网络的分组个数C(基数)为32,每一组通道数为4。

ResNeXt-50网络层数结构
ResNeXt-50网络层数结构
| 层数 | 输出大小 | ResNeXt-50 |
|---|---|---|
| Conv1 | 112×112 | 7×7卷积,64,步幅为2 |
| 3×3最大池化,步幅为2 | ||
| Conv2 | 56×56 | ![]() |
| Conv3 | 28×28 | ![]() |
| Conv4 | 14×14 | ![]() |
| Conv5 | 7×7 | ![]() |
| 全连接层 | 1×1 | 全局平均池化层,16维全连接层,Softmax层 |
为适应研究需要,将原始的输入通道数由3改为1,以适应单通道的输入数据。将原始的全连接层修改为输出维度为64的线性层,以拼接提取的肺功能特征和临床特征,用以模型的训练与预测。
在对肺部区域进行分割后,从CT图像和临床文本信息中提取相关肺功能特征。这些特征包括肺体积(V)、第1次FVC测量的时间以及自第1次FVC测量以来经过的时间。肺体积是评估肺部结构和功能的关键指标之一,通过计算肺部区域内像素的体积,可以获取患者的肺容量信息,计算公式如下:


其中,V表示单个像素的体积,Xspacing、Yspacing、Zspacing分别表示CT影像中3个方向上像素之间的间隔,N表示肺部区域像素的个数。
同时,将预处理后的临床文本特征、提取的肺功能特征与使用ResNeXt-50提取的CT图像特征进行拼接,以创建考虑成像和临床信息的综合特征集。这种综合考虑的方式可以帮助捕捉CT影像和临床信息对肺功能下降预测的综合影响。
在模型的微调和训练过程中,首先,利用预训练的ResNeXt-50模型,将其提取的CT影像特征与临床文本特征、肺功能特征连接起来,形成综合的特征集,添加全连接层和dropout层,以具备回归预测能力;然后,将训练数据和测试数据按照5折交叉验证划分,创建数据加载器用于加载CT影像和相关临床信息,并应用2D数据增强技术增加数据多样性。训练采用Adam优化算法,使用L1损失函数度量预测值与真实FVC值的差异。
在每个训练轮次中,通过前向传播、反向传播和参数优化,更新模型的权重。利用拟合的伪标签和训练集数据对模型进行微调和训练,通过迭代优化模型性能和预测能力。在每个轮次结束时,评估模型在验证集上的表现,并保存具有最佳得分的模型参数。整个过程会在每个折的训练集和测试集上重复进行,以优化模型的性能和预测能力。
为了对比从零基础训练和使用预训练模型在IPF患者的肺功能预测中的表现,每种模型都进行了2种实验设置:使用随机初始化权重进行训练(零基础训练)和使用预训练模型进行初始化,并进行微调以适应任务(预训练模型)。其余的训练参数,如学习率、批大小和优化器等,都保持一致以确保对比的公正性。
如表3所示,肺功能的衰减趋势假设中线性衰减假设的MAE和RMSE低于其他假设,幂衰减假设未拟合。

自适应模块拟合结果
自适应模块拟合结果
| 衰减趋势假设 | RMSE | MAE |
|---|---|---|
| 线性衰减 | 100 | 80 |
| 指数衰减 | 176 | 153 |
| 对数衰减 | 2 678 | 2 672 |
| 幂衰减 | / | / |
注:RMSE—均方根误差;MAE—平均绝对误差;"/"表示未拟合
如表4所示,只使用CT进行预测效果最差;使用CT+临床文本特征预测效果次之;使用CT+临床文本特征+肺功能特征预测效果最佳。

使用不同模态模型性能比较
使用不同模态模型性能比较
| 模态模型 | LLLm | RMSE | MAE |
|---|---|---|---|
| CT影像 | −6.739 3 | 192.6 | 152.5 |
| CT影像+临床文本特征 | −6.736 2 | 190.3 | 150.7 |
| CT影像+临床文本特征+肺功能特征 | −6.706 5 | 184.5 | 146.2 |
注:CT—计算机断层扫描;LLLm—改进的拉普拉斯对数似然;RMSE—均方根误差;MAE—平均绝对误差
如表5所示,本研究使用了15种不同的卷积神经网络架构(包括5种ResNet、2种ResNeXt和8种EfficientNet)进行实验评估。本研究设计的肺功能预测方法的LLLm为−6.706 5、RMSE为184.5和MAE为146.2,在性能上优于其他方法。与LSTM-QRNN、Elastic Net Regression、Ridge Regression、CBAM-ICA、Fibrosis-Net以及在Kaggle竞赛中获得前3名的方法相比,本研究方法具有更好的预测准确性。

本研究方法与其他文献中对于肺功能预测方法比较
本研究方法与其他文献中对于肺功能预测方法比较
| 模型 | LLLm | RMSE | MAE |
|---|---|---|---|
| ResNeXt-50 | −6.706 5 | 184.5 | 146.2 |
| LSTM-QRNN[17] | −6.709 4 | 244.2 | / |
| Elastic Net Regression[12] | −6.730 0 | / | / |
| Ridge Regression[12] | −6.810 0 | / | / |
| CBAM-ICA[18] | −6.810 7 | / | / |
| Fibrosis-Net[21] | −6.818 8 | / | / |
| Kaggle第1名[24] | −6.830 5 | / | / |
| Kaggle第2名[24] | −6.831 1 | / | / |
| Kaggle第3名[24] | −6.833 6 | / | / |
| DNN+GBDT+NGBoost+ElasticNet[9] | −6.850 7 | / | / |
| Regression[10] | −6.859 0 | / | / |
| Multiple Quantile Regression[12] | −6.920 0 | / | / |
注:LLLm—改进的拉普拉斯对数似然;RMSE—均方根误差;MAE—平均绝对误差;"/"表示原文未给出
如表6所示,对于15种不同卷积神经网络,使用预训练模型的LLLm、RMSE和MAE评价指标均优于零基础训练模型。

不同卷积神经网络下零基础训练与预训练模型的对比
不同卷积神经网络下零基础训练与预训练模型的对比
| 特征提取网络 | 预训练模型 | 零基础训练模型 | ||||
|---|---|---|---|---|---|---|
| LLLm | RMSE | MAE | LLLm | RMSE | MAE | |
| ResNet18 | −6.750 7 | 189.9 | 150.4 | −6.757 0 | 191.0 | 151.2 |
| ResNet-34 | −6.722 8 | 200.1 | 157.6 | −7.083 7 | 207.6 | 162.7 |
| ResNet-50 | −6.721 6 | 191.2 | 152.9 | −7.037 0 | 208.6 | 163.8 |
| ResNet-101 | −6.727 0 | 193.9 | 160.3 | −7.011 9 | 215.9 | 168.2 |
| ResNet-152 | −6.760 2 | 204.1 | 160.3 | −6.972 6 | 208.1 | 163.6 |
| ResNeXt-50 | −6.706 5 | 184.5 | 146.2 | −6.938 3 | 203.1 | 159.2 |
| ResNeXt-101 | −6.724 4 | 203.1 | 159.3 | −7.066 6 | 207.1 | 162.4 |
| EfficientNet-b0 | −6.716 7 | 196.8 | 155.4 | −7.028 6 | 219.4 | 171.1 |
| EfficientNet-b1 | −6.815 1 | 195.4 | 154.2 | −6.961 9 | 220.6 | 171.9 |
| EfficientNet-b2 | −6.734 4 | 195.0 | 153.9 | −7.094 8 | 207.2 | 162.7 |
| EfficientNet-b3 | −6.779 6 | 196.5 | 155.1 | −6.947 7 | 211.3 | 164.9 |
| EfficientNet-b4 | −6.730 9 | 192.4 | 152.3 | −7.315 6 | 263.9 | 202.9 |
| EfficientNet-b5 | −6.939 5 | 198.0 | 156.0 | −7.072 0 | 213.2 | 166.9 |
| EfficientNet-b6 | −6.931 2 | 197.0 | 155.5 | −7.249 6 | 222.4 | 170.0 |
| EfficientNet-b7 | −7.106 9 | 210.6 | 171.2 | −7.335 9 | 264.2 | 204.1 |
注:LLLm—改进的拉普拉斯对数似然;RMSE—均方根误差;MAE—平均绝对误差
本研究设计了一种新颖的肺功能预测方法。通过采用自适应深度学习方法,融入迁移学习和多模态特征融合的策略,成功地在OSIC肺纤维化进展数据集上取得了显著的结果,有效地揭示了此方法在肺功能预测中的优势和潜力。
首先,本研究通过设计自适应模块寻找最优的肺功能衰减公式,有效地克服了先验假设可能引入的误差问题,为使用线性先验假设提供了选择依据;然后,利用迁移学习技术,先前任务中学习到的特征和参数被应用于肺功能预测任务,解决了数据量不足的问题,同时提高了学习效率和模型的稳定性;最后,通过引入多模态特征融合的策略,实现了CT影像、临床文本特征和肺功能特征的有效结合,充分利用了不同信息源之间的互补性,进一步提升了预测性能。
不同模态数据预测实验表明,加入临床文本特征的模型预测能力优于只使用CT影像的模型,使用CT影像+临床文本特征+肺功能特征的模型预测效果最优,验证了本研究所提取的肺功能特征的有效性。
使用15种不同特征提取网络实验结果表明,所提出的方法在LLLm、RMSE和MAE评价指标上,ResNeXt-50表现最优,其中LLLm为−6.706 5,RMSE为184.5,MAE为146.2,这代表了它具有最高的预测准确性和预测结果的确定性。相反,EfficientNet-b7的表现在所有指标上均较差,这可能是由于其相对较大的模型规模,在数据集规模较小的情况下容易出现过拟合的问题。这些结果一方面揭示了所提出的方法具有良好的一致性和可推广性,另一方面也暗示了在肺功能预测任务中,较轻的模型可能更适合处理较小的数据集,而更复杂的模型可能需要更大的数据集来避免过拟合。
从零基础训练与预训练模型实验结果中可以明显观察到,无论是使用LLLm、RMSE还是MAE评价指标,预训练模型的性能都优于零基础训练模型。这表明预训练模型在大规模通用图像数据上学到的特征可以通过迁移学习应用于医学图像领域。
本研究成果在肺功能的监测和评估方面具有重要的实际应用价值。通过提供更准确的预测结果,本研究的方法能够协助医生和临床医疗团队制定更有效的治疗计划,监测疾病进展,并及时采取干预措施。该方法具有以下优势和贡献:(1)设计了一种结合迁移学习和多模态特征融合的肺功能预测方法,能够全面评估患者的肺功能的衰减程度,较Kaggle比赛第1名具有更高的预测精度;(2)设计的自适应模块能为每个患者生成个性化预测模型,从而增强预测的个性化能力;(3)通过提取和选择肺功能特征提升了模型精度,并通过消融实验证明了其有效性;(4)验证了预训练模型在肺功能预测中的有效性,可以提高模型预测精度;(5)本研究在主流的卷积神经网络特征提取模型下验证了该方法的预测效果,进一步证明了其有效性和可行性。
对于未来的研究,建议进一步扩展和优化所提出的肺功能预测方法。首先,可考虑增加数据集规模,以提升模型的泛化能力和稳定性;其次,可能会引入其他特征,如生物标志物数据、遗传信息等,增加模型的全面性和预测准确性;最后,鼓励在实际临床环境中进行验证和应用,以全面检验所提出的方法的效果和可行性。
所有作者均声明不存在利益冲突

























