
探讨基于双参数MRI机器学习模型对前列腺癌和临床显著性前列腺癌(csPCa)的诊断价值。
回顾性收集2015年5月至2020年12月江苏省内3个医疗中心共1 368例行术前MRI且经病理证实的前列腺疾病患者的影像资料,其中csPCa 412例,无显著临床意义的前列腺癌(ciPCa)242例,良性前列腺病变714例,年龄30~92(69.4±8.2)岁。采用Python内嵌random工具包将中心一和中心二数据按照7∶3比例进行无放回随机数法采样划分为训练组和内部测试组,中心三数据设为独立外部测试组,其中训练组包括243例csPCa、135例ciPCa和384例良性病变,内部测试组包括104例csPCa、58例ciPCa和165例良性病变,外部测试组包括65例csPCa、49例ciPCa和165例良性病变。分别提取T2加权成像、弥散加权成像和表观扩散系数图的影像组学特征,采用Pearson相关系数分析、方差分析筛选影像组学特征,分别使用随机森林(RF)和支持向量机两种算法构建机器学习模型,并在内部测试组和外部测试组对模型进行测试。最后,选取诊断效能较高的机器学习模型辅助调整医师前列腺影像报告和数据系统(PI-RADS)评分,命名为调整后PI-RADS。通过受试者工作特征(ROC)曲线评估机器学习模型和PI-RADS的诊断效能,使用Delong检验比较机器学习模型和PI-RADS的ROC曲线下面积(AUC)。
在诊断前列腺癌时,基于RF算法的机器学习模型和医师PI-RADS评分的AUC在内部测试组中分别为0.869(95%CI:0.830~0.908)和0.874(95%CI:0.836~0.913),两者差异无统计学意义(P=0.793);在外部测试组中分别为0.845(95%CI:0.794~0.897)和0.915(95%CI:0.880~0.951),两者差异有统计学意义(P=0.01)。在诊断csPCa时,基于RF算法的机器学习模型和医师PI-RADS评分的AUC在内部测试组中分别为0.874(95%CI:0.834~0.914)和0.892(95%CI:0.857~0.927),两者差异无统计学意义(P=0.341);在外部测试组中分别为0.876(95%CI:0.831~0.920)和0.884(95%CI:0.841~0.926),两者差异无统计学意义(P=0.704)。医师PI-RADS评分经过机器学习模型辅助诊断后,诊断前列腺癌时,内部测试组特异度从63.0%提升到80.0%,外部测试组特异度从92.7%提升到93.3%;诊断csPCa时,内部测试组特异度从52.5%提升到72.6%,外部测试组特异度从75.2%提升到79.9%。
基于双参数MRI机器学习模型对前列腺癌和csPCa诊断水平达到高年资放射科医师诊断水平并具有良好的泛化性;经过机器学习模型辅助诊断后PI-RADS评分特异度有所提升。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
前列腺癌在我国的发病率逐年提升[1]。多参数磁共振(multiparametric magnetic resonance imaging,mpMRI)是目前诊断前列腺癌最常用的影像学技术,能够提高前列腺癌和临床显著性前列腺癌(clinically significant prostate cancer,csPCa)诊断的准确率。mpMRI主要包含T2加权成像(T2-weighted imaging,T2WI)、弥散加权成像(diffusion-weighted imaging,DWI)和动态对比增强(dynamic contrast enhancement,DCE)序列,然而,有研究表明仅包含T2WI和DWI的双参数MRI(biparametric MRI,bpMRI)与mpMRI诊断效能相当[2],且DCE序列需要注射造影剂、扫描时间长且需要额外费用,因此bpMRI逐渐成为研究热点[3, 4]。前列腺影像报告和数据系统(prostate imaging reporting and data system,PI-RADS)是前列腺MRI影像标准化和规范化后的评分系统[5, 6],然而,PI-RADS对诊断医师的经验要求高,不同医师间诊断也存在差异[7]。影像组学可以深度挖掘多维深层次信息从而进行定量化分析,对肿瘤异质性的评估更为客观和稳定[8]。然而,目前基于影像组学对前列腺癌诊断研究多为单中心,而且研究病例数较少,模型泛化能力和稳定性较差。因此,为了进一步挖掘影像组学模型潜在价值,本研究收集3个中心数据,利用不同算法构建机器学习模型用于前列腺癌和csPCa的诊断,并在内部测试组和独立外部测试组验证该模型的诊断效能,最后在机器学习模型辅助诊断下调整医师PI-RADS评分,探讨机器学习模型对放射科医师的辅助诊断价值。
回顾性分析2015年5月至2020年12月苏州大学附属第一医院(中心一)、苏州大学附属第二医院(中心二)和常熟市第一人民医院(中心三)临床怀疑前列腺癌而行MRI检查的患者。纳入标准:(1)术前两周内行MRI检查;(2)临床资料和穿刺和(或)根治性前列腺切除术(radical prostatectomy,RP)后病理资料完整;(3)MRI检查前未行前列腺相关治疗或手术(穿刺、放疗和化疗等)。排除标准:(1)MRI检查序列不完整或图像质量不佳;(2)MRI无明确病灶。最终共纳入患者1 368例,中心一539例,中心二550例,中心三279例,其中csPCa共412例,无显著临床意义的前列腺癌(clinically insignificant prostate cancer,ciPCa)共242例,良性病变共714例。采用Python内嵌random工具包将中心一和中心二数据按照7∶3比例进行无放回随机数法采样划分为训练组(n=762)和内部测试组(n=327),将中心三数据作为独立外部测试组(n=279)。训练组包括243例csPCa、135例ciPCa和384例良性病变;内部测试组包括104例csPCa、58例ciPCa和165例良性病变;外部测试组包括65例csPCa、49例ciPCa和165例良性病变。患者纳入和排除具体流程如图1所示。本研究已通过苏州大学附属第一医院医学伦理委员会审核(2019-116),回顾性研究患者知情同意豁免。


注:RP为根治性前列腺切除术;中心一为苏州大学附属第一医院,中心二为苏州大学附属第二医院,中心三为常熟市第一人民医院
3个中心MRI扫描分别使用Skyra 3.0 T机器(德国西门子公司)、Ingenia 3.0 T机器(荷兰飞利浦公司)和Achieva 3.0 T机器(荷兰飞利浦公司)。所有患者常规MRI扫描序列包括T1加权成像(T1-weighted imaging,T1WI)、T2WI、DWI/表观扩散系数(apparent diffusion coefficient,ADC)图和DCE。研究所用序列的详细参数见表1。

3个研究中心对前列腺疾病患者进行MRI扫描的扫描序列详细参数
3个研究中心对前列腺疾病患者进行MRI扫描的扫描序列详细参数
| 序列 | TR(ms) | TE(ms) | 视野(cm2) | 体素(mm3) | b值(s/mm2) |
|---|---|---|---|---|---|
| 中心一 | |||||
| T2WI | 6 980 | 104 | 20×20 | 0.52×0.52×3 | |
| DWI | 5 000 | 72 | 22×22 | 1.69×1.69×3 | 50、100、800、1 000、1 500 |
| DCE | 3.2 | 1.2 | 36×28 | 1.13×1.13×3 | |
| 中心二 | |||||
| T2WI | 3 000 | 100 | 26×26 | 0.46×0.46×3 | |
| DWI | 6 000 | 80 | 22×22 | 1.16×1.16×3.2 | 50、100、200、500、800、1 000、1 400、1 500、2 000 |
| DCE | 3.1 | 1.4 | 22×22 | 1.77×1.82×3 | |
| 中心三 | |||||
| T2WI | 3 000 | 80 | 20×20 | 0.4×0.4×3 | |
| DWI | 2 750 | 76 | 22×22 | 1.38×1.38×3 | 50、500、1 000、1 500、2 000 |
| DCE | 3.5 | 1.0 | 18×18 | 1.13×1.13×3 |
注:TR为重复时间;TE为回波时间;T2WI为T2加权成像;DWI为弥散加权成像;DCE为动态对比增强;中心一为苏州大学附属第一医院,中心二为苏州大学附属第二医院,中心三为常熟市第一人民医院
由中心一的2名高年资放射科诊断医师(分别具有15年和20年前列腺MRI诊断经验)分析入组病例MRI影像,并依据PI-RADS(2.1版)对病灶进行评分,分析序列为T2WI、DWI、ADC图和DCE序列,意见不同时商议后统一评分。当患者存在多个病灶时,选取评分最高者。评分时2名医师均不知晓病理结果。
本研究中PI-RADS 1~2分患者采取经直肠超声(trans rectal ultra sound,TRUS)引导下前列腺系统穿刺;PI-RADS评分为≥3分患者在前列腺系统穿刺的基础上,加做MRI-超声靶向融合穿刺或认知融合穿刺。如患者接受了RP,则诊断金标准以术后病理为准;没有接受RP患者以穿刺结果为金标准。依据2014年国际泌尿病理协会制定指南[9],前列腺癌定义为Gleason评分分级分组(Gleason grade group,GG)≥1,csPCa定义为GG>2,ciPCa定义为GG1和GG2。
1.图像分割:由中心一的2名放射科医师(分别具有3年和5年前列腺MRI诊断经验)分别对每例受检者的T2WI、DWI(b=1 000 s/mm2)和ADC图像(根据DWI b=50、1 000 s/mm2计算生成)进行分析,使用ITK-snap软件(3.8.0版)对MRI图像的主病灶逐层勾画三维感兴趣区(volume of interest,VOI),尽量避开尿道、出血及钙化,病灶解剖位置参考穿刺或根治术后病理切片及报告,当患者存在多个病灶时,主病灶定义为GG最高者,GG相等则选取最大者。1周后,再由年资较高的放射科医师随机挑选30例重新勾画病灶,计算组间及组内相关系数(inter-and intra-class correlation coefficient,ICC)。以上VOI均由1名具有20年前列腺MRI诊断经验的高年资放射科医师审核修改病灶边界,确认病灶周围组织未勾画入VOI的情况下尽可能符合实际病灶边界,最后选取年资较高医师勾画的VOI进行后续特征分析。
2.影像组学特征提取:首先对每一病例的T2WI和DWI图像进行配准及灰度亮度归一化,灰度范围调整为1~1 000,图像重采样设为0.5 mm×0.5 mm×3 mm。使用FAE(feature explorer,0.5.2版)软件[10]对所有病灶T2WI、DWI及ADC图的VOI进行高通量特征采集,提取特征包括一阶特征、形状特征和纹理特征。纹理特征包括灰度共生矩阵(gray-1evel co-occurrence matrix,GLCM)、灰度游程长度矩阵(gray-level run-length matrix,GLRLM)、灰度依赖矩阵(gray-level dependence matrix,GLDM)、灰度区域距离矩阵(gray-level distance zone matrix,GLDZM)、灰度区域大小矩阵(gray-level size zone matrix,GLSZM)和邻域灰度差矩阵(neighborhood gray-tone difference matrix,NGTDM)。三个序列共提取290个特征,所提取特征符合影像生物标志物标准化倡议(image biomarker standardization initiative,IBSI)[11],使用Combat去除不同中心特征的批次效应[12]。
3.影像组学特征选择和模型建立:计算ICC后剔除组内和(或)组间ICC<0.8的特征。本研究使用Z-score方法进行特征归一化。在训练组中,采用上采样方法平衡数据,使用Pearson相关系数(Pearson correlation coefficient,PCC)分析进行特征去冗余(保留PCC<0.99的特征),使用ANOVA检验进行特征筛选,然后应用支持向量机(support vector machine,SVM)和随机森林(random forest,RF)两种算法构建机器学习模型,并采用5折交叉验证的方法调整参数,然后在内部测试组和外部测试组中对机器学习模型进行测试。详细实验设计流程如图2所示。根据交叉验证的结果选取曲线下面积(area under curve,AUC)较高的模型用于调整PI-RADS评分。调整过程如下,若机器学习模型诊断为阳性,则PI-RADS升级,即向上加1分,PI-RADS 5分病例分数不变;若机器学习模型诊断为阴性,则PI-RADS降级,即向下减1分,PI-RADS 1分病例分数不变。经过机器学习模型辅助诊断后的PI-RADS称为调整后PI-RADS,将其与高年资放射科医师PI-RADS的诊断效能进行比较。


注:PI-RADS为前列腺影像报告和数据系统;T2WI为T2加权成像;DWI为弥散加权成像;ADC为表观扩散系数
采用Python(https://www.python.org,version 3.8.3)、R语言(https://www.r-project.org,version 4.2.0)和MedCalc(https://www.medcalc.org,version 19.6.4)软件进行统计学分析。年龄为计量资料,符合正态分布,以表示,采用独立样本t检验进行两组间比较;前列腺特异性抗原(prostate specific antigen,PSA)和病灶最大直径为偏态分布,以M(Q1,Q3)表示,采用Mann-Whitney U检验进行两组间比较。病灶位置、PI-RADS、病理结果、包膜是否突破、精囊是否侵犯和淋巴结是否侵犯等定性资料用频数和率描述,采用χ2检验进行两组间比较。使用受试者工作特征(receiver operating characteristic,ROC)曲线分析机器学习模型和PI-RADS的诊断效能,AUC用于量化诊断效能,机器学习模型根据约登指数选取临界值,计算灵敏度、特异度、阳性预测值和阴性预测值。PI-RADS评分≥3分为临界值,计算灵敏度、特异度、阳性预测值和阴性预测值。使用Delong检验比较AUC值,使用McNemar检验比较特异度差异。双侧检验,检验水准α=0.05。
训练组与内部测试组患者年龄、PSA、病变最大直径、病变位置分布、是否精囊侵犯、是否包膜侵犯以及是否淋巴结转移之间的差异均无统计学意义(均P>0.05),纳入患者一般资料详见表2。

1 368例前列腺疾病患者一般资料在各组中的比较
1 368例前列腺疾病患者一般资料在各组中的比较
| 项目 | 训练组 | 内部测试组 | 外部测试组 | t/χ2/Z值 | P值 |
|---|---|---|---|---|---|
| 总数 | 762 | 327 | 279 | ||
| 年龄(岁)a | 69.2±8.5 | 69.1±8.4 | 70.0±6.9 | 0.20 | 0.845 |
| 血清PSA(ng/ml)b | 11.0(7.3,21.0) | 11.6(7.2,22.6) | 12.3(7.5,23.0) | 0.48 | 0.633 |
| <10c | 334(43.8) | 132(40.4) | 109(39.1) | ||
| 10~20c | 230(30.2) | 106(32.4) | 88(31.5) | ||
| >20c | 198(26.0) | 89(27.2) | 82(29.4) | ||
| 病灶最大径(mm)b | 20.2(15.5,28.0) | 21.4(15.8,29.4) | 17.0(12.5,27.3) | 0.92 | 0.360 |
| 病灶位置c | 0.66 | 0.719 | |||
| 外周带 | 279(36.6) | 127(38.8) | 69(24.7) | ||
| 移行带 | 353(46.3) | 143(43.7) | 174(62.4) | ||
| 两者均累及 | 130(17.1) | 57(17.4) | 36(12.9) | ||
| PI-RADSc | 7.11 | 0.130 | |||
| 1~2 | 270(35.4) | 120(36.7) | 165(59.1) | ||
| 3 | 144(18.9) | 57(17.4) | 11(3.9) | ||
| 4 | 144(18.9) | 47(14.4) | 29(10.4) | ||
| 5 | 204(26.8) | 103(31.5) | 74(26.5) | ||
| 病理结果c | 0.001 | >0.990 | |||
| 良性病变 | 384(50.4) | 165(50.5) | 165(59.1) | ||
| ciPCa | 135(17.7) | 58(17.7) | 49(17.6) | ||
| csPCa | 243(31.9) | 104(31.8) | 65(23.3) | ||
| 包膜突破c | 259 | 117 | 7 | 0.05 | 0.829 |
| 阳性 | 90(34.7) | 42(35.9) | 1(14.3) | ||
| 阴性 | 169(65.3) | 75(64.1) | 6(85.7) | ||
| 精囊侵犯c | 259 | 117 | 7 | 0.07 | 0.799 |
| 阳性 | 38(14.7) | 16(13.7) | 0(0) | ||
| 阴性 | 221(85.3) | 101(86.3) | 7(100.0) | ||
| 淋巴结侵犯c | 123 | 62 | 3 | 0.15 | 0.695 |
| 阳性 | 8(6.5) | 5(8.1) | 0(0) | ||
| 阴性 | 115(93.5) | 57(91.9) | 3(100.0) |
注:a;bM(Q1,Q3);c例(%);本研究将中心一和中心二数据按照7∶3比例随机划分为训练组和内部测试组,中心三数据为独立外部测试组;P值为训练组和内部测试组的比较结果;PSA为前列腺特异性抗原;PI-RADS为前列腺影像报告和数据系统;ciPCa为无显著临床意义的前列腺癌;csPCa为临床显著性前列腺癌
在诊断前列腺癌时,内部测试组高年资放射科诊断医师PI-RADS的AUC为0.874(95%CI:0.836~0.913),外部测试组AUC为0.915(95%CI:0.880~0.951)(表3)。在诊断csPCa时,内部测试组医师PI-RADS评分AUC为0.892(95%CI:0.857~0.927),外部测试组AUC为0.884(95%CI:0.841~0.926)(表4)。内部测试组和外部测试组医师PI-RADS评分的ROC曲线如图3所示。

内部测试组和外部测试组中4种方法对前列腺癌的诊断效能
内部测试组和外部测试组中4种方法对前列腺癌的诊断效能
| 项目 | PI-RADS(≥3) | RF | SVM | 调整后PI-RADS |
|---|---|---|---|---|
| 内部测试组(n=327) | ||||
| AUC(95%CI) | 0.874(0.836~0.913) | 0.869(0.830~0.908) | 0.831(0.785~0.877) | 0.888(0.852~0.924) |
| 灵敏度(%) | 90.1 | 77.2 | 87.6 | 85.2 |
| 特异度(%) | 63.0 | 81.9 | 70.5 | 80.0 |
| 阳性预测值(%) | 70.5 | 80.5 | 74.2 | 80.7 |
| 阴性预测值(%) | 86.7 | 78.6 | 85.4 | 84.6 |
| 外部测试组(n=279) | ||||
| AUC(95%CI) | 0.915(0.880~0.951) | 0.845(0.794~0.897) | 0.748(0.687~0.808) | 0.935(0.904~0.966) |
| 灵敏度(%) | 89.5 | 80.7 | 67.5 | 87.7 |
| 特异度(%) | 92.7 | 79.4 | 78.2 | 93.3 |
| 阳性预测值(%) | 89.5 | 73.0 | 68.1 | 90.1 |
| 阴性预测值(%) | 92.7 | 85.6 | 77.7 | 91.6 |
注:AUC为曲线下面积;PI-RADS为前列腺影像报告和数据系统;RF为随机森林;SVM为支持向量机

内部测试组和外部测试组中4种方法对csPCa的诊断效能
内部测试组和外部测试组中4种方法对csPCa的诊断效能
| 项目 | PI-RADS(≥3) | RF | SVM | 调整后PI-RADS |
|---|---|---|---|---|
| 内部测试组(n=327) | ||||
| AUC(95%CI) | 0.892(0.857~0.927) | 0.874(0.834~0.914) | 0.853(0.808~0.899) | 0.902(0.868~0.937) |
| 灵敏度(%) | 97.1 | 83.7 | 80.8 | 94.2 |
| 特异度(%) | 52.5 | 78.0 | 81.2 | 72.6 |
| 阳性预测值(%) | 48.8 | 64.0 | 66.7 | 61.6 |
| 阴性预测值(%) | 97.5 | 91.1 | 90.1 | 96.4 |
| 外部测试组(n=279) | ||||
| AUC(95%CI) | 0.884(0.841~0.926) | 0.876(0.831~0.920) | 0.831(0.772~0.891) | 0.883(0.839~0.927) |
| 灵敏度(%) | 93.8 | 87.7 | 75.4 | 92.3 |
| 特异度(%) | 75.2 | 77.6 | 82.7 | 79.9 |
| 阳性预测值(%) | 53.5 | 54.3 | 57.0 | 58.2 |
| 阴性预测值(%) | 97.6 | 95.4 | 91.7 | 97.2 |
注:csPCa为临床显著性前列腺癌;AUC为曲线下面积;PI-RADS为前列腺影像报告和数据系统;RF为随机森林;SVM为支持向量机


2名放射科医师勾画VOI之间的一致性好(ICC=0.81),选取年资较高医师勾画的VOI所提取的特征进行后续分析。T2WI、DWI和ADC共提取290个特征,剔除组内和(或)组间ICC<0.8的特征后剩余214个特征,其中形状特征12个,T2WI、DWI和ADC序列分别包含73、79和50个特征。使用PCC分析和ANOVA检验进行特征筛选后,最终得到25个特征(具体特征请扫描本文二维码见附表)。
1.在诊断前列腺癌时,内部测试组基于RF算法机器学习模型AUC为0.869(95%CI:0.830~0.908),基于SVM算法机器学习模型的AUC为0.831(95%CI:0.785~0.877);外部测试组基于RF算法机器学习模型AUC为0.845(95%CI:0.794~0.897),基于SVM算法机器学习模型AUC为0.748(95%CI:0.687~0.808)(表3)。基于RF算法机器学习模型的AUC值在内部测试组和外部测试组均高于基于SVM算法机器学习模型,且差异具有统计学意义(均P<0.05)(图3A、3B)。
2. 在诊断csPCa时,内部测试组基于RF算法机器学习模型AUC为0.874(95%CI:0.834~0.914),基于SVM算法机器学习模型AUC为0.853(95%CI:0.808~0.899);外部测试组基于RF算法机器学习模型AUC为0.876(95%CI:0.831~0.920),基于SVM算法机器学习模型AUC为0.831(95%CI:0.772~0.891)(表4)。基于RF算法的机器学习模型的AUC值在内部测试组和外部测试组均高于基于SVM算法的机器学习模型,且差异具有统计学意义(均P<0.05)(图3C、3D)。
根据测试组中不同算法机器学习模型的结果,本研究选取诊断效能最佳的基于RF算法构建的机器学习模型进行后续研究,以下简称为RF机器学习模型。首先将RF机器学习模型与医师PI-RADS的结果进行比较,然后在机器学习模型辅助诊断下得到调整后PI-RADS评分(表3、4)。
1. RF机器学习模型与医师PI-RADS评分比较:(1)诊断前列腺癌时,在内部测试组中,RF机器学习模型AUC与医师PI-RADS评分AUC相近(0.869比0.874),差异无统计学意义(P=0.793)(图3A);在外部测试组中,医师PI-RADS评分AUC高于RF机器学习模型的AUC(0.915比0.845),差异具有统计学意义(P=0.010)(图3B)。(2)诊断csPCa时,在内部测试组中,RF机器学习模型AUC与PI-RADS评分AUC相近(0.874比0.892),差异无统计学意义(P=0.341)(图3C);在外部测试组中,RF机器学习模型AUC与PI-RADS评分AUC也相近(0.876比0.884),差异无统计学意义(P=0.704)(图3D)。
2. 经过RF机器学习辅助调整后PI-RADS评分:(1)诊断前列腺癌时,在内部测试组中,调整后PI-RADS评分AUC稍高于医师PI-RADS评分(0.888比0.874),差异无统计学意义(P=0.175)(图4A),但是与医师PI-RADS评分相比,调整后PI-RADS评分诊断特异度得到明显提升(80.0%比63.0%,P<0.001);在外部测试组中,调整后PI-RADS评分AUC高于医师PI-RADS评分(0.935比0.915),且差异具有统计学意义(P=0.03)(图4B),与此同时,调整后PI-RADS评分特异度稍高于医师PI-RADS评分,但差异无统计学意义(93.3%比92.7%,P>0.99)。(2)诊断csPCa时,在内部测试组中,调整后PI-RADS评分AUC稍高于医师PI-RADS评分(0.902比0.892),差异无统计学意义(P=0.247)(图4C),但是,调整后PI-RADS诊断特异度得到明显提升(72.6%比52.5%,P<0.001);在外部测试组中,调整后PI-RADS评分AUC与医师PI-RADS评分之间差异无统计学意义(0.883比0.884,P=0.919)(图4D),但调整后PI-RADS评分诊断特异度有所提升(79.9%比75.2%,P=0.004)。调整后PI-RADS评分特异度提升意味着更多的患者能够避免有创性的穿刺。


本研究采用患者术前MRI图像构建不同算法机器学习模型用于辅助诊断前列腺癌和csPCa,并分别在内部测试组和独立外部测试组对模型进行验证,然后将机器学习模型的结果与高年资放射科医师PI-RADS的诊断效能进行了比较,最后使用机器学习模型对PI-RADS评分进行调整,探讨机器学习模型辅助医师诊断的潜在价值。结果显示,机器学习模型对诊断前列腺癌和csPCa具有较好的临床价值,可达到高年资放射科医师的诊断水平;经机器学习模型调整后的PI-RADS评分特异度得到了不同程度的提升,有助于避免患者进行不必要的有创性穿刺活检。
目前,关于前列腺癌精准诊断的MRI影像组学的研究大部分采用的是单中心数据,这可能会导致模型的泛化能力较差,临床应用受限。Gong等[13]使用逻辑回归的方法建立了基于bpMRI影像组学模型来鉴别高级别前列腺癌和低级别前列腺癌,结果显示影像组学可以术前无创识别高级别前列腺癌,有助于前列腺癌的个性化诊断。Ogbonnaya等[14]探讨了GLCM纹理特征与前列腺癌病理分级的相关性,结果表明定量GLCM纹理特征有助于预测csPCa。Qi等[15]使用RF算法构建影像组学模型用于PSA灰区(4~10 ng/ml)前列腺癌的诊断,并使用多元逻辑回归建立了影像组学、年龄、PSA密度和PI-RADS的混合模型,结果显示混合模型可以为PSA灰区患者提供更为准确的诊断工具,有助于减少不必要的穿刺活检。Lay等[16]应用基于RF的计算机辅助诊断(computer-aided diagnosis,CAD)方法检测前列腺癌,AUC达到了0.93,高于先前使用基于SVM的CAD方法(AUC=0.86)。与以上研究相比,本研究具有以下优势:第一,本研究采用了多中心数据构建和测试模型,验证了基于影像组学的机器学习模型的泛用性和可靠性;第二,本研究3个中心的图像来自不同的扫描机器,在处理特征时使用Combat方法矫正批次效应,提高了模型可靠性和诊断效能;第三,本研究进一步将机器学习模型应用到临床实践中,结果发现经过机器学习模型辅助诊断后,调整后的PI-RADS在具有较高灵敏度的同时,特异度得到了不同程度的提升,尤其是诊断csPCa过程中,这意味着机器学习模型能使更多患者避免不必要的有创性穿刺检查。因此,机器学习模型有望成为辅助医师诊断的潜在手段,为临床医师诊疗方案的制定提供可靠依据。
然而,本研究仍具有一定的局限性:(1)本研究将部分患者穿刺病理作为金标准,可能与手术病理存在偏差;(2)为回顾性研究,该模型的临床价值需要在未来的前瞻性、多中心研究中进一步验证;(3)本研究PI-RADS评分来自前列腺MRI诊断经验丰富的高年资医师评分,未研究机器学习模型对不同年资医师(尤其是低年资医师)的辅助诊断价值。
综上所述,基于bpMRI影像的机器学习模型对前列腺癌和csPCa辅助诊断具有潜在临床应用价值,机器学习模型诊断效能可达到高年资放射科医师诊断水平,并具有良好的泛化性;而且在机器学习模型辅助下,调整后医师PI-RADS评分特异度有不同程度的提升,意味着可以让更多的患者避免不必要的有创性活检。
乔晓梦, 胡尘翰, 胡粟, 等. 基于双参数MRI机器学习模型对前列腺癌和临床显著性前列腺癌的诊断价值[J]. 中华医学杂志, 2023, 103(19): 1446-1454. DOI: 10.3760/cma.j.cn112137-20221018-02174.
本研究构建模型所用软件由本文作者宋阳及其团队开发,宋阳在本研究中负责指导软件使用和模型构建,本研究其他所有作者均声明不存在利益冲突





















