临床研究
肝癌人工智能临床决策支持系统研究
中华医学杂志, 2020,100(48) : 3870-3873. DOI: 10.3760/cma.j.cn112137-20200905-02571
摘要
目的

将人工智能技术应用于原发性肝细胞癌患者的临床真实世界数据研究,探索肝癌精准治疗,建立肝癌人工智能临床决策支持系统。

方法

将2004年7月至2016年6月间华西医院收治且有完整随访记录的5 642例原发性肝癌患者纳入研究。采用多分类器融合模型计算治疗方案推荐系数,并分析受试者工作特征曲线;采用DeepSurv算法实现生存风险和复发风险的预测,并进一步对比低风险组、中风险组和高风险组间的Kaplan-Meier生存曲线;利用Siamese-Net算法得到相似病例结果。

结果

治疗方案推荐系数的Top-1准确率和Top-2准确率分别为82.36%和94.13%;在华西医院内部使用验证过程中,与多学科会诊治疗方案的匹配准确率达95.10%。生存风险模型得到的C-index值为0.735(95%CI:0.70~0.77),各风险组的Kaplan-Meier曲线经log-rank检验,各组间差异有统计学意义(P<0.001)。复发风险模型得到的C-index值为0.705(95%CI:0.68~0.73),各风险组的Kaplan-Meier曲线经log-rank检验,各组间差异有统计学意义(P<0.001)。

结论

肝癌人工智能临床决策支持系统能较为准确地进行原发性肝细胞癌治疗方案推荐和治疗预后预测。

引用本文: 杨俭, 郭飞, 吕涛, 等.  肝癌人工智能临床决策支持系统研究 [J] . 中华医学杂志, 2020, 100(48) : 3870-3873. DOI: 10.3760/cma.j.cn112137-20200905-02571.
参考文献导出:   Endnote    NoteExpress    RefWorks    NoteFirst    医学文献王
扫  描  看  全  文

正文
作者信息
基金 0  关键词  0
English Abstract
评论
阅读 0  评论  0
相关资源
引用 | 论文 | 视频

版权归中华医学会所有。

未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。

我国原发性肝细胞癌(HCC)患者人数众多,且广泛存在过度治疗、医疗资源分配不均等现实问题,给国民人身健康和社会医疗资源带来了严峻挑战。临床决策支持系统[1](CDSS)是一种利用人机交互方式改善和提高临床决策质量和效率的系统,可提供高质量、规范化、个性化的医疗决策辅助功能,从而提高医院的疾病治疗水平、缓解医疗资源的失衡问题。为此本研究对HCC患者的临床真实世界大数据进行了研究,利用人工智能(AI)技术[2]建立了一套HCC CDSS方案,有治疗方案推荐、治疗预后预测和相似病例发现等功能,希望能在我国县级以上医院得到推广,提高我国HCC的整体治疗水平。

对象与方法
一、研究对象

1.本研究共筛选了2004年7月至2016年6月间四川大学华西医院收治且有完整随访记录的5 642例HCC患者数据,涵盖患者基本诊前数据(包括年龄、性别、体重、疾病史等)、常规实验室检查指标(包括血常规、肝肾功能、凝血功能等)、肝病检查指标[包括乙型肝炎5项、丙型肝炎、甲胎蛋白(AFP)、癌胚抗原(CEA)等]、影像学数据(包括肿瘤大小、位置等)、多学科会诊(MDT)个性化治疗方案以及随访数据等共计97项指标。

2.在所用数据中,男性患者4 773例,年龄为1~87(52.9±12.8)岁;女性患者869例,年龄为1~84(53.0±12.9)岁。按照中国分期标准[3],Ⅰa期患者1 728例(30.6%),Ⅱa期患者1 572例(27.9%),Ⅰb期患者1 316例(23.3%),Ⅱb期患者535例(9.5%),Ⅲa期患者267例(4.7%),Ⅲb期患者135例(2.4%)和Ⅳ期患者89例(1.6%),其中具有乙型肝炎背景的患者5 023例(89.0%)。按照MDT治疗方案,患者中接受手术切除者1 763例(31.3%),采用射频消融者1446例(25.6%),采用介入治疗者2 164例(38.4%),采用肝移植治疗者269例(4.8%)。

二、研究方法
1.数据预处理:

分别采用预测均值匹配、逻辑回归和贝叶斯多元回归对原始数据中的数值型变量、二元分类变量和多元分类变量进行缺失值处理[4]。处理完毕后将各变量归一化到0~1区间。

2.治疗方案推荐:

将患者治疗方案的推荐转换为多分类问题。以患者术前数据为特征输入,MDT治疗方案为输出,分别采用逻辑回归、支持向量机[5]和Xgboost算法[6]为子学习器进行分类模型训练,使用贝叶斯搜索算法[7]进行模型参数的筛选优化。在得到上述各最优子学习器后,采用加权平均概率融合的方式得到最终各方案的推荐系数,系数越高表示方案越优先。

3.治疗预后预测:

采用DeepSurv算法[8]进行患者复发和生存风险函数的估计,其将Cox回归模型[9]中的偏似然函数定义为如下形式:

点击查看大图
点击查看大图

其中ij为患者编号,xi为患者特征输入,E=1表示目标事件发生(如复发、死亡),DN为深度神经网络,其参数为θ,损失函数定义为:

点击查看大图
点击查看大图

采用3层全连接网络,各层采用SELU激活函数[10],优化器选用Adams[11],使用贝叶斯搜索算法进行模型参数的筛选优化。

4.相似病例发现:

通过计算患者样本对的相似度实现相似病例的发现。采用伪标签学习技术[12],在有标签数据上分别采用逻辑回归、支持向量机和XGBoost算法组成的混合分类器进行训练,将置信度高的无标签样本重新加入训练数据进行迭代训练,从而实现训练数据量的扩充。在增强后的训练数据基础上,利用Siamese-Net[13]训练患者特征编码器,编码器采用3层全连接网络,激活函数为SELU,损失函数为交叉熵损失。

结果
1.治疗方案推荐:

按照6∶2∶2的比例将全部数据按照治疗方案进行分层采样,划分为训练样本(3 386例)、验证样本(1 128例)和测试样本(1 128例),分别用于模型的训练、模型超参数的优化和模型效果的验证。

分别采用Top-1准确率(推荐系数最高的方案与实际方案相符的比例)和Top-2准确率(推荐系数排名前二的方案与实际方案相符的比例)对治疗方案推荐模型的效果进行评估,分别为82.36%和94.13%。模型整体的ROC曲线如下(图1)。

点击查看大图
图1
原发性肝癌患者治疗方案推荐的受试者工作特征(ROC)曲线(AUC为ROC曲线下面积)
点击查看大图
图1
原发性肝癌患者治疗方案推荐的受试者工作特征(ROC)曲线(AUC为ROC曲线下面积)

模型还可以给出数据特征的重要性程度,经分析对治疗方案选择有重要影响的特征包括:最大肿瘤尺寸、肿瘤总尺寸、治疗历史、淋巴侵犯情况、肿瘤个数、胆红素、天冬氨酸转氨酶和血红蛋白等。

2.治疗预后预测:

按照7∶3的比例将数据按照右删失情况分层采样划分为训练集(3 950例)和验证集(1 692例),分别用于模型的训练和超参数的优化。得到最优模型后,通过在整个数据集上计算C-index值验证预后风险模型的效果。

生存风险模型的C-index值为0.735(95%CI:0.70~0.77),复发风险模型的C-index值为0.705(95%CI:0.68~0.73)。

基于计算得到的风险系数值,分别将生存风险预测数据和复发风险预测数据各自分为低风险组、中风险组和高风险组,分别得到生存和复发的Kaplan-Meier曲线(图2图3,时间截断到5年)。将各分组中的曲线两两进行log-rank检验,P均<0.001。

点击查看大图
图2
原发性肝癌患者生存风险预测Kaplan-Meier曲线
点击查看大图
图2
原发性肝癌患者生存风险预测Kaplan-Meier曲线
点击查看大图
图3
原发性肝癌患者复发风险预测Kaplan-Meier曲线
点击查看大图
图3
原发性肝癌患者复发风险预测Kaplan-Meier曲线
3.相似病例发现:

将患者数据输入到训练完的患者特征编码器即可得到同一低维空间内的患者向量,通过将各患者向量间的夹角余弦相似度Sim(xixj)=‖xi - xj2进行排序就可得到与其最接近的若干患者,将其降维到三维空间后的最终结果见下图4

点击查看大图
图4
原发性肝癌患者相似病例的三维结果图
点击查看大图
图4
原发性肝癌患者相似病例的三维结果图
讨论

"医疗+AI"是当前科技发展的趋势,也是实现普惠医疗的重要途径[14],辅助医生更便捷、合理和科学地开展临床诊疗研究。成熟的"医疗+AI"研究、产品和服务应该要具备三个要素:一是瞄准世界科技前沿;二是解决临床痛点;三是符合临床刚需。

我国每年新增HCC患者约40万例,大量的HCC临床和随访数据为AI模型的学习、迭代和优化提供了坚实的数据支撑。本研究利用AI技术对华西医院进行数据挖掘和智能分析,提供了如下问题的解决方案:(1)如何选择合适的治疗方案?区别于传统医学中严重依赖于经验的临床思路,AI致力于挖掘出沉淀在医疗数据中的科学价值,通过丰富多样的模型和算法学习发现隐藏在数据中的循证医学逻辑,可为患者提供个性化的治疗决策。此外,还可以将临床指南、专家经验和数据模型进行融合,提供多维度的治疗方案决策,实现规范化治疗和个性化治疗间的平衡。(2)如何预估治疗后的效果?患者的预后评估涉及疾病状态、治疗历史、治疗方案的选择和实施以及治疗后的调理等诸多因素,难以借助传统医学统计学方案进行分析。借助诸如神经网络这一类具有强非线性特点的AI模型,能够有效从这些因素中捕获有效潜在关系,建立各治疗方案下的生存和复发预测模型,从而实现对预后效果的评估。(3)如何发现类似的患者?发现与当前患者类似的既往患者,无论对临床治疗选择还是患者的心理建设都大有裨益。单纯的依靠HCC分期等指标进行相似病者判断是片面的,而利用神经网络技术可以将患者高维度数据进行低维空间编码,在捕捉更多患者信息的同时实现相似性的快速计算和搜索。

本HCC CDSS在华西医院内部使用验证过程中,与MDT治疗方案的匹配准确率达到95.10%,并已在四川、重庆和广州的多家医院开展相关应用研究。目前看来,本研究具有显著的临床价值和现实意义:(1)有利于优化肝癌临床治疗决策。可为医生和患者提供精准、个性化的治疗意见。(2)有利于促进医患间的临床沟通。本CDSS为患者提供了大量有价值的治疗信息,增加患者自身对疾病的了解,在一定程度上可提升医患双方的信任水平。(3)有利于医疗经验的传播,缩小不同地域、层级医院间的差距。

以CDSS为代表的"医疗+AI"技术的发展来源于临床数据,也将反哺于临床需求。随着临床数据的不断积累、"医疗+AI"理念和技术的愈加成熟,本HCC CDSS也将不断迭代优化,为HCC的临床治疗提供更丰富、更高质量的辅助功能。

利益冲突
利益冲突

颐保医疗科技(上海)有限公司提供AI技术支持及数据分析

参考文献
[1]
李健斌,江泽飞.中国临床肿瘤学会人工智能决策系统的建立与应用[J].中华医学杂志2020,100(6):411-415. DOI: 10.3760/cma.j.issn.0376-2491.2020.06.003.
[2]
刘荣.智能医学的概念与应用[J].中华医学杂志, 2018, 98(34):2697-2699. DOI:10.3760/cma.j.issn.0376-2491.2018.34.001.
[3]
《原发性肝癌诊疗规范(年版)》编写专家委员会.原发性肝癌诊疗规范(2019版)[J].中国临床医学2020,27(1): 277-292. DOI:10.12025/j.issn.1008-6358.2020.20200065.
[4]
BuurenSV, Groothuis-OudshoornK. MICE: multivariate imputation by chained equations in R[J]. J Statistical Software,2011,45(3):1-67. DOI:10.1198/jcgs.2011.10107.
[5]
BartlettP, Shawe-TaylorJ. Generalization performance of support vector machine and other pattern classifiers[M]. MIT Press, 1998. DOI:http://discovery.ucl.ac.uk/79243/.
[6]
ChenTQ, GuestrinCarlos. XGBoost: a scalable tree boosting system[C]. Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2016:785-794.DOI:10.1145/2939672.2939785.
[7]
BergstraJ, YaminsD, CoxD. Making a science of model search: hyperparameter optimization in hundreds of dimensions for vision architectures[C]. Proceedings of 30th International Conference on Machine Learning, 2013, 28(1):115-123. DOI: 10.5555/3042817.3042832.
[8]
KatzmanJL, ShahamU, CloningerA, et al. DeepSurv: personalized treatment recommender system using a Cox proportional hazards deep neural network[J]. BMC Med Res Methodol, 2018, 18(1):24. DOI: 10.1186/s12874-018-0482-1.
[9]
Cox DavidR. Regression models and life-tables[J]. J Royal Statistical Society, 1992, 34(2): 187-220. DOI: 10.1007/978-1-4612-4380-9_37.
[10]
Klambauer, Günter, UnterthinerT, et al. Self-normalizing neural networks[J]. Advances in Neural Information Processing Systems, 2017: 971-980.
[11]
KingmaD, BaJ. Adam: a method for stochastic optimization[C]. The International Conference on Learning Representations, 2015.
[12]
LeeDH. Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks[C]. Workshop on Challenges in Representation Learning,2013,3:2.
[13]
BromleyJ, GuyonI, LeCunY, et al. Signature verification using a siamese time delay neural network[J]. Advances in Pattern Recognition Systems Using Neural Network Technologies. 199425-44. DOI:10.1142/9789812797926_0003.
[14]
陈新华,蒋建文,周华,. COVID-19疫情背景下的医院人工智能快速布局和发展战略探讨[J].中国工程科学, 2020, 22(2):130-137. DOI: 10.15302/J-SSCAE-2020.02.021.
 
 
展开/关闭提纲
查看图表详情
回到顶部
放大字体
缩小字体
标签
关键词