专家论坛
推进联邦学习技术在医学影像人工智能中的应用
中华医学杂志, 2022,102(5) : 318-320. DOI: 10.3760/cma.j.cn112137-20210619-01389
摘要

医学影像的人工智能系统在辅助疾病诊疗方面已展现出巨大潜力,但医学影像数据孤岛、数据隐私安全及数据行业标准不统一等问题严重阻碍了人工智能赋能疾病诊疗。通过结合联邦学习和FAIR科学数据管理准则,可从技术上缓解上述问题对构建医学影像人工智能系统的影响,进而发挥多中心数据的最大价值,开发出更加高效、准确的疾病诊疗系统,指导基于医学影像的人工智能技术在疾病诊疗领域落地。

引用本文: 刘再毅, 石镇维, 梁长虹. 推进联邦学习技术在医学影像人工智能中的应用 [J] . 中华医学杂志, 2022, 102(5) : 318-320. DOI: 10.3760/cma.j.cn112137-20210619-01389.
参考文献导出:   Endnote    NoteExpress    RefWorks    NoteFirst    医学文献王
扫  描  看  全  文

正文
作者信息
基金 0  关键词  0
English Abstract
评论
阅读 0  评论  0
相关资源
引用 | 论文 | 视频

版权归中华医学会所有。

未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。

由于过去十余年数据量、算法和高性能计算设备的巨大进步,人工智能(artificial intelligence,AI)展现出了高效化和规模化的社会价值潜力。其中,基于医学影像(如放射影像1, 2和数字病理3, 4)的AI系统在辅助疾病诊疗方面有着巨大的潜在应用价值,已经成为学术界与工业界共同关注的焦点5。医学影像AI系统可在短时间内对大量放射影像与数字病理数据进行汇聚和分析,有望成为医师诊疗时的有力工具;对疾病早发现、早诊断、早治疗提供解决方案,实现AI赋能疾病诊疗。

然而,AI技术在疾病诊疗方面落地仍然面临着诸多挑战。首先,医学影像数据具有长尾效应,除了有限的高发病种外,更多的疾病属于小数据;并且分散在不同中心、不同科室的图像储存系统内,因此形成了一个个缺乏有效互通的“数据孤岛”6。其次,随着法律法规的逐步完善以及公众对数据隐私保护的意识不断增强,将散落在各个“孤岛”的数据汇聚到一处形成中心化大数据也难以实现7。最后,医学影像数据缺乏行业统一标准(如数字病理图像);无论是数据格式还是扫描方式,各家企业采用的数据采集标准多样、系统偏差较大,导致多中心影像数据融合困难8

数据孤岛问题来自于AI技术本身。AI技术,尤其是深度学习,不仅依赖模型和算法,更依赖用于模型训练、验证及优化所需的大量数据(包括数据量和样本多样性)。单一中心的训练数据,无法满足AI技术的需求。理想状态是联合多中心的数据训练AI模型,但实际情况是多中心数据以孤岛形式存在,数据共享存在壁垒、数据互通困难;即便在一个中心内部,不同科室、部门之间也存在数据互通壁垒。上述情况严重影响AI在疾病诊疗方面的临床开发与应用。

在全球范围内,对数据隐私保护的日益重视使数据安全问题愈发突出,进而加剧了数据孤岛现象的产生。例如欧洲的《通用数据保护条例》(General Data Protection Regulation,GDPR)对个人医疗健康相关数据的存储和交换制定了严格的规定,即在使用前需要认证、授权、清晰责任与义务,以便对数据所有权和AI产品进行监管9, 10。虽然有明确的法律法规,但在实际操作中医学影像数据滥用的现象屡见不鲜,数据隐私安全问题仍然是医学影像AI技术在疾病诊疗方面落地的难题。

目前缺乏具有行业共识的医学影像数据标准。医学影像数据标准问题来自于行业本身和AI的需求。在AI模型训练阶段,训练数据的获取是一大难题。首先,现在普遍缺乏高质量的医学影像训练数据。现有数据集标准多样、系统偏差较大、缺乏对疾病的统一认识(如对于肿瘤在医学影像的征象)。其次,缺乏对数据和标注数据统一且清晰的描述,导致AI算法与数据之间产生交互障碍,机器错误理解数据的真实含义。最后,数据标注的标准化程度不高。目前大部分数据标注仍然使用手动或半自动的方法,需要大量人工介入,不仅耗费人力资源,而且不可避免地引入人为误差,导致基于医学影像构建的AI模型性能不稳定。

上述原因造成了基于多中心数据构建AI模型难以开展的局面,严重阻碍了医学影像AI赋能疾病诊疗。因此,如何从技术上解决医学影像领域数据孤岛、数据隐私安全及数据行业标准不统一的问题,进而开发出更加高效、准确的AI疾病诊疗系统是当下亟需突破的难关。

2017年谷歌提出了新一代联邦学习(federated learning)11的概念,随之联邦学习被应用到众多领域,其目标就是解决数据孤岛和数据隐私保护之间的矛盾;通过建立数据联邦,在保证数据隐私安全、合法合规的前提下,在多中心或多计算节点之间开展高效的机器学习。简单来说,联邦学习可实现基于多中心数据共同建模,且保护数据隐私安全,推动AI技术的持续发展。

联邦学习主要组成部分包括本地数据库、本地计算机、中心服务器等(图1);其中中心服务器可设置在云端,独立于参与联邦学习的各中心,也可设置在参与联邦学习的本地中心。由于各中心与服务器之间共享的信息仅是模型的参数,因此无论是以上哪种方式都不涉及各中心之间患者隐私数据的交换。

点击查看大图
图1
联邦学习框架示意图
点击查看大图
图1
联邦学习框架示意图

因数据与特征维度不同,联邦学习可分为横向学习、纵向学习和迁移学习12。横向联邦学习适用于参与中心的数据特征重合度高,而样本重合较少的情况;纵向联邦学习适用于相同ID的数据特征分布在不同机构中、数据特征之间存在价值互补的情况;迁移学习适用于参与中心之间样本空间有部分重合,特征空间有较少或无重合的情况。在医学领域,联邦学习已经被广泛地研究,例如肺癌生存分析13, 14、新型冠状病毒肺炎(COVID-19)胸部CT区域分割15等。需要注意的是,联邦学习可以应用的机器学习算法不仅有神经网络,还包含逻辑回归、支持向量机、随机森林等。

尽管如此,联邦学习依然面临着诸多挑战。其中,数据标准不统一会导致多中心联邦学习难以开展。主要问题集中在医学影像数据采集方式标准多样、系统偏差较大;缺乏对疾病在医学影像上征象的统一认识,以及准确、客观、标准化的描述;并且标注数据规范与标准不统一。因此,亟需一种可解决训练数据及标注缺乏标准化问题的方法。

基于FAIR科学数据管理准则的标准化医学数据为联邦学习提供数据保障。FAIR科学数据管理准则强调对数据应可查询(Findable)、可访问(Accessible)、可交互(Interoperable)、可再用(Reusable)16。FAIR数据准则详细描述了如何通过科学的方法进行数据管理。通过对医学影像数据的采集、处理、使用以及管理等方面进行标准化描述及溯源,可为基于医学影像构建的AI疾病诊疗系统提供标准化数据保障11。FAIR准则的重要核心目标之一是实现机器对数据的可操作性(machine-actionable),即机器(计算机)在无人为干预的情况下,可对相应数据进行操作。为了最终实现这一目标,应充分提供机器可以理解并自动操作的元数据对原始数据进行描述17。FAIR科学数据管理准则有望辅助AI技术解决医学影像缺乏数据标准的问题,落地疾病诊疗领域。

总的来说,基于医学影像构建的AI系统已在疾病诊疗方面展现出了巨大的潜能。然而,面对诸多挑战,如数据孤岛、数据隐私安全、数据行业标准不统一等问题,医学影像数据无法建立广泛连接、形成合力,难以发挥数据最大价值,严重阻碍了AI赋能疾病诊疗。因此,有必要引入联邦学习技术,使得在多中心之间无隐私数据交换的前提下共同构建AI模型成为可能,进而打破数据孤岛;同时,还要根据FAIR数据准则构建标准化医学影像数据库18,对医学影像数据的采集、处理、使用以及管理等方面进行标准化描述,为医学影像AI技术落地提供标准化数据保障,可辅助AI技术落地疾病诊疗领域。相信通过整合联邦学习技术与FAIR数据准则理论构建高效的、泛化性强的疾病诊疗AI系统,有望实现疾病精准诊疗评估,减轻医生临床负担,为患者提供更优质且低价的治疗服务,并增加医院经济效益的目的。

利益冲突
利益冲突

所有作者均声明不存在利益冲突

参考文献
[1]
HosnyA, ParmarC, QuackenbushJ, et al. Artificial intelligence in radiology[J]. Nat Rev Cancer, 2018, 18(8):500-510. DOI: 10.1038/s41568-018-0016-5.
[2]
BiWL, HosnyA, SchabathMB, et al. Artificial intelligence in cancer imaging: clinical challenges and applications[J]. CA Cancer J Clin, 2019, 69(2):127-157. DOI: 10.3322/caac.21552.
[3]
NiaziMKK, ParwaniAV, GurcanMN. Digital pathology and artificial intelligence[J]. The lancet oncology, 2019, 20(5): E253-E261. DOI: 10.1016/S1470-2045(19)30154-8.
[4]
BeraK, SchalperKA, RimmDL, et al. Artificial intelligence in digital pathology-new tools for diagnosis and precision oncology[J]. Nat Rev Clin Oncol, 2019, 16(11):703-715. DOI: 10.1038/s41571-019-0252-y.
[5]
倪炯, 王培军. 医学影像人工智能的现状与未来[J]. 中华医学杂志, 2021, 101(7):455-457. DOI: 10.3760/cma.j.cn112137-20201213-03351.
[6]
ZhouSK, GreenspanH, DavatzikosC, et al. A review of deep learning in medical imaging: imaging traits, technology trends, case studies with progress highlights, and future promises[j]. proceedings of the IEEE, 2021, 109(5):820-838. DOI: 10.1109/JPROC.2021.3054390.
[7]
KaissisGA, MakowskiMR, RückertD, et al. Secure, privacy-preserving and federated machine learning in medical imaging[J]. Nature Machine Intelligence, 2020, 2:305-311. DOI: 10.1038/s42256-020-0186-1.
[8]
刘士远. 医学影像人工智能发展趋势与挑战[J]. 中华放射学杂志, 2021, 55(7):700-702. DOI: 10.3760/cma.j.cn112149-20201011-01142.
[9]
McCallB. What does the GDPR mean for the medical community?[J]. Lancet, 2018, 391(10127):1249-1250. DOI: 10.1016/S0140-6736(18)30739-6.
[10]
van VeenEB. Observational health research in Europe: understanding the General Data Protection Regulation and underlying debate[J]. Eur J Cancer, 2018, 104:70-80. DOI: 10.1016/j.ejca.2018.09.032.
[11]
Rieke, N, HancoxJ, LiW, et al. The future of digital health with federated learning[J]. NPJ Digit Med, 2020, 3:119. DOI: 10.1038/s41746-020-00323-1.
[12]
YangQ, LiuY, ChenT, et al. Federated machine learning: concept and applications[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2019, 10(2):1-19. DOI: 10.1145/3298981.
[13]
ShiZ, ZhovannikI, TraversoA, et al. Distributed radiomics as a signature validation study using the Personal Health Train infrastructure[J]. Sci Data, 2019, 6(1):218. DOI: 10.1038/s41597-019-0241-0.
[14]
DeistTM, DankersF, OjhaP, et al. Distributed learning on 20 000+lung cancer patients-The Personal Health Train[J]. Radiother Oncol, 2020, 144:189-200. DOI: 10.1016/j.radonc.2019.11.019.
[15]
YangD, XuZ, LiW, et al. Federated semi-supervised learning for COVID region segmentation in chest CT using multi-national data from China, Italy, Japan[J]. Med Image Anal, 2021, 70:101992. DOI: 10.1016/j.media.2021.101992.
[16]
WilkinsonMD, DumontierM, AalbersbergIJ, et al. The FAIR Guiding Principles for scientific data management and stewardship[J]. Sci Data, 2016, 3:160018. DOI: 10.1038/sdata.2016.18.
[17]
VesteghemC, BrøndumRF, SønderkærM, et al. Implementing the FAIR Data Principles in precision oncology: review of supporting initiatives[J]. Brief Bioinform, 2020, 21(3):936-945. DOI: 10.1093/bib/bbz044.
[18]
石镇维, 刘再毅.重视医学影像人工智能数据库的标准化建设[J].协和医学杂志, 2021:1-5
 
 
展开/关闭提纲
查看图表详情
回到顶部
放大字体
缩小字体
标签
关键词