
骨龄能够客观反映人体生长情况,准确评估体格发育水平,骨龄评估在儿童青少年的生长发育、疾病诊断、临床治疗效果监测中发挥重要作用。近年来人工智能技术不断发展,将人工智能技术应用于骨龄评估领域,有望实现骨龄评估自动化,目前骨龄评估的人工智能技术主要基于深度学习(DL)算法进行,虽已有较多关于DL与骨龄评估的研究,但大部分仍处于实验阶段。现就目前应用于骨龄评估的基于DL的人工智能技术的研究与进展进行综述,以期为相关工作人员提供参考及研究思路。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
骨龄即骨骼年龄,是基于骨骼的生长、发育、成熟、衰老的规律来推断个体发育水平的客观指标。骨龄不仅可确定儿童的生物学年龄、尽早了解儿童的生长发育潜力、预测儿童的成年身高及性成熟趋势,而且在诊断某些内分泌遗传性疾病方面也发挥重要作用。人工智能(artificial intelligence,AI)通过制造智能系统和控制器来模拟人类大脑智能思维获得记忆及决策能力[1]。将AI应用于医学领域已成为现代科技的热点。AI有望产生巨大影响的临床实践领域是对各种医学图像进行诊断和预测分析[2],如视网膜照片、皮肤损伤照片、显微病理图像和放射学图像[3,4,5,6]。深度学习(deep learning,DL)是使用多层非线性处理进行特征提取和转换的机器学习算法[1]。特征提取是选择算法有能力预测的目标变量,更有效地将数据转换为构建模型的手段。骨龄评估(bone age assessment,BAA)是通过对骨骼的发育特征进行识别,从而获得对骨骼发育程度的定量评估。通常是通过AI-DL来量化手部骨骼的形状和位置进行评估。目前国内外的有关骨龄与AI相关的研究均是进行区域分割或提取手部轮廓进行构建算法模型,从大量图像构建的预测模型进行快速精确的BAA,而不正确的分割轮廓会严重影响骨龄建模后结果的准确性[7,8]。传统BAA方法中,计数法是最早通过计算骨化中心和骨骺融合的个数来评估骨龄的,方法简单,无需特别训练即可掌握使用,但腕部骨化中心完全成熟的年龄较早,通常10岁后腕部骨化中心均完全出现,其适用年龄范围窄,仅用于学龄前儿童,而且误差大,精确度低;图谱法是指将被检者的手腕部X线片与标准骨龄图谱对照,虽然直观简洁,但存在较大人为误差[9];Tanner-Whitehouse (TW)计分法虽较为准确,但需消耗较大人力,且较费时,不适用于门诊量较大的儿童医院。因此,实现BAA的自动化对于节约人力成本、减少人工评定的主观误差、提高读片准确率、可重复性评估骨龄、统一诊断标准具有较大意义。现对目前应用于BAA的基于AI-DL技术的研究与进展进行阐述,以期为相关工作人员提供参考及研究思路。
2017年,Spampinato等[10]首次使用DL算法进行BAA,该研究将迁移学习与DL相结合,建立了3种在公共数据上进行预训练的卷积神经网络模型及1种在X射线数据集上从头开始训练的卷积神经网络(convolutional neural networks,CNN,称为Bonet)。结果显示,运用了迁移学习的3钟网络模型最优平均绝对误差(mean absolute error,MAE)为0.82岁,但CNN算法结果更优,其MAE仅为0.79岁。现有的BAA方法都在非公共数据集上进行测验,使得这些结果不可重复,不能进行系统性比较,该研究在一个公共X射线数据集上进行测试,数据涵盖所有年龄段、性别、种族,探究了DL算法进行自动化BAA的可行性,并将其源代码公开发布,为自动化BAA提供了适当和全面的基线。
2017年,Lee等[11]同样利用迁移学习的方法,研发了一套包含兴趣区域分离、图片标准化及预处理、自动BAA及一键生成结构化放射学报告的DL-BAA系统。该研究共使用8 325张手部X片,包括女性4 278张,男性4 047张,年龄5~18岁。该系统利用GoogLeNet作为框架进行微调学习,其在测试集图像中的BAA结果显示,女性准确率为57.32%,男性为61.40%。利用女性X线片估计骨龄1岁误差范围内的准确率为90.39%,2岁为98.11%;利用男性X线片估计骨龄1岁误差范围内的准确率为94.18%,2岁为99.00%。女性均方根误差(root mean squared error,RMSE)为0.93岁,男性为0.82岁。作者进一步使用输入遮挡的方法绘制注意力热图,揭示训练模型用于执行BAA的特征,研究该系统对手部骨骼的哪些区域更敏感。结果显示,该系统关注的热点区域与放射科医师评估骨龄时所关注的区域基本一致。该系统虽极大提高了BAA的速度,但该研究训练集中缺乏0~4岁儿童及手部骨骼畸形群体的影像学图像,限制了该系统的适用范围。后期通过不断填充训练集,有望实现该系统应用的全覆盖。
2020年,Reddy等[12]利用2017北美放射学会(RSNA)骨龄挑战赛提供的公开数据集裁剪的食指数据集训练单独的CNN模型[13],以Larson等[14]开发的骨骼年龄模型作为基线性能指标,邀请世界各地的团体来创建算法并分析数据,同时邀请3名儿科放射科医师分别通过整只手和仅用食指的X线照片确定骨龄,并将一致性与地面真实值和CNN模型确定的骨龄进行比较。结果显示,整只手和食指的基本真实值和CNN骨龄间的平均绝对差异相似(4.7个月比5.1个月,P=0.14),且这2个值均显著小于通过单指X线片确定的放射科医师骨龄(8.0个月,P<0.001),由此成功通过仅限于食指的有限数据集确定了骨龄成熟度,提供了新的BAA方式。
2017年,Zhou等[15]使用领域知识定义各种感兴趣区域(regions of interest,ROI)和基于迁移学习的深度卷积神经网络(deep convolutional neural networks,DCNN)进行骨龄分类。该研究使用洛杉矶儿童医院创建的数字手图谱作为数据集,该数据集中包含1 390张0~18岁儿童的左手X线片,首先基于领域知识定义不同的ROI,并为每个ROI使用基于直方图的对比度均衡、旋转、翻转等进行增强处理后生成相应的ROI。然后,使用基于ImageNet预训练的DCNN,利用迁移学习对每个ROI块进行微调,并为每个ROI构建一个分类模型,最后采用模型融合方法得到骨龄分类的最终模型。该研究实现了最低的MAE值为0.72岁。这表明即使影像学样本较小时,DCNN仍可用于图像分析。
2020年,Ari和Petrus[16]提出了一种基于区域的特征连接层(RB-FCL),运用基于区域的卷积神经网络(region-convolutional neural networks,R-CNN)对手部X射线进行自动分割,将手部X线骨骼区域分割为尺桡骨、腕骨、掌指骨、指骨和骨骺5个区域,使用DL模型对手部X射线骨骼各区域特征提取,创建了一个DL模型,生成具有1 024个密集特征的RB-FCL,获取更具代表性的区域模型特征,这些FCL是手部X线分割区域的重要输出,使回归模型能更好地预测骨龄,产生的最小MAE为6.97个月。
2021年,Zulkifley等[17]首次提出了注意异常网络(AXNet),用于自动化BAA,AXNet由图像归一和骨龄回归两部分组成。图像标准化模块首先分割手部区域,然后确定4个关键点(指骨关节、腕骨、桡骨及尺骨),以垂直位置正确旋转手遮蔽图像,将遮蔽图像和旋转图像对准,使归一化图像位于图像正中;随后骨龄回归模块使用标准化的X线图像预测骨龄,将这些图像输入到包含多个注意机制层的AXNet中,最后输出骨龄值。结果显示,AXNet实现了最低MAE(0.65岁)和RMSE(9.07岁)。因此认为,AXNet具有在实际临床中应用的潜力,可辅助临床医师判断评估骨生长异常,其实用性有待研究进一步验证。
2018年,Larson等[14]基于G-P图谱法结合深度空间残差网络结构构建了一个自动化BAA模型,研究通过一个200张图像的训练集比较模型估计值与参考标准骨龄之间的RMSE和MAE,结果显示模型输出的骨龄和专家的骨龄估计值间的平均差异为0岁,RMSE和MAE分别为0.63岁和0.50岁。该模型在Digital Hand Atlas数据集中测试的RMSE为0.73岁,既往模型报告的RMSE为0.61岁。研究者认为,此模型在自动化BAA上具有较高的准确度,但该模型的训练集中2岁以下幼儿的骨龄片较少,且G-P图谱法对该年龄组进行评估准确率并不高,因此不能有效预测2岁以下幼儿骨龄。
基于DL的方法在骨龄预测方面已取得许多成就,但其仍然面临诸多挑战,DL在BAA中侧重于提高预测精度,但在实际场景中,各种原因可能导致X射线图像质量差,影响BAA的准确性。2020年,Han和Wang[18]应用空间深度残差神经网络(Resnet)作为X射线图像分析方法,收集1 229份0~17岁儿童青少年检测图像数据作为测试集,根据G-P图方法重新评估骨龄成熟度(skeletal maturity,SMI),研究结果显示骨龄MAE为0.455,使用Bonet对同一数据集进行比较,得到的MAE明显下降,BAA精确度明显提高[10],与传统机器学习特征提取技术相比,Resnet进一步提高了基于图像的BAA的准确性。
2014年,王亚辉等[21]收集140例11~19岁青少年左侧腕关节X线正位片,通过运用支持向量机(support vector machine,SVM)实现尺、桡骨远端骨骺发育分级的自动化评估,再另选35例11~19岁左侧腕关节尺、桡骨远端骨骺X线片进行准确性检验。将140例青少年及35例独立样本尺、桡骨远端骨骺发育程度分为5个分级,运用留一交叉验证法(leave one out cross validation,LOOCV)及梯度方向直方图(histogram of oriented gradient,HOG)对模型进行验证,得到桡骨远端骨骺分级SVM建模、LOOCV和HOG的准确率分别为100.0%、78.6%和82.8%。尺骨远端骨骺分级SVM建模、LOOCV和HOG的准确度分别为100.0%、80.0%和88.6%,证实运用SVM对骨龄进行自动化评估具有一定可行性。
上述基于SVM的BAA方法由于先通过人工提取左手尺、桡骨远端骨骺特征,并不能算真正实现自动化。直到2018年,胡婷鸿等[22]在新疆维吾尔自治区采集13.0~19.0岁维吾尔族男性青少年245例、女性青少年227例左手腕关节数字X线摄影(DR)图像,验证青少年左手腕关节骨龄研究与DL相结合具有较高的准确性及较好的可行性,为后续自动化BAA体系奠定研究基础。该研究选取AlexNet作为图像回归识别模型,结果表明,其误差范围在±1.0岁时男性样本与女性样本的准确率分别为79.5%、79.4%,但这在BAA准确度上仍有较大差值,在大样本数量采集、DL算法的选择上仍有较大提升空间。
2019年,宋娟等[23]建立了采用多级级联架构的一种基于DL的手部关键点检测网络,该模型首先智能定位目标骨,提取手部关键点的骨骼特征进行特征提取,对骨化中心自动评级,得出13块骨骺ROI区域的中心位置,再通过骨骺关键点的连线长度得到手掌大小,进而得出合适的13块骨骺ROI区域大小,形成独特的骨骺等级评价的ROI区域。通过基于DL的回归网络进行骨龄智能评估模型训练,并自动优化定位骨骺分级特征的判别性区域预测各个骨骺的等级。在±1.0、±0.7及±0.5岁内,准确率分别为94.1%、89.1%、74.3%。但该研究样本采集量少,年龄主要集中在7~10岁,其他年龄段数据较少,不适于应用到我国多地区、多民族的复杂环境中。
2020年,彭丽琴等[24]对3种DL模型基于骨盆X线片图像进行自动BAA的性能进行比较研究。该研究运用迁移学习的方法对DL模型进行训练,3种网络模型的预测年龄与生活年龄平均差值的绝对值分别为VGG19:0.16岁、Inception-V3:0.26岁、Inception-ResNet-V2:0.08岁。2021年,冯筱妍等[25]研发了一种基于锥形线束CT数据的智能颈椎BAA系统,研究收集60份(男21例,女39例)同期头颅侧位体层片及锥形线束CT影像资料,结果显示49例自动化BAA与人工颈椎骨龄判断一致,11例不一致,且差异不超过1期。上述研究分别在骨盆及颈椎BAA上进行探索,自动化程度高,具有临床应用价值,可用于快速BAA;对于整体骨成熟度的评估需获取更全面的骨龄资料,如手腕片提供的手腕骨龄,甚至整体体格状态(如身高、体重等)的纵向数据。
Zhou等[26]建立了第一个基于CNN的优化TW3-AI-BAA模型,研究显示TW3-AI模型的性能与人工阅片结果高度一致,均方根(root mean square,RMS)为0.50年。TW3-AI模型的BAA精度较人工阅片高,其图像处理时间为(1.5±0.2) s,明显短于人工阅片时间[(525.6±55.5) s]。研究认为,基于CNN的TW3-AI模型能以更高的准确度及稳定性进行BAA,将该模型应用于临床中,有望减少影像学医师的工作量,并提高对儿童内分泌疾病的早期诊断和治疗水平。2021年,孙梦莎等[27]对自动化BAA模型研究进行了探索,在其中加入骨龄发育预测模块,骨龄影像智能检测系统依据临床常用指标(身高、体重,父母身高等),对患儿生长趋势和临床疗效进行全方位监测评估。
儿科BAA是调查儿童内分泌、遗传和生长障碍的常见临床实践。施莉丽等[28]基于DL的AI-BAA将两套不同骨龄AI检测系统(CHBoneAI 1.0/2.0)在临床进行近3年实践,初步在临床实现AL-BAA。实践过程中发现图像曝光不足、手部X线摄片位置不正、手腕骨骼塑性异常等都将会影响AI的BAA,这些不足之处将在后续的Ⅱ期实验中改善,以期CHBoneAI模型全面智能化替代运行。
AI技术在读片时由于消除了主观误差,其准确率取决于系统本身所包含数据库与国内儿童骨骼发育情况的一致性程度[20],其阅片精准度已接近人工阅片的评估结果,甚至高于人工,这表明AI技术在实现BAA的自动化方面仍有较大潜能可挖掘。
在BAA中,通常使用手腕部作为参考依据[29],手腕部有腕骨、掌骨、尺桡骨等不同类型的骨化中心,易于拍摄,且所需照射剂量小。也有研究探索了基于颈椎CT、骨盆X线的自动化BAA,但样本量较小[24,25];是否可将BAA应用于其他骨关节处,从而用于判断及评估骨骼的生长发育情况仍有待进一步研究论证。
骨龄异常通常是某些内分泌疾病的表现,如肾上腺皮质增生症、肿瘤、性早熟、甲状腺功能亢进等可导致骨龄提前,卵巢发育不全、软骨发育不全、垂体性侏儒等导致骨龄明显落后。进入青春期后,骨龄受更多因素影响,如性激素水平等,这些因素是否会对BAA的准确度产生影响,将这些影响因素添加到AI技术的算法模型中,是否能够提高BAA精确度。近年来,儿童性早熟的发病率呈上升趋势,总发病率为1/5 000~1/10 000[30]。在性早熟患儿群体中,有较大一部分使用性激素抑制剂来抑制骨龄的增长速度,准确定位促性腺激素释放激素类似物治疗的获益人群,有助于促性腺激素释放激素类似物临床应用指征等方面逐渐精准化、个体化[31],那么能否通过AI技术来检测对抑制剂更敏感的骨骼,从而作为抑制剂疗效评估的参考标准。
AI有一定数据依赖性,数据量越大,AI-BAA越接近人工骨龄读数,不同AI模型存在不同差异[32],骨龄判读系统应根据生活地域、种族、时代的不同[33],进行具有针对性的模型训练。这一任务要求建立骨龄大数据平台,并阶段性地更新。随着AI技术的发展,后期还有望应用到其他影像学图片的自动评估中。
所有作者均声明不存在利益冲突





















