
疾病风险预测模型是精准预防的基础,也是临床诊疗决策的重要参考依据。风险预测模型的开发需要大量高质量数据的支持,大型人群队列研究是其重要的基础。英国生物银行(UKB)作为大型人群队列和生物样本库,其丰富的基线和随访数据以及向全球共享的理念和机制,在疾病病因探索和疾病防控相关研究领域有重要的作用。本研究遵循PRISMA规范,纳入了210篇文献,其通讯作者来自18个国家,其中有58篇(27.62%)来自英国。提取针对癌症、心脑血管疾病、内分泌营养代谢疾病、呼吸系统疾病、其他疾病及其亚组人群的491个疾病风险预测模型,其中UKB开发-无验证132个、UKB开发-内部验证183个、UKB开发-外部验证17个、外部开发-UKB验证159个。仅采用宏观变量的模型共188个(38.29%),宏观与微观变量相结合的模型共303个(61.71%)。模型构建方法包括生存结局模型、logistic回归、机器学习,生存结局模型中以Cox比例风险回归模型为主,少量模型考虑了竞争风险、加速失效模型或不同的基线风险函数。机器学习模型采用了随机森林、极限梯度提升法、分类提升算法、支持向量机和卷积神经网络等方法。UKB为多种疾病风险预测模型研究提供了重要资源。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
随着医学技术的不断进步,人们愈发关注个体化的健康管理和疾病预防。疾病风险预测模型,通过利用个体的数据和统计学、机器学习等方法和技术,对个体未来的患病风险进行准确评估,从而指导精准预防、健康管理、治疗方案决策。过去的30年中,除了最初的心血管疾病外,癌症、高血压、糖尿病等多个疾病领域也都开始了疾病风险预测模型的探索[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]。从个体角度,预测模型可以让个体更客观地了解自己的发病风险和风险等级,并可评价针对可干预变量进行干预的效果。从人群角度,预测模型有助于从各类人群中识别出高风险人群以供展开一级/二级/三级预防,使有限的卫生资源得以更合理化应用。因此,开发高质量疾病风险预测模型,对于提升人群健康水平和生活质量具有重要意义。
疾病风险预测模型的开发,通常从识别疾病因子开始,通常需要充分的人群数据支持。1961年,弗明翰心脏病研究(FHS)首次提出冠心病危险因素的概念,此后逐步完善,形成冠心病风险评分,包含年龄、TC、体重、心电图异常、血红蛋白、吸烟、SBP共7个变量[11]。1998年,Wilson等[12]报道了针对冠心病的Framingham危险评分,该评分系统建立了基于10年风险评估的3个风险分层,使用危险分层代替连续变量,有助于医生对患者进行危险评估,该评分系统采用的10年风险评估为未来患冠心病低危、中危、高危人群分类提供了方便的方法。该模型后来被美国国家胆固醇教育计划成年人治疗小组指南所采用,被认为是预测个体未来冠心病事件风险及预防管理决策的基础[13]。
英国生物银行(UKB)自2006年起致力于采集大规模的生物样本和健康数据,深入探索人类健康的奥秘[14]。该项目招募了50万名志愿者,涵盖了不同年龄、性别和社会背景的群体,确保研究结果具有一定代表性。UKB收集了参与者的血液、尿液等多种生物样本,详细记录了生活习惯、家族病史、遗传信息、健康监测和诊疗信息[15]。
UKB本着开放和共享的原则,与全球研究者合作,共同推动医学科学的进步[16]。全球约90个国家(地区)的超过3万名科学家利用UKB开展研究,其中80%来自英国之外,至今累计发表科学研究论文超过9 000篇,发现了众多与癌症、心脑血管疾病等常见疾病相关的基因和生物标志物,为疾病的预防和早诊早治提供了有力支持。本研究对UKB相关的疾病风险预测模型进行综述,系统评估大型人群队列资源对疾病预防研究的价值。
本研究纳入的模型研究分为2种情况:①将UKB作为模型开发和内部验证集;②将UKB作为其他资源所开发的模型的外部验证集,病种不限。
1. 检索策略:检索了2024年3月4日之前在PubMed,Embase,Web of Science上所发表的论文。检索式为“(risk prediction model)AND(‘uk biobank’)AND[(predict*)OR(auc)OR(area under the curve)OR(receiver operator characteristic curve)OR(c-index)OR(c statistic)OR(roc)OR(calibration)]”。另外查阅相关综述和参考文献以补全信息[17]。
2. 纳入、排除标准:纳入标准:①研究目的为构建、更新或验证某疾病的风险预测模型;②预测结局为新发疾病;③研究对象为人;④研究资源涉及UKB。排除标准:①没有明确的模型评价指标或缺乏模型评价结果;②进展、死亡等预后模型;③研究内容与主题不相关(例如方法学研究或遗传关联研究)。
3. 数据提取:根据研究目的提取文献中的信息,包括作者、发表期刊和年份、研究人群、数据来源、预测因子、模型构建方法、模型验证情况和模型效果评价的结果。经过双人提取,双份比对,不一致的请第三人参与讨论决定[18]。
4. 模型评价:模型拟合度指模型预测结果与实际观察发生情况之间的符合程度,两者一致程度越高,模型越优。评价模型的优劣主要有2个方面:区分度和校准度。区分度指正确地将患者和非患者区分开的能力,校准度指模型预测结果与实际观测值之间的一致性程度。区分度常用受试者工作曲线下面积(AUC)或C指数(C-index)反映,校准度通常使用校准曲线判断[19]。本研究通过文献中提供的模型C指数来评价模型的性能。
1. 基本情况:本研究从PubMed,Embase,Web of Science 数据库中分别检索得到576、984、457篇共计2 017篇文献。通过文献筛选最终纳入210篇,筛选流程见图1。


2. 模型研究概况:
(1)研究者分布:本研究所纳入文献的通讯作者(多位则取第一位进行统计)来自于英国、美国、中国等18个不同国家,其中来自英国的有58名(27.62%),其他国家共152名(72.38%)(图2)。


(2)疾病分布:所纳入的210篇文献,涉及48种疾病,491个模型(包括某些研究中分层的子模型),其中,癌症风险模型有232个,以结直肠癌为主(57个);心脑血管疾病有144个,以冠状动脉疾病为主(49个);内分泌营养代谢疾病35个,以糖尿病为主(31个);呼吸系统疾病21个,以慢性阻塞性肺疾病(COPD)为主(14个)。见图3。


(3)建模方法与模型验证:491个模型中,包括生存结局模型(281个)、logistic回归模型(126个),机器学习模型(79个)等多种建模方法;生存分析模型中以Cox比例风险回归模型为主(261个);机器学习模型中未阐明具体方法的有24个,极限梯度提升法(XGBoost)有20个。见图4。对于模型验证情况,本研究中包含UKB开发-无验证(132个,26.88%)、UKB开发-内部验证(183个,37.27%)、UKB开发-外部验证(17个,3.46%)、外部开发-UKB验证(159个,32.39%)4种场景。癌症以UKB开发-无验证为主,心脑血管疾病、内分泌营养代谢疾病、呼吸系统疾病以UKB开发-内部验证为主。4类疾病中,结直肠癌和冠状动脉疾病以外部开发-UKB验证为主,糖尿病和COPD以UKB开发-内部验证为主。见图3。


注:Simple score:简单评分;Probability Function:概率函数;Flexible parametric model:灵活参数模型;Weibull proportional hazards:威布尔比例风险模型;XGBoost:极限梯度提升法;SVM:支持向量机;CNN:卷积神经网络;RF:随机森林;GBDT:梯度提升决策树;LightGBM:轻量级梯度提升机;AutoPrognosis model:临床预测量身定制的自动涉及预测模型管道系统;CatBoost:分类提升算法;HGB:分层梯度混合法
(4)预测因子:模型的预测因子体现了模型所包含的信息,可以分为宏观与微观2个不同类型。宏观指的是社会人口学、疾病史、环境等层面的变量;微观则是分子和基因层面的变量。本研究所纳入的文献中仅包含宏观变量的模型共188个(38.29%),宏观与微观结合的模型共303个(61.71%)。预测因子包括人口学、环境、生活方式、医疗史、家族史、身体检查指标、实验室检测、分子生物学标志物等。不同模型中所纳入变量不尽相同,年龄、性别、家族史是常见的3种预测因子。
3. 按病种的疾病风险预测模型:
(1)癌症:风险预测模型涉及18种癌症,共232个模型,以结直肠癌模型数量最多。以UKB作为开发的髓系肿瘤风险预测模型有3个,其平均C指数为0.820,不过数量较少,不具有代表性。其余癌症模型中,肺癌预测模型效果较好,在UKB数据中的C指数均值为0.783,最大值和最小值分别为0.915和0.591,其中有2个模型为以UKB开发-外部验证,C指数均值>0.800。除此之外,还有8种癌症模型平均C指数>0.700,模型效果较好,但一半无外部验证。见表1,图5,6。

基于英国生物银行(UKB)开发-验证的癌症风险预测模型
基于英国生物银行(UKB)开发-验证的癌症风险预测模型
| 癌症 | 模型数量(个) | 模型验证 研究的数量(个)a | C指数b |
|---|---|---|---|
平均值 (最大值,最小值) | |||
| 结直肠癌 | 57 | 10/3/0/44 | 0.633(0.733,0.510) |
| 肾癌 | 34 | 6/3/0/25 | 0.641(0.749,0.509) |
| 肺癌 | 22 | 9/10/2/1 | 0.783(0.915,0.591) |
| 前列腺癌 | 20 | 9/8/0/3 | 0.723(0.844,0.564) |
| 乳腺癌 | 16 | 10/4/1/1 | 0.647(0.836,0.547) |
| 胰腺癌 | 11 | 7/3/0/1 | 0.663(0.830,0.544) |
| 泛癌c | 10 | 8/2/0/0 | 0.662(0.747,0.557) |
| 头颈癌 | 9 | 5/3/0/1 | 0.714(0.931,0.640) |
| 膀胱癌 | 8 | 6/2/0/0 | 0.749(0.774,0.583) |
| 子宫内膜癌 | 8 | 5/2/0/1 | 0.764(0.821,0.650) |
| 食管癌 | 7 | 6/0/0/1 | 0.763(0.800,0.700) |
| 皮肤癌 | 6 | 2/2/2/0 | 0.711(0.840,0.641) |
| 胃癌 | 6 | 5/1/0/0 | 0.718(0.781,0.681) |
| 胆囊癌 | 5 | 5/0/0/0 | 0.774(0.774,0.634) |
| 肝癌 | 4 | 2/2/0/0 | 0.672(0.771,0.630) |
| 白血病 | 3 | 0/3/0/0 | 0.686(0.753,0.640) |
| 卵巢癌 | 3 | 1/2/0/0 | 0.616(0.663,0.568) |
| 髓系肿瘤 | 3 | 0/3/0/0 | 0.820(0.860,0.780) |
注:a UKB开发-无验证/UKB开发-内部验证/UKB开发-外部验证/外部开发-UKB验证;b均为UKB数据集中的结果;c 指多种癌症


注:上方的数字代表各疾病的模型研究数量;图中黑色圆点代表C指数均值,按均值的降序排列;泛癌:多种癌症


注:上方的数字代表各疾病的模型研究数量;黑色圆点代表C指数均值,按均值的降序排列;UKB:英国生物银行
(2)心脑血管疾病:风险预测模型涉及14种疾病(或综合心血管事件),其中,在UKB数据中左心室肥大模型C指数均值最大,但模型数量较少,不具有代表性。其次是心力衰竭模型效果较好,在UKB数据中的C指数均值为0.798,最大值、最小值分别为0.845、0.738。冠状动脉疾病和综合心血管事件预测模型的外部验证较多,C指数均值>0.700,其余疾病模型综合C指数均>0.600,但外部验证较少。见表2,图5,6。

基于英国生物银行(UKB)开发-验证的心脑血管疾病风险预测模型
基于英国生物银行(UKB)开发-验证的心脑血管疾病风险预测模型
| 疾病 | 模型研究 数量 | 模型验证 研究的数量a | C指数b |
|---|---|---|---|
平均值 (最大值,最小值) | |||
| 冠状动脉疾病 | 49 | 3/9/3/34 | 0.729(0.880,0.643) |
| 综合心血管事件 | 48 | 12/19/1/16 | 0.724(0.927,0.570) |
| 心肌梗死 | 9 | 0/7/1/1 | 0.749(0.860,0.610) |
| 房颤 | 9 | 1/5/1/2 | 0.749(0.784,0.632) |
| 心力衰竭 | 8 | 2/6/0/0 | 0.798(0.845,0.738) |
| 脑卒中 | 7 | 0/5/1/1 | 0.693(0.776,0.620) |
| 高血压 | 3 | 0/3/0/0 | 0.702(0.717,0.677) |
| 左心室肥大 | 3 | 0/3/0/0 | 0.847(0.860,0.830) |
| 缺血性心脏病 | 2 | 0/2/0/0 | 0.762(0.804,0.720) |
| 外周动脉疾病 | 2 | 0/2/0/0 | 0.728(0.760,0.696) |
| 腹主动脉瘤 | 1 | 0/1/0/0 | 0.869(-) |
| 高胆固醇血症 | 1 | 0/1/0/0 | 0.770(-) |
| 室性心律失常 | 1 | 0/1/0/0 | 0.731(-) |
| 脑出血 | 1 | 0/0/0/1 | 0.695(-) |
注:-:无数据;aUKB开发-无验证/UKB开发-内部验证/UKB开发-外部验证/外部开发-UKB验证;b均为UKB数据集中的结果
(3)内分泌营养代谢疾病:风险预测模型涉及4种疾病:糖尿病、甲状腺功能减退、肥胖和骨质疏松,共35个模型。其中糖尿病模型数量最多,效果最好,2型糖尿病在UKB数据中的C指数均值为0.778,最大值、最小值分别为0.922、0.638,其外部验证较多,C指数均值>0.700。其余疾病模型虽然C指数均值>0.700,但数量较少且缺乏外部验证,因此不具有代表性。见表3,图5,6。

基于英国生物银行(UKB)开发-验证的内分泌营养代谢疾病风险预测模型
基于英国生物银行(UKB)开发-验证的内分泌营养代谢疾病风险预测模型
| 疾病 | 模型研究 数量 | 模型验证的 研究数量a | C指数b |
|---|---|---|---|
平均值 (最大值,最小值) | |||
| 糖尿病 | |||
| 1型 | 2 | 0/1/0/1 | 0.916(0.921,0.910) |
| 2型 | 29 | 1/16/3/9 | 0.778(0.922,0.638) |
| 骨质疏松 | 2 | 1/1/0/0 | 0.743(0.800,0.686) |
| 甲状腺功能减退 | 1 | 0/1/0/0 | 0.783(-) |
| 肥胖症 | 1 | 0/1/0/0 | 0.806(-) |
注:-:无数据;aUKB开发-无验证/UKB开发-内部验证/UKB开发-外部验证/外部开发-UKB验证;b均为UKB数据集中的结果
(4)呼吸系统疾病:风险预测模型涉及3种疾病:COVID-19、哮喘和COPD,共21个模型,COPD风险预测模型研究数量最多。COVID-19模型效果最好,C指数均值为0.776,模型的异质性较大(最大值、最小值分别为0.969、0.570)。COPD模型C指数均值为0.754,其中1个模型为UKB开发-外部验证,C指数>0.800。哮喘模型均为外部开发-UKB验证,但效果较差。见表4,图5,6。

基于英国生物银行(UKB)开发-验证的呼吸系统疾病风险预测模型
基于英国生物银行(UKB)开发-验证的呼吸系统疾病风险预测模型
| 疾病 | 模型研究 数量 | 各种模型验证 研究的数量a | C指数b |
|---|---|---|---|
平均值 (最大值,最小值) | |||
| COPD | 14 | 0/13/1/0 | 0.754(0.820,0.612) |
| COVID-19 | 5 | 0/5/0/0 | 0.776(0.969,0.570) |
| 哮喘 | 2 | 0/0/0/2 | 0.626(0.660,0.592) |
注:COPD:慢性阻塞性肺疾病;a UKB开发-无验证/UKB开发-内部验证/UKB开发-外部验证/外部开发-UKB验证;b均为UKB数据集中的结果
(5)其他疾病:风险预测模型涉及9种疾病,共59个模型,其中痴呆风险预测模型研究数量最多。脆弱综合征和子宫内膜异位症仅有1个模型。肾病风险预测效果最好,C指数均值为0.781,最大值、最小值分别为0.914和0.634;外部验证C指数较低。见表5,图5,6。

基于英国生物银行(UKB)开发-验证的其他疾病风险预测模型
基于英国生物银行(UKB)开发-验证的其他疾病风险预测模型
| 疾病 | 模型研究 数量 | 各种模型 验证研究的 数量a | C指数b |
|---|---|---|---|
平均值 (最大值,最小值) | |||
| 痴呆 | 15 | 4/6/0/5 | 0.768(0.862,0.573) |
| 严重肝病 | 13 | 6/3/0/4 | 0.734(0.868,0.603) |
| 眼部疾病 | 9 | 1/5/1/2 | 0.760(0.967,0.660) |
| 焦虑/抑郁 | 7 | 0/7/0/0 | 0.771(0.890,0.617) |
| 肾病 | 6 | 2/2/0/2 | 0.781(0.914,0.634) |
| 静脉血栓 | 5 | 2/2/0/1 | 0.634(0.750,0.559) |
| 精神分裂症 | 2 | 0/2/0/0 | 0.642(0.710,0.573) |
| 子宫内膜异位症 | 1 | 0/1/0/0 | 0.810(-) |
| 脆弱综合征 | 1 | 1/0/0/0 | 0.850(-) |
注:-:无数据;aUKB开发-无验证/UKB开发-内部验证/UKB开发-外部验证/外部开发-UKB验证;b均为UKB数据集中的结果
疾病风险预测模型是医学研究到预防实践的重要抓手,是实现精准预防和治疗的重要工具,而大型人群队列是预测模型开发和验证的关键基础。UKB作为队列资源公开共享的典范,吸引了全球近万研究团队开展了富有成效的预测模型研究[20]。所有使用UKB资源的研究者中来自英国之外者占80%,本综述纳入的预测模型研究中英国之外的研究者占72.38%,可见UKB已经成为生物医学研究者的宝贵资源。我国作为人口和医疗卫生大国,UKB的成功为我国大型人群队列研究提供了宝贵的经验。
UKB涉及千余种疾病分类,本研究所纳入的预测模型研究仅覆盖48种疾病,覆盖度明显不足。这可能和研究热点有关,提示需关注其他疾病类别。另外,对于发病率水平过低的疾病,即使UKB的超大样本量,其统计学效能仍然不足;提示针对罕见疾病的预测模型研究需要更为适合的研究设计。
从建模方法来看,基于多个预测因子的线性加权方法占据多数,通常基于Cox比例风险回归模型等生存结局模型获得权重,小部分在此基础上考虑了竞争风险和不同的基线风险函数[21]。少量模型采用机器学习和人工智能模型构建,虽然效果有所提升,但可解释性不足,其稳定性和外延性值得关注[22]。2023年,Placido等[23]采用深度神经网络方法,利用丹麦国家患者登记数据库的临床记录构建胰腺癌风险预测模型,36个月内的胰腺癌风险预测准确度较高(AUC为0.88),在美国退伍军人事务部人群中进行验证,其准确度为0.77,校准后可达到0.78,人群差异或模型稳定性不足是外部验证集AUC降低的可能原因。如何提升机器学习和人工智能算法的可解释性和因果性,是重要的研究方向。
预测模型性能评估的不足会影响研究人员对模型实际价值的判断。以UKB作为开发资源的模型占本研究纳入模型的约68%,其中有外部验证的占少数。模型的外部验证对于确认模型的表现和泛化能力至关重要[24]。外部验证试验应当遵循设计导向,样本量(或效能)需求应经估算,以满足统计学要求[25]。验证过程中,应充分展示亚组和分层的结果,便于充分评估模型的稳健性和适用人群[26]。应遵循最新的TROPOD+AI规范来报告临床预测模型研究的设计和结果,亦可参考其要求优化模型开发和验证研究设计[27]。
预测因子的合理选择有助于提升预测模型的性能以及稳定性。UKB广泛的数据内容,为预测因子筛选、病因发现和验证提供了坚实的基础,是实现精准预防的重要组成部分。宏观和微观因子相结合的预测模型数量过半,体现了近年来精准预防以及预测模型的发展方向之一[28]。
本研究存在局限性。第一,仅检索了UKB,不足以全面体现大型人群队列对于疾病预测模型研究的贡献;对于将预测模型作为次要甚至补充结果的研究,在检索中或许会有所遗漏。第二,疾病分类不够精细。第三,因篇幅有限,未详细探讨各类疾病模型预测因子的情况,将未来继续研究。第四,疾病预测模型的构成包含组学、表型、环境、生活方式、临床治疗等多方面数据,本研究并未深入探讨不同种类数据在模型研究中的作用与重要性。这些问题可在之后的研究中进行深入探讨。
朱晨旭, 宋雨昕, 郝元涛, 等. 大型人群队列在疾病风险预测模型研究中的作用:以英国生物银行为例[J]. 中华流行病学杂志, 2024, 45(10): 1433-1440. DOI: 10.3760/cma.j.cn112338-20240507-00245.
Zhu CX, Song YX, Hao YT, et al. Contribution of the large-scale population cohort in disease risk prediction model study:taking United Kingdom Biobank as an example[J]. Chin J Epidemiol, 2024, 45(10):1433-1440. DOI: 10.3760/cma.j.cn112338-20240507-00245.
所有作者声明无利益冲突





















