学习·发现·交流
大型人群队列在疾病风险预测模型研究中的作用:以英国生物银行为例
中华流行病学杂志, 2024,45(10) : 1433-1440. DOI: 10.3760/cma.j.cn112338-20240507-00245
摘要

疾病风险预测模型是精准预防的基础,也是临床诊疗决策的重要参考依据。风险预测模型的开发需要大量高质量数据的支持,大型人群队列研究是其重要的基础。英国生物银行(UKB)作为大型人群队列和生物样本库,其丰富的基线和随访数据以及向全球共享的理念和机制,在疾病病因探索和疾病防控相关研究领域有重要的作用。本研究遵循PRISMA规范,纳入了210篇文献,其通讯作者来自18个国家,其中有58篇(27.62%)来自英国。提取针对癌症、心脑血管疾病、内分泌营养代谢疾病、呼吸系统疾病、其他疾病及其亚组人群的491个疾病风险预测模型,其中UKB开发-无验证132个、UKB开发-内部验证183个、UKB开发-外部验证17个、外部开发-UKB验证159个。仅采用宏观变量的模型共188个(38.29%),宏观与微观变量相结合的模型共303个(61.71%)。模型构建方法包括生存结局模型、logistic回归、机器学习,生存结局模型中以Cox比例风险回归模型为主,少量模型考虑了竞争风险、加速失效模型或不同的基线风险函数。机器学习模型采用了随机森林、极限梯度提升法、分类提升算法、支持向量机和卷积神经网络等方法。UKB为多种疾病风险预测模型研究提供了重要资源。

引用本文: 朱晨旭, 宋雨昕, 郝元涛, 等.  大型人群队列在疾病风险预测模型研究中的作用:以英国生物银行为例 [J] . 中华流行病学杂志, 2024, 45(10) : 1433-1440. DOI: 10.3760/cma.j.cn112338-20240507-00245.
参考文献导出:   Endnote    NoteExpress    RefWorks    NoteFirst    医学文献王
扫  描  看  全  文

正文
作者信息
基金 0  关键词  0
English Abstract
评论
阅读 0  评论  0
相关资源
引用 | 论文 | 视频

版权归中华医学会所有。

未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。

随着医学技术的不断进步,人们愈发关注个体化的健康管理和疾病预防。疾病风险预测模型,通过利用个体的数据和统计学、机器学习等方法和技术,对个体未来的患病风险进行准确评估,从而指导精准预防、健康管理、治疗方案决策。过去的30年中,除了最初的心血管疾病外,癌症、高血压、糖尿病等多个疾病领域也都开始了疾病风险预测模型的探索1, 2, 3, 4, 5, 6, 7, 8, 9, 10。从个体角度,预测模型可以让个体更客观地了解自己的发病风险和风险等级,并可评价针对可干预变量进行干预的效果。从人群角度,预测模型有助于从各类人群中识别出高风险人群以供展开一级/二级/三级预防,使有限的卫生资源得以更合理化应用。因此,开发高质量疾病风险预测模型,对于提升人群健康水平和生活质量具有重要意义。

疾病风险预测模型的开发,通常从识别疾病因子开始,通常需要充分的人群数据支持。1961年,弗明翰心脏病研究(FHS)首次提出冠心病危险因素的概念,此后逐步完善,形成冠心病风险评分,包含年龄、TC、体重、心电图异常、血红蛋白、吸烟、SBP共7个变量11。1998年,Wilson等12报道了针对冠心病的Framingham危险评分,该评分系统建立了基于10年风险评估的3个风险分层,使用危险分层代替连续变量,有助于医生对患者进行危险评估,该评分系统采用的10年风险评估为未来患冠心病低危、中危、高危人群分类提供了方便的方法。该模型后来被美国国家胆固醇教育计划成年人治疗小组指南所采用,被认为是预测个体未来冠心病事件风险及预防管理决策的基础13

英国生物银行(UKB)自2006年起致力于采集大规模的生物样本和健康数据,深入探索人类健康的奥秘14。该项目招募了50万名志愿者,涵盖了不同年龄、性别和社会背景的群体,确保研究结果具有一定代表性。UKB收集了参与者的血液、尿液等多种生物样本,详细记录了生活习惯、家族病史、遗传信息、健康监测和诊疗信息15

UKB本着开放和共享的原则,与全球研究者合作,共同推动医学科学的进步16。全球约90个国家(地区)的超过3万名科学家利用UKB开展研究,其中80%来自英国之外,至今累计发表科学研究论文超过9 000篇,发现了众多与癌症、心脑血管疾病等常见疾病相关的基因和生物标志物,为疾病的预防和早诊早治提供了有力支持。本研究对UKB相关的疾病风险预测模型进行综述,系统评估大型人群队列资源对疾病预防研究的价值。

资料与方法

本研究纳入的模型研究分为2种情况:①将UKB作为模型开发和内部验证集;②将UKB作为其他资源所开发的模型的外部验证集,病种不限。

1. 检索策略:检索了2024年3月4日之前在PubMed,Embase,Web of Science上所发表的论文。检索式为“(risk prediction model)AND(‘uk biobank’)AND[(predict*)OR(auc)OR(area under the curve)OR(receiver operator characteristic curve)OR(c-index)OR(c statistic)OR(roc)OR(calibration)]”。另外查阅相关综述和参考文献以补全信息17

2. 纳入、排除标准:纳入标准:①研究目的为构建、更新或验证某疾病的风险预测模型;②预测结局为新发疾病;③研究对象为人;④研究资源涉及UKB。排除标准:①没有明确的模型评价指标或缺乏模型评价结果;②进展、死亡等预后模型;③研究内容与主题不相关(例如方法学研究或遗传关联研究)。

3. 数据提取:根据研究目的提取文献中的信息,包括作者、发表期刊和年份、研究人群、数据来源、预测因子、模型构建方法、模型验证情况和模型效果评价的结果。经过双人提取,双份比对,不一致的请第三人参与讨论决定18

4. 模型评价:模型拟合度指模型预测结果与实际观察发生情况之间的符合程度,两者一致程度越高,模型越优。评价模型的优劣主要有2个方面:区分度和校准度。区分度指正确地将患者和非患者区分开的能力,校准度指模型预测结果与实际观测值之间的一致性程度。区分度常用受试者工作曲线下面积(AUC)或C指数(C-index)反映,校准度通常使用校准曲线判断19。本研究通过文献中提供的模型C指数来评价模型的性能。

结果

1. 基本情况:本研究从PubMed,Embase,Web of Science 数据库中分别检索得到576、984、457篇共计2 017篇文献。通过文献筛选最终纳入210篇,筛选流程见图1

点击查看大图
图1
基于PRISMA规范的文献筛选流程
点击查看大图
图1
基于PRISMA规范的文献筛选流程

2. 模型研究概况:

(1)研究者分布:本研究所纳入文献的通讯作者(多位则取第一位进行统计)来自于英国、美国、中国等18个不同国家,其中来自英国的有58名(27.62%),其他国家共152名(72.38%)(图2)。

点击查看大图
图2
本研究纳入文献的通讯作者国别分布
点击查看大图
图2
本研究纳入文献的通讯作者国别分布

(2)疾病分布:所纳入的210篇文献,涉及48种疾病,491个模型(包括某些研究中分层的子模型),其中,癌症风险模型有232个,以结直肠癌为主(57个);心脑血管疾病有144个,以冠状动脉疾病为主(49个);内分泌营养代谢疾病35个,以糖尿病为主(31个);呼吸系统疾病21个,以慢性阻塞性肺疾病(COPD)为主(14个)。见图3

点击查看大图
图3
不同疾病风险预测模型验证情况
点击查看大图
图3
不同疾病风险预测模型验证情况

(3)建模方法与模型验证:491个模型中,包括生存结局模型(281个)、logistic回归模型(126个),机器学习模型(79个)等多种建模方法;生存分析模型中以Cox比例风险回归模型为主(261个);机器学习模型中未阐明具体方法的有24个,极限梯度提升法(XGBoost)有20个。见图4。对于模型验证情况,本研究中包含UKB开发-无验证(132个,26.88%)、UKB开发-内部验证(183个,37.27%)、UKB开发-外部验证(17个,3.46%)、外部开发-UKB验证(159个,32.39%)4种场景。癌症以UKB开发-无验证为主,心脑血管疾病、内分泌营养代谢疾病、呼吸系统疾病以UKB开发-内部验证为主。4类疾病中,结直肠癌和冠状动脉疾病以外部开发-UKB验证为主,糖尿病和COPD以UKB开发-内部验证为主。见图3

点击查看大图
图4
疾病风险预测模型构建方法
点击查看大图

注:Simple score:简单评分;Probability Function:概率函数;Flexible parametric model:灵活参数模型;Weibull proportional hazards:威布尔比例风险模型;XGBoost:极限梯度提升法;SVM:支持向量机;CNN:卷积神经网络;RF:随机森林;GBDT:梯度提升决策树;LightGBM:轻量级梯度提升机;AutoPrognosis model:临床预测量身定制的自动涉及预测模型管道系统;CatBoost:分类提升算法;HGB:分层梯度混合法

图4
疾病风险预测模型构建方法

(4)预测因子:模型的预测因子体现了模型所包含的信息,可以分为宏观与微观2个不同类型。宏观指的是社会人口学、疾病史、环境等层面的变量;微观则是分子和基因层面的变量。本研究所纳入的文献中仅包含宏观变量的模型共188个(38.29%),宏观与微观结合的模型共303个(61.71%)。预测因子包括人口学、环境、生活方式、医疗史、家族史、身体检查指标、实验室检测、分子生物学标志物等。不同模型中所纳入变量不尽相同,年龄、性别、家族史是常见的3种预测因子。

3. 按病种的疾病风险预测模型:

(1)癌症:风险预测模型涉及18种癌症,共232个模型,以结直肠癌模型数量最多。以UKB作为开发的髓系肿瘤风险预测模型有3个,其平均C指数为0.820,不过数量较少,不具有代表性。其余癌症模型中,肺癌预测模型效果较好,在UKB数据中的C指数均值为0.783,最大值和最小值分别为0.915和0.591,其中有2个模型为以UKB开发-外部验证,C指数均值>0.800。除此之外,还有8种癌症模型平均C指数>0.700,模型效果较好,但一半无外部验证。见表1图56

点击查看表格
表1

基于英国生物银行(UKB)开发-验证的癌症风险预测模型

表1

基于英国生物银行(UKB)开发-验证的癌症风险预测模型

癌症模型数量(个)

模型验证

研究的数量(个)a

C指数b

平均值

(最大值,最小值)

结直肠癌5710/3/0/440.633(0.733,0.510)
肾癌346/3/0/250.641(0.749,0.509)
肺癌229/10/2/10.783(0.915,0.591)
前列腺癌209/8/0/30.723(0.844,0.564)
乳腺癌1610/4/1/10.647(0.836,0.547)
胰腺癌117/3/0/10.663(0.830,0.544)
泛癌c108/2/0/00.662(0.747,0.557)
头颈癌95/3/0/10.714(0.931,0.640)
膀胱癌86/2/0/00.749(0.774,0.583)
子宫内膜癌85/2/0/10.764(0.821,0.650)
食管癌76/0/0/10.763(0.800,0.700)
皮肤癌62/2/2/00.711(0.840,0.641)
胃癌65/1/0/00.718(0.781,0.681)
胆囊癌55/0/0/00.774(0.774,0.634)
肝癌42/2/0/00.672(0.771,0.630)
白血病30/3/0/00.686(0.753,0.640)
卵巢癌31/2/0/00.616(0.663,0.568)
髓系肿瘤30/3/0/00.820(0.860,0.780)

注:a UKB开发-无验证/UKB开发-内部验证/UKB开发-外部验证/外部开发-UKB验证;b均为UKB数据集中的结果;c 指多种癌症

点击查看大图
图5
不同疾病分类模型在英国生物银行(UKB)数据中的C指数
点击查看大图

注:上方的数字代表各疾病的模型研究数量;图中黑色圆点代表C指数均值,按均值的降序排列;泛癌:多种癌症

图5
不同疾病分类模型在英国生物银行(UKB)数据中的C指数
点击查看大图
图6
不同疾病分类模型在外部验证中的C指数
点击查看大图

注:上方的数字代表各疾病的模型研究数量;黑色圆点代表C指数均值,按均值的降序排列;UKB:英国生物银行

图6
不同疾病分类模型在外部验证中的C指数

(2)心脑血管疾病:风险预测模型涉及14种疾病(或综合心血管事件),其中,在UKB数据中左心室肥大模型C指数均值最大,但模型数量较少,不具有代表性。其次是心力衰竭模型效果较好,在UKB数据中的C指数均值为0.798,最大值、最小值分别为0.845、0.738。冠状动脉疾病和综合心血管事件预测模型的外部验证较多,C指数均值>0.700,其余疾病模型综合C指数均>0.600,但外部验证较少。见表2图56

点击查看表格
表2

基于英国生物银行(UKB)开发-验证的心脑血管疾病风险预测模型

表2

基于英国生物银行(UKB)开发-验证的心脑血管疾病风险预测模型

疾病

模型研究

数量

模型验证

研究的数量a

C指数b

平均值

(最大值,最小值)

冠状动脉疾病493/9/3/340.729(0.880,0.643)
综合心血管事件4812/19/1/160.724(0.927,0.570)
心肌梗死90/7/1/10.749(0.860,0.610)
房颤91/5/1/20.749(0.784,0.632)
心力衰竭82/6/0/00.798(0.845,0.738)
脑卒中70/5/1/10.693(0.776,0.620)
高血压30/3/0/00.702(0.717,0.677)
左心室肥大30/3/0/00.847(0.860,0.830)
缺血性心脏病20/2/0/00.762(0.804,0.720)
外周动脉疾病20/2/0/00.728(0.760,0.696)
腹主动脉瘤10/1/0/00.869(-)
高胆固醇血症10/1/0/00.770(-)
室性心律失常10/1/0/00.731(-)
脑出血10/0/0/10.695(-)

注:-:无数据;aUKB开发-无验证/UKB开发-内部验证/UKB开发-外部验证/外部开发-UKB验证;b均为UKB数据集中的结果

(3)内分泌营养代谢疾病:风险预测模型涉及4种疾病:糖尿病、甲状腺功能减退、肥胖和骨质疏松,共35个模型。其中糖尿病模型数量最多,效果最好,2型糖尿病在UKB数据中的C指数均值为0.778,最大值、最小值分别为0.922、0.638,其外部验证较多,C指数均值>0.700。其余疾病模型虽然C指数均值>0.700,但数量较少且缺乏外部验证,因此不具有代表性。见表3图56

点击查看表格
表3

基于英国生物银行(UKB)开发-验证的内分泌营养代谢疾病风险预测模型

表3

基于英国生物银行(UKB)开发-验证的内分泌营养代谢疾病风险预测模型

疾病

模型研究

数量

模型验证的

研究数量a

C指数b

平均值

(最大值,最小值)

糖尿病
1型20/1/0/10.916(0.921,0.910)
2型291/16/3/90.778(0.922,0.638)
骨质疏松21/1/0/00.743(0.800,0.686)
甲状腺功能减退10/1/0/00.783(-)
肥胖症10/1/0/00.806(-)

注:-:无数据;aUKB开发-无验证/UKB开发-内部验证/UKB开发-外部验证/外部开发-UKB验证;b均为UKB数据集中的结果

(4)呼吸系统疾病:风险预测模型涉及3种疾病:COVID-19、哮喘和COPD,共21个模型,COPD风险预测模型研究数量最多。COVID-19模型效果最好,C指数均值为0.776,模型的异质性较大(最大值、最小值分别为0.969、0.570)。COPD模型C指数均值为0.754,其中1个模型为UKB开发-外部验证,C指数>0.800。哮喘模型均为外部开发-UKB验证,但效果较差。见表4图56

点击查看表格
表4

基于英国生物银行(UKB)开发-验证的呼吸系统疾病风险预测模型

表4

基于英国生物银行(UKB)开发-验证的呼吸系统疾病风险预测模型

疾病

模型研究

数量

各种模型验证

研究的数量a

C指数b

平均值

(最大值,最小值)

COPD140/13/1/00.754(0.820,0.612)
COVID-1950/5/0/00.776(0.969,0.570)
哮喘20/0/0/20.626(0.660,0.592)

注:COPD:慢性阻塞性肺疾病;a UKB开发-无验证/UKB开发-内部验证/UKB开发-外部验证/外部开发-UKB验证;b均为UKB数据集中的结果

(5)其他疾病:风险预测模型涉及9种疾病,共59个模型,其中痴呆风险预测模型研究数量最多。脆弱综合征和子宫内膜异位症仅有1个模型。肾病风险预测效果最好,C指数均值为0.781,最大值、最小值分别为0.914和0.634;外部验证C指数较低。见表5图56

点击查看表格
表5

基于英国生物银行(UKB)开发-验证的其他疾病风险预测模型

表5

基于英国生物银行(UKB)开发-验证的其他疾病风险预测模型

疾病

模型研究

数量

各种模型

验证研究的

数量a

C指数b

平均值

(最大值,最小值)

痴呆154/6/0/50.768(0.862,0.573)
严重肝病136/3/0/40.734(0.868,0.603)
眼部疾病91/5/1/20.760(0.967,0.660)
焦虑/抑郁70/7/0/00.771(0.890,0.617)
肾病62/2/0/20.781(0.914,0.634)
静脉血栓52/2/0/10.634(0.750,0.559)
精神分裂症20/2/0/00.642(0.710,0.573)
子宫内膜异位症10/1/0/00.810(-)
脆弱综合征11/0/0/00.850(-)

注:-:无数据;aUKB开发-无验证/UKB开发-内部验证/UKB开发-外部验证/外部开发-UKB验证;b均为UKB数据集中的结果

讨论

疾病风险预测模型是医学研究到预防实践的重要抓手,是实现精准预防和治疗的重要工具,而大型人群队列是预测模型开发和验证的关键基础。UKB作为队列资源公开共享的典范,吸引了全球近万研究团队开展了富有成效的预测模型研究20。所有使用UKB资源的研究者中来自英国之外者占80%,本综述纳入的预测模型研究中英国之外的研究者占72.38%,可见UKB已经成为生物医学研究者的宝贵资源。我国作为人口和医疗卫生大国,UKB的成功为我国大型人群队列研究提供了宝贵的经验。

UKB涉及千余种疾病分类,本研究所纳入的预测模型研究仅覆盖48种疾病,覆盖度明显不足。这可能和研究热点有关,提示需关注其他疾病类别。另外,对于发病率水平过低的疾病,即使UKB的超大样本量,其统计学效能仍然不足;提示针对罕见疾病的预测模型研究需要更为适合的研究设计。

从建模方法来看,基于多个预测因子的线性加权方法占据多数,通常基于Cox比例风险回归模型等生存结局模型获得权重,小部分在此基础上考虑了竞争风险和不同的基线风险函数21。少量模型采用机器学习和人工智能模型构建,虽然效果有所提升,但可解释性不足,其稳定性和外延性值得关注22。2023年,Placido等23采用深度神经网络方法,利用丹麦国家患者登记数据库的临床记录构建胰腺癌风险预测模型,36个月内的胰腺癌风险预测准确度较高(AUC为0.88),在美国退伍军人事务部人群中进行验证,其准确度为0.77,校准后可达到0.78,人群差异或模型稳定性不足是外部验证集AUC降低的可能原因。如何提升机器学习和人工智能算法的可解释性和因果性,是重要的研究方向。

预测模型性能评估的不足会影响研究人员对模型实际价值的判断。以UKB作为开发资源的模型占本研究纳入模型的约68%,其中有外部验证的占少数。模型的外部验证对于确认模型的表现和泛化能力至关重要24。外部验证试验应当遵循设计导向,样本量(或效能)需求应经估算,以满足统计学要求25。验证过程中,应充分展示亚组和分层的结果,便于充分评估模型的稳健性和适用人群26。应遵循最新的TROPOD+AI规范来报告临床预测模型研究的设计和结果,亦可参考其要求优化模型开发和验证研究设计27

预测因子的合理选择有助于提升预测模型的性能以及稳定性。UKB广泛的数据内容,为预测因子筛选、病因发现和验证提供了坚实的基础,是实现精准预防的重要组成部分。宏观和微观因子相结合的预测模型数量过半,体现了近年来精准预防以及预测模型的发展方向之一28

本研究存在局限性。第一,仅检索了UKB,不足以全面体现大型人群队列对于疾病预测模型研究的贡献;对于将预测模型作为次要甚至补充结果的研究,在检索中或许会有所遗漏。第二,疾病分类不够精细。第三,因篇幅有限,未详细探讨各类疾病模型预测因子的情况,将未来继续研究。第四,疾病预测模型的构成包含组学、表型、环境、生活方式、临床治疗等多方面数据,本研究并未深入探讨不同种类数据在模型研究中的作用与重要性。这些问题可在之后的研究中进行深入探讨。

引用格式:

朱晨旭, 宋雨昕, 郝元涛, 等. 大型人群队列在疾病风险预测模型研究中的作用:以英国生物银行为例[J]. 中华流行病学杂志, 2024, 45(10): 1433-1440. DOI: 10.3760/cma.j.cn112338-20240507-00245.

Zhu CX, Song YX, Hao YT, et al. Contribution of the large-scale population cohort in disease risk prediction model study:taking United Kingdom Biobank as an example[J]. Chin J Epidemiol, 2024, 45(10):1433-1440. DOI: 10.3760/cma.j.cn112338-20240507-00245.

利益冲突
利益冲突

所有作者声明无利益冲突

参考文献
[1]
丁银圻, 杨淞淳, 吕筠, . 老年人群心血管疾病风险预测模型研究进展[J]. 中华流行病学杂志, 2023, 44(6):1013- 1020. DOI: 10.3760/cma.j.cn112338-20221104-00940.
DingYQ, YangSC, LyuJ, et al. A review on cardiovascular disease risk prediction models in the elderly[J]. Chin J Epidemiol, 2023, 44(6):1013-1020. DOI: 10.3760/cma.j.cn112338-20221104-00940.
[2]
ParikhNI, PencinaMJ, WangTJ, et al. A risk score for predicting near-term incidence of hypertension:the Framingham heart study[J]. Ann Intern Med, 2008, 148 (2): 102-110. DOI: 10.7326/0003-4819-148-2-200801150-00005.
[3]
GailMH, BrintonLA, ByarDP, et al. Projecting individualized probabilities of developing breast cancer for white females who are being examined annually[J]. J Natl Cancer Instit, 1989, 81(24):1879-1886. DOI: 10.1093/jnci/81.24.1879.
[4]
MeigsJB, ShraderP, SullivanLM, et al. Genotype score in addition to common risk factors for prediction of type 2 diabetes[J]. N Engl J Med, 2008, 359(21):2208-2219. DOI: 10.1056/NEJMoa0804742.
[5]
ValléeA. Added value of arterial stiffness index for the 10-year atherosclerotic cardiovascular disease risk determination in a middle-aged population-based study[J]. Clin Res Cardiol, 2023, 112(11):1679-1689. DOI: 10.1007/s00392-023-02267-4.
[6]
DiteGS, MurphyNM, AllmanR. An integrated clinical and genetic model for predicting risk of severe COVID-19:a population-based case-control study[J]. PLoS One, 2021, 16(2):e0247205. DOI: 10.1371/journal.pone.0247205.
[7]
SCORE2 Working Group and ESC Cardiovascular Risk Collaboration. SCORE2 risk prediction algorithms:new models to estimate 10-year risk of cardiovascular disease in Europe[J]. Eur Heart J, 2021, 42(25):2439-2454. DOI: 10.1093/eurheartj/ehab309.
[8]
CallenderT, ImrieF, CebereB, et al. Assessing eligibility for lung cancer screening using parsimonious ensemble machine learning models:a development and validation study[J]. PLoS Med, 2023, 20(10):e1004287. DOI: 10.1371/journal.pmed.1004287.
[9]
KokkorakisM, FolkertsmaP, van DamS, et al. Effective questionnaire-based prediction models for type 2 diabetes across several ethnicities:a model development and validation study[J]. eClinicalMedicine, 2023, 64:102235. DOI: 10.1016/j.eclinm.2023.102235.
[10]
ChenR, PetrazziniBO, MalickWA, et al. Prediction of venous thromboembolism in diverse populations using machine learning and structured electronic health records[J]. Arterioscler Thromb Vasc Biol, 2024, 44(2):491-504. DOI: 10.1161/atvbaha.123.320331.
[11]
KannelWB, DawberTR, KaganA, et al. Factors of risk in the development of coronary heart disease-six year follow-up experience. The Framingham Study[J]. Ann Intern Med, 1961, 55:33-50.10.7326/0003-4819-55-1-33. DOI: 10.7326/0003-4819-55-1-33.
[12]
WilsonPW, D'AgostinoRB, LevyD, et al. Prediction of coronary heart disease using risk factor categories[J]. Circulation, 1998, 97(18):1837-1847. DOI: 10.1161/01.cir.97.18.1837.
[13]
Expert Panel on Detection, Evaluation, and Treatment of High Blood Cholesterol in Adults. Executive summary of the third report of the national cholesterol education program (NCEP) expert panel on detection, evaluation, and treatment of high blood cholesterol in adults (Adult Treatment Panel Ⅲ)[J]. JAMA, 2001, 285(19):2486-2497. DOI: 10.1001/jama.285.19.2486.
[14]
CollinsR. What makes UK Biobank special?[J]. Lancet, 2012, 379(9822):1173-1174. DOI: 10.1016/s0140-6736(12)60404-8.
[15]
SudlowC, GallacherJ, AllenN, et al. UK biobank:an open access resource for identifying the causes of a wide range of complex diseases of middle and old age[J]. PLoS Med, 2015, 12(3):e1001779. DOI: 10.1371/journal.pmed.1001779.
[16]
AllenNE, SudlowC, PeakmanT, et al. UK biobank data:come and get it[J]. Sci Transl Med, 2014, 6(224):224ed4. DOI: 10.1126/scitranslmed.3008601.
[17]
PanZC, ZhangRY, ShenSP, et al. OWL:an optimized and independently validated machine learning prediction model for lung cancer screening based on the UK Biobank, PLCO, and NLST populations[J]. eBioMedicine, 2023, 88:104443. DOI: 10.1016/j.ebiom.2023.104443.
[18]
PageMJ, MckenzieJE, BossuytPM, et al. The PRISMA 2020 statement:an updated guideline for reporting systematic reviews[J]. BMJ, 2021, 372:n71. DOI: 10.1136/bmj.n71.
[19]
HanleyJA, McneilBJ. The meaning and use of the area under a receiver operating characteristic (ROC) curve[J]. Radiology, 1982, 143(1):29-36. DOI: 10.1148/radiology.143.1.7063747.
[20]
GlynnP, GreenlandP. Contributions of the UK biobank high impact papers in the era of precision medicine[J]. Eur J Epidemiol, 2020, 35(1):5-10. DOI: 10.1007/s10654-020-00606-7.
[21]
MoonsKGM, AltmanDG, ReitsmaJB, et al. Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD):explanation and elaboration[J]. Ann Intern Med, 2015, 162(1):W1-73. DOI: 10.7326/m14-0698.
[22]
ShahNH, MilsteinA, BagleySC. Making machine learning models clinically useful[J]. JAMA, 2019, 322(14):1351-1352. DOI: 10.1001/jama.2019.10306.
[23]
PlacidoD, YuanB, HjaltelinJX, et al. A deep learning algorithm to predict risk of pancreatic cancer from disease trajectories[J]. Nat Med, 2023, 29(5):1113-1122. DOI: 10.1038/s41591-023-02332-5.
[24]
CollinsGS, DhimanP, MAJ, et al. Evaluation of clinical prediction models (part 1):from development to external validation[J]. BMJ, 2024, 384:e074819. DOI: 10.1136/bmj-2023-074819.
[25]
RileyRD, SnellKIE, ArcherL, et al. Evaluation of clinical prediction models (part 3):calculating the sample size required for an external validation study[J]. BMJ, 2024, 384:e074821. DOI: 10.1136/bmj-2023-074821.
[26]
RileyRD, ArcherL, SnellKIE, et al. Evaluation of clinical prediction models (part 2):how to undertake an external validation study[J]. BMJ, 2024, 384:e074820. DOI: 10.1136/bmj-2023-074820.
[27]
CollinsGS, MoonsKGM, DhimanP, et al. TRIPOD+AI statement:updated guidance for reporting clinical prediction models that use regression or machine learning methods[J]. BMJ, 2024, 385:e078378. DOI: 10.1136/bmj-2023-078378.
[28]
杭栋, 沈洪兵. 多基因风险评分与复杂性疾病风险预测和精准预防:机遇和挑战[J]. 中华流行病学杂志, 2019, 40(9):1027-1030. DOI: 10.3760/cma.j.issn.0254-6450.2019.09.001.
HangD, ShenHB. Application of polygenic risk scores in risk prediction and precision prevention of complex diseases:opportunities and challenges[J]. Chin J Epidemiol, 2019, 40(9):1027-1030. DOI: 10.3760/cma.j.issn.0254-6450.2019.09.001
 
 
展开/关闭提纲
查看图表详情
回到顶部
放大字体
缩小字体
标签
关键词