廖姣姣; 陶立元; 许璐; 赵一鸣

doi:10.3760/cma.j.cn112140-20230717-00452

点赞 0
分享 0
收藏 0
纠错

• 临床研究方法学园地 •

二分类或生存结局时预测模型建立研究的样本量计算

中华儿科杂志, 2023,61(9) : 804-804. DOI: 10.3760/cma.j.cn112140-20230717-00452

临床预测模型通过组建包含多个预测因子的回归方程，预测个体当前患有某病或未来发生某结局事件的概率。建立预测模型所需要的训练集数据大多来源于横断面研究、队列研究、电子病例系统等。为确保预测模型的预测准确性和不出现过拟合等现象，训练集的样本量必须足够大。本文介绍在预测结局为二分类或生存结局时，建立预测模型的样本量估算方法。

引用本文: 廖姣姣, 陶立元, 许璐, 等. 二分类或生存结局时预测模型建立研究的样本量计算 [J] . 中华儿科杂志, 2023, 61(9) : 804-804. DOI: 10.3760/cma.j.cn112140-20230717-00452.

参考文献导出: Endnote NoteExpress RefWorks NoteFirst 医学文献王

扫描看全文

正文

作者信息

基金 0 关键词 0

English Abstract

阅读 0 评论 0

相关资源

引用 | 论文 | 视频

版权归中华医学会所有。

未经授权，不得转载、摘编本刊文章，不得使用本刊的版式设计。

除非特别声明，本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。

一、经验原则法

常用的有两种，10倍变量（10 events per variable，10 EPV）和10倍预测参数（10 events per candidate predictor parameter，10 EPP）。10 EPV即每纳入一个预测变量，至少应在发生事件组有10例样本。10 EPP规则简单，使用更广泛。10 EPP强调的是预测模型构建之初预期纳入的预测变量个数，而10 EPV则往往是指预测模型构建完成后最终纳入模型的预测变量个数。但二者都是用变量数估计模型中参数项。10 EPP数量的样本是否合理也存在一些争议，有的学者建议5 EPP，有的则建议为15~50 EPP。EPP的使用需要结合具体情境，它不仅与预测参数相关事件的数量有关，也受参与研究的人数、研究人群中结局事件的发生率以及模型预期预测性能的影响。

二、逐步估计法

基本思想是从4个方面考虑预测模型的样本量，逐个角度估计最终取其中的最大值。（1）实现模型准确估计结局的发生率所需的样本量。若要将模型应用于目标人群中的个体并准确估计结局的发生率，使得可信区间较小，往往需要有足够的样本支持，因此该步骤中样本量的估计是依据可信区间法。（2）使得模型预测误差最小的样本量。对于预测模型而言，其预测值与实测值之间差异（预测误差）越小越好，预测模型的平均绝对误差（mean absolute prediction error，MAPE）最小时，该预测模型的预测准确性应该足够好。对于二分类结局来说，需要预先设定预测参数的数量和目标人群中预期结局事件的发生率，然后依据公式进行估算：样本量 $n = e x p {[- 0.508 + 0.259 l n (ϕ) + 0.504 l n (P) - l n (M A P E)] / 0.544}$ ，ϕ代表预计目标人群中预期结局事件的发生率（≤0.05），P代表预测参数的数量。（3）最小化过度拟合需要的样本量。过度拟合是预测模型的禁忌，因此在其样本量估算中需要考虑此内容。 $n = P / [(S - 1) \times l n (1 - R_{C S}^{2} / S)]$ ，S一般取0.9（这是防止模型过拟合惩罚指标），P是预测参数个数，R2 CS是评价模型性能的指标，数值越小所需的样本量越大，R2 CS数值的设定应较为保守，需要参考外部文献证据和专家意见。（4）考虑模型优化的问题。max（R2 CS）表示R2 CS的最大可能值，由目标人群中结局事件发生率决定，对于Logistic模型，结局事件发生率分别为0.5、0.4、0.3、0.2、0.1、0.05和0.01时，对应的max（R2 CS）分别为0.75、0.74、0.71、0.63、0.48、0.33和0.11。可根据事先设定的预期R2 CS和max（R2 CS）及较小的容许误差δ计算样本量。

引用本文：

廖姣姣, 陶立元, 许璐, 等. 二分类或生存结局时预测模型建立研究的样本量计算[J]. 中华儿科杂志, 2023, 61(9): 804-804. DOI: 10.3760/cma.j.cn112140-20230717-00452.

贡献者信息

廖姣姣

北京大学第三医院临床流行病学研究中心，北京　100191

陶立元

北京大学第三医院临床流行病学研究中心，北京　100191

许璐

北京大学第三医院临床流行病学研究中心，北京　100191

赵一鸣

北京大学第三医院临床流行病学研究中心，北京　100191

通信作者

赵一鸣

北京大学第三医院临床流行病学研究中心，北京　100191

Email：yimingzhao115@163.com

利益冲突

引用本文：

廖姣姣, 陶立元, 许璐, 等. 二分类或生存结局时预测模型建立研究的样本量计算[J]. 中华儿科杂志, 2023, 61(9): 804-804. DOI: 10.3760/cma.j.cn112140-20230717-00452.

历史

出版日期：2023-09-02

收稿日期：2023-07-17

本文编辑

孙艺倩

No English Abstract Available

共有条评论

验证码

本文被引情况 CSCD: 0次万方数据： 0次 Scopus: 0次

施引文献(最多仅列5条文献，进入CSCD官网发现更多)

未获取施引文献信息...

暂无相关资源