继续教育园地
健康管理学研究中的样本量估计
中华健康管理学杂志, 2021,15(2) : 205-208. DOI: 10.3760/cma.j.cn115624-20210105-00014
摘要

充足的样本量是研究结果科学性和可靠性的必要保障。但回顾健康管理领域以往研究发现,多数研究论文缺少样本量估计内容的阐述。本文通过强调样本量估计的必要性,同时介绍了影响样本量的因素以及常见的样本量计算方法,可帮助研究者初步了解和掌握样本量计算的大致过程,所需的参数,以及常见的样本量计算方法。希望读者通过阅读本文可以提高样本量计算的意识和能力,进一步促进健康管理学研究的规范化,从而提高研究的科学性和研究结果的可靠性。

引用本文: 曾琳, 陶立元, 赵英帅. 健康管理学研究中的样本量估计 [J] . 中华健康管理学杂志, 2021, 15(2) : 205-208. DOI: 10.3760/cma.j.cn115624-20210105-00014.
参考文献导出:   Endnote    NoteExpress    RefWorks    NoteFirst    医学文献王
扫  描  看  全  文

正文
作者信息
基金 0  关键词  0
English Abstract
评论
阅读 0  评论  0
相关资源
引用 | 论文 | 视频

版权归中华医学会所有。

未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。

编后

经全国继续医学教育委员会批准,本刊开设继教专栏,每年从第1期至第5期共刊发6篇继教文章,文后附5道单选题,读者阅读后可扫描标签二维码答题,每篇可免费获得Ⅱ类继教学分0.5分,全年最多可获3分。

健康管理学是研究人的健康与影响健康的因素以及健康管理相关理论、方法和技术的医学学科1。关注健康、亚健康 (亚临床、慢性病风险人群)和慢性病早期或康复人群,重点是健康风险因素的评估、干预和慢性病的管理2。为了更好的指导健康管理实践,相关研究结果的科学性和可靠性是评价研究价值的重要基础。无论健康状况的横断面调查、健康相关危险因素探索,还是健康管理干预措施的效果评价,都需要有充足的样本量保证。本文旨在介绍开展健康管理学研究中的样本量估计方法,以期促进相关研究得到科学、可靠的结果和结论。

健康管理领域的研究应是一种有计划的科研活动,样本量估计是研究计划中的重要组成部分,也是其中具有挑战性的工作之一。健康管理学研究经常探索的健康状况的调查需要有充足数量的研究对象来保证其代表性和结果可信性,且样本量的大小还将影响我们对健康水平的估计的精度。在探索影响健康相关因素时,如果缺少样本量的保证,可能会得到假阴性或假阳性结果,影响其中科学规律的发现;在验证健康管理干预措施效果时,更需要有充足的样本量才能保证干预措施评价的准确性和可靠性。但目前健康管理领域相关研究论文中,即便是验证性随机对照试验(randomized clinical trial,RCT)论文中,研究方法部分对样本量估计展开阐述的文章数量也较少。笔者曾经采用临床试验报告统一标准(consolidated standards of reporting trials,CONSORT)来评价《中华健康管理学杂志》中创刊至2019年7月所有随机对照试验文献,发现纳入分析的57篇文献中,仅1篇文献提及了样本量估计3。此后通过分析2019年7月至2020年12月《中华健康管理学杂志》刊出的随机对照试验文献,发现14篇文献中也仅有1篇文献详细介绍了样本量估计过程4。健康管理领域相关研究论文缺少样本量估计内容的阐述可能由于研究者不了解如何针对研究目标进行样本量估计,或者不了解如何规范的阐述样本量估计的内容。因此本文将介绍影响样本量的相关因素以及简要介绍常用样本量计算方法。

一、影响样本量的因素

样本量估计并不仅仅是套用样本量计算公式进行运算。做好样本量估计首先需要梳理研究思路,理清研究的主要目标,考虑影响样本量的因素,寻找合适的参数展开相关计算。一般影响样本量大小及进行样本量估计前应思考的因素有以下这些:

1. 研究设计类型:例如横断面调查中,希望了解一下我国人群的某慢性病患病率;或者开展一个自身前后对照研究,比较健康管理措施实施前后效果如何;或者设计一个随机对照临床试验,比较健康管理方案实施效果的差别;还可能研究中需要开展生存分析,比较不同健康管理策略对长期生存的影响。不同的研究设计类型,其样本量估计方法是不同的。

2. 研究主要结局指标及其预期数值:制定研究设计方案之初,需要重新梳理研究目标,确定研究中需要探索或比较哪些指标,其中哪些是主要指标,哪些是次要指标。一般依据研究的主要评价指标进行样本量估计,因此在样本量估计时需要寻找主要指标预期的结果。比如一个随机对照试验,主要终点评价指标是健康干预措施的有效率,需要对要比较的两种干预效果的有效率,或者效果差异(有效率差),或有效率的相对指标(RR/HR值)进行预估才能开展样本量估计。效应量的预估最好来自预实验的结果,次之是文献报告的结果,最次的是专家咨询的结果。

3. 研究的统计假设和界值的大小:此处的统计假设指的是组间差异比较的假设,不同的统计假设以及界值大小的选择都将影响样本量估计。以两组间的比较为例,最常见的统计学假设检验为差异性假设。即原假设H0为两组主要评价指标相等,备择假设H1为两组主要评价指标不相等。除了组间差别以0为参照的差异性检验外,研究结果需要根据实践应用价值的大小来判断,因此研究者会开展以界值Δ为参照的等效、优效和非劣效假设的研究5。界值Δ是研究者参考了学术界的认识以及此前的研究成果所设定的最小临床意义差值(minimal clinically important difference,MCID)6,比如研究者假定A健康管理方案(试验组)非劣效于B健康管理方案(对照组),取非劣效界值δ=10 mmol/L,也就是如果研究结果显示A组效果比B组差10 mmol/L以内,都可以认为A健康管理方案非劣效于B。界值Δ的选择需要审慎,取值过大会使一些效果不好的健康管理措施得以推广应用,过小又会影响可能有效的健康管理措施的推广。确定Δ的方法有很多,可基于以往研究中有效干预与安慰剂效果差值获得,也可通过meta分析来确定,还可以根据专家共识形成7

4. 容许统计错误的概率:这包括Ⅰ类错误和Ⅱ类错误,Ⅰ类错误的概率α一般取0.05;Ⅱ类错误的概率大小β,等于1-把握度(power),一般取0.1或0.2。理解Ⅰ类错误和Ⅱ类错误请参考下图。Ⅰ类错误α是指没有接受正确的H0的概率。Ⅱ类错误β是指没有拒绝错误的H0的概率,也就是接受错误的H0的概率。当β=0.1或0.2时,即研究都有90%或80%的把握拒绝假的H0

点击查看大图
图1
Ⅰ类错误和Ⅱ类错误
点击查看大图
图1
Ⅰ类错误和Ⅱ类错误

5. 其他参数:其他参数包括单侧或双侧检验、横断面研究中的抽样方法,如完全随机抽样、整群抽样、多阶段抽样等。考虑到上述因素的影响,需要对样本量进行适当的调整。除此之外,在纵向研究中还需要考虑研究对象失访的比例。

二、常见样本量计算方法

当梳理好研究目标和主要指标,并从预实验或相关文献中获取了相关参数后,就可以展开样本量的计算。样本量的计算可以通过公式法来进行计算;也可以利用样本量计算专用软件如PASS、nQuery、G-power等以及常用的统计分析软件如R、SAS进行样本量计算;此外,还可以通过一些在线工具如Power And Sample Size (http://powerandsamplesize.com/Calculators/)以及微信公众号小工具(“临床流行病学和循证医学”公众号中的“样本量计算”菜单)来完成计算。下面以公式法为例介绍几种常用的样本量计算过程。

1. 单样本均数的样本量估算:当开展健康相关状况的横断面调查时,需要有充足数量的研究对象来保证其代表性和测量精度。如果健康相关状况的测量指标是计量资料(连续变量)应通过单样本量均数参数估计的样本量计算公式开展样本量计算,如公式1所示。其中δ 代表允许误差即测量精度,σ 代表该指标是人群中的标准差,α为犯Ⅰ类错误的概率,一般双侧取0.05即Z1-α/2=1.96。

公式1:n=(Z1-α/2σδ)2

例如要在某社区老年人群中进行空腹血糖水平的测量,了解老年人群中血糖水平的分布。计算样本量前应确定该人群中空腹血糖的标准差即个体间血糖的变异,以及研究期望的测量精度即希望对老年人群空腹血糖均数的估计的精确度。把这些参数代入上述公式即可得到需要纳入的样本含量。假设人群的空腹血糖标准差为1.3 mmol/L,希望调查的测量精度为0.1 mmol/L,则该横断面调查需要的有效样本为650例。计算结果是需要纳入的最小样本量,研究者还应考虑到拒访的可能,需要适当的扩大样本量。根据既往经验,社区中横断面调查的拒访比例约为30%,则实际需要纳入的样本量为650÷(1-30%)≈929例。

2. 单样本率的样本量估算:单样本率的样本量估算的应用场景与单样本均数的估算相似,不同的是研究的健康相关状况的测量指标是计数资料(分类变量)。计算公式如公式2所示, 其中p代表样本率,即对研究人群中需要测量率或比例的估计;δ代表允许误差,即测量精度;α为犯Ⅰ类错误的概率,一般双侧取0.05。

公式2:n=Z1-α2δ2p(1-p)

例如要在某社区老年人群中进行空腹血糖水平的测量,了解老年人群中空腹血糖异常的比例。此时我们要测量评价的指标从连续变量转化为分类变量。假设人群的空腹血糖异常的比例是20%,希望调查的测量精度为2%,则该横断面调查需要的有效样本为1 537例。如果假设拒访比例仍为30%,则实际需要纳入的样本量为650÷(1-30%)≈2 196例。

3. 两独立样本均值的差异检验:健康管理学领域大量的研究需要进行组间比较,如不同健康管理措施或方案干预效果的比较。如果干预效果的评价指标是计量资料(连续变量),且研究的统计假设为差异性检验(即比较两组均数是否相等),则应通过两独立样本均值比较样本量计算公式展开计算。如公式3所示,其中δ表示估计两组均数之差,σ1为第一组的标准差,σ2为第二组的标准差,α一般取双侧0.05,β为犯Ⅱ类错误的概率,一般取0.1或0.2(对应Z1-β/2=1.65和1.28),k代表两组样本量的比例,k=n1/n2。当认为两组标准差相等为σ,组间比例为1∶1时,则公式可以简化为公式4所示。

公式3:n2=z1-α/2+z1-β2(σ12+σ22)1+1/kδ2, n1=kn2

公式4:n1=n2=z1-α/2+z1-βσ2δ2

如谢玉珍等在“回授式肺康复指导在老年慢性阻塞性肺疾病稳定期患者自我管理中的效果观察”研究中进行的样本量估算部分中提及的4:预计两组自我管理能力得分分别为202.35和183.44,两组标准差相等为7.7,单侧α=0.025,β=0.2,通过公式计算每组需要纳入约45例,考虑15%的失访率,两组共应纳入106例研究对象。

4. 两独立样本率的差异检验:当两组间比较的评价指标为计数资料(分类变量)时,则应通过两独立样本率的差异检验样本量计算公式开展计算。如公式5所示,其中p1为第一组的率,p2代表第二组的率,α为Ⅰ类错误(双侧0.05),β为Ⅱ类错误(0.1或0.2),k=n1/n2。同样的,如果组间比例为1∶1则公式也可以简化为公式6。

公式5:

n 2 = ( z 1 - α / 2 + z 1 - β ) 2 [ p 1 1 - p 1 k + p 2 ( 1 - p 2 ) ] ( p 1 - p 2 ) 2 ,   n 1 = k n 2

公式6:

n 1 = n 2 = ( z 1 - α / 2 + z 1 - β ) 2 [ p 1 ( 1 - p 1 ) + p 2 ( 1 - p 2 ) ] ( p 1 - p 2 ) 2

如设计一个RCT,比较A、B两种健康管理方案对社区中血脂异常患者血脂控制的效果,评价指标为血脂达标率。A、B两组的比例为1∶1,假设A组干预后血脂达标率为81.1%,B组为67.4%,α为双侧0.05,β=0.2。代入公式6计算得到样本量为n1=n2=156,考虑到20%失访,需要纳入156×2÷0.8=390例。

5. 两独立样本均值的非劣效检验:同样为健康管理措施干预效果的比较研究,如果此时的统计假设不是差异性假设,而是可以容许A方案稍逊于B方案,但组间效果的差异不能有临床意义,此时需要采用非劣效检验的样本量计算方法。当比较的评价指标是连续变量时,应采用两独立样本均值的非劣效检验样本量计算公式,如公式7所示。其中,(μ12)为两组均数之差,σ为标准差(假设两组相同),Δ为非劣效性界值,α为Ⅰ类错误(单侧0.025),β为Ⅱ类错误(0.1或0.2),k=n1/n2

公式7:n2=z1-α+z1-β2σ2(1+kk)(μ1-μ2+)2, n1=kn2

如已知对血脂异常患者血脂管理常规措施为强化管理,强化管理实施后,患者低密度脂蛋白胆固醇水平为(2.96±0.70) mmol/L。但是该强化管理方法在西部地区推广实施难度很大,因此改良了可行性更好的一种新的血脂管理方案,预计实施后,患者低密度脂蛋白胆固醇水平为(2.99±0.80) mmol/L。经过meta分析发现,0.30 mmol/L是低密度脂蛋白胆固醇最小临床意义差值,即Δ=0.40 mmol/L。设RCT研究组间比例为1∶1,α为单侧0.025,β=0.2。代入公式7,计算得到样本量为n1=n2=123,考虑到20%失访,需要纳入123×2÷0.8=308例。

6. 两独立样本率均值的非劣效检验:同样是非劣效的统计假设,当比较的评价指标是分类变量时,应采用两独立样本率的非劣效检验样本量计算公式,如公式8所示。其中,p1、p2分别为两组率,Δ为非劣效性界值,α为Ⅰ类错误(单侧0.025),β为Ⅱ类错误(0.1或0.2),k=n1/n2

公式8:

n 2 = ( z 1 - α + z 1 - β ) 2 [ p 1 1 - p 1 / k + p 2 ( 1 - p 2 ) ] (   p 1 - p 2 + Δ ) 2 ,   n 1 = k n 2

与两独立样本均值非劣效检验的示例相同,只是此时血脂控制的主要评价指标不是低密度脂蛋白胆固醇水平,而是血脂达标率。强化管理的血脂达标率是70.1%,而改良管理的达标率是69.6%,经meta分析,MCID=4%。同样的研究组间比例为1∶1,α为单侧0.025,β=0.2。代入公式8,计算得到样本量为n1=n2=182,考虑到20%失访,需要纳入182×2÷0.8=455例。

无论开展哪种类型的健康管理学研究,充足的样本量是研究结果科学性和可靠性的必要保障。此外,从伦理学保护研究对象(受试者)的角度考虑,医学研究尤其试验性研究中应纳入充足但尽量少的研究对象。因此,我们在制定研究计划时需要解决的一个基本问题就是应纳入最少多少例研究对象以满足研究的需求。也就是说,在研究开始实施前,研究者必须恰当的估计研究样本量以实现研究目标。本文通过强调样本量估计的必要性,同时介绍了影响样本量的因素以及常见的样本量计算方法,可帮助研究者初步了解和掌握样本量计算的大致过程,所需的参数和如何进行样本量计算。希望读者通过阅读本文可以提高样本量计算的意识和能力,促进健康管理学研究的规范化,增加健康管理学研究论文中介绍样本量估计相关内容的比例,提高相关研究的科学性和研究结果的可靠性。

利益冲突
利益冲突

所有作者均声明不存在利益冲突

单选题(完成以下单选题可获得Ⅱ类继续教育学分)

1. 样本量估计过程不推荐使用哪些工具或方法( )

A. 通过公式计算

B. 根据文献经验推测

C. PASS等样本量计算软件或统计软件

D. 在线样本量计算工具

2. 样本量估计中应思考以下内容( )

A. 梳理研究思路,理清研究的主要目标;

B. 考虑样本量的影响因素;

C. 寻找合适的参数展开相关计算;

D. 以上全部

3. 以下关于样本量估计指标、主要观察指标和研究目的说法正确的是( )

A. 主要观察指标可以和研究目的不完全一致;

B. 研究目标决定主要观察指标,主要观察指标应与样本量估计指标一致;

C. 用于样本量估计指标可选择比主要观察指标更敏感、组间差异更大的指标;

D. 用于样本量估计可以尝试多个不同指标分别估算,取样本量最小的指标;

4. 样本量估算的资料类型不包括( )

A. 计数资料

B. 计量资料

C. 生存资料

D. 文本资料

5. 样本量估算过程中把握度一般设置为( )

A. 2.5%或5%

B. 60%或70%

C. 80%或90%

D. 90%以上

参考文献
1
中华医学会健康管理学分会, 中华健康管理学杂志编委会. 健康管理概念与学科体系的中国专家初步共识[J]. 中华健康管理学杂志, 2009, 3(3): 141-147. DOI: 10.3760/cma.j.issn.1674-0815.2009.03.005.
2
曾强, 陈刚, 付晓霞. 抓住发展机遇,推进健康管理医学学科建设与创新发展[J]. 中华健康管理学杂志, 2020, 14(1): 1-2. DOI: 10.3760/cma.j.issn.1674-0815.2020.01.001.
3
聂燕丽, 阳洁, 石展英, . 《中华健康管理学杂志》随机对照试验的报告质量评价与研究特征分析[J]. 中华健康管理学杂志, 2020, 14(4): 339-344. DOI: 10.3760/cma.j.cn115624-20200317-00188.
4
谢玉珍, 徐玫, 周亚飞, . 回授式肺康复指导在老年慢性阻塞性肺疾病稳定期患者自我管理中的效果观察[J]. 中华健康管理学杂志, 2020, 14(3): 230-234. DOI: 10.3760/cma.j.cn115624-20200201-00035.
5
曾琳, 聂燕丽. 随机对照试验在健康管理研究中的应用[J]. 中华健康管理学杂志, 2019, 13(5): 458-464. DOI: 10.3760/cma.j.issn.1674-0815.2019.05.017.
6
PiaggioG, ElbourneDR, AltmanDG, et al. Reporting of noninferiority and equivalence randomized trials: an extension of the CONSORT statement[J]. JAMA, 2006, 295(10): 1152-1160. DOI: 10.1001/jama.295.10.1152.
7
刘玉秀, 姚晨, 陈峰, . 临床试验配对二项数据基于率比的非劣效性/等效性评价[J]. 中国卫生统计, 2008, 25(3): 317-319.DOI: 10.3969/j.issn.1002-3674.2008.03.031.
 
 
展开/关闭提纲
查看图表详情
回到顶部
放大字体
缩小字体
标签
关键词