无论医学研究本身的样本量大小与变量多少,规范、科学地呈现统计结果对于正确解读研究结果都至关重要。一般情况下,一篇医学研究论文会围绕一个核心研究问题呈现统计分析结果。在采用图表呈现统计分析结果时,图表之间应体现严密的内在逻辑关系,并不是图表越多越好。本文根据研究设计类型阐述了相应统计分析流程,并介绍了常用统计分析方法的选择及可参考的统计报告规范。本文就医学研究统计分析框架及常用统计方法进行归纳举例,以帮助研究者合理分析数据,提高医学研究的科学性与可靠性。






经全国继续医学教育委员会批准,本刊开设继教专栏,每年从第1期至第5期共刊发6篇继教文章,文后附5道单选题,读者阅读后可扫描标签二维码答题,每篇可免费获得Ⅱ类继教学分0.5分,全年最多可获3分。
医学统计学是运用概率论与数理统计的原理及方法,结合医学实际,研究数据资料的搜集、整理、分析与推断的一门学科[1]。无论医学研究本身的样本量大小与变量多少,规范、科学地呈现统计结果对于研究结果的解读都至关重要。为了确保研究结果的透明性与无偏倚报告,“临床试验报告的统一标准”CONSORT声明[2]、“增强流行病学中观察性研究的报告规范”STROBE声明[3]等均针对研究结果部分列出了统计结果报告的核心内容清单。但是,笔者在审稿过程中常常发现许多医学研究缺少清晰的统计分析设计,导致研究结果部分呈现了大量数据,但数据之间内在逻辑不清楚,无法为回答研究问题提供准确有效的证据。此外,由于统计分析方法纷繁复杂,且不易辨析,研究者在分析、报告和解读研究数据的过程中,可能并不了解不同方法的适用条件与应用情境,造成误用、滥用,影响研究证据质量,甚至导致错误的结论。为了提高医学研究统计分析的规范性与科学性,特撰写本文,以阐述如何针对不同的研究问题构建统计分析框架,并选择适用的统计分析方法。本文将通过归纳举例的形式,介绍医学研究的统计分析流程,以帮助研究者合理分析数据,得到可靠的研究结论。
1. 常用医学研究设计类型:通常以是否进行人为干预为划分标准,将以人为研究对象的医学研究划分为观察性研究和实验性研究。其中,观察性研究包括横断面研究、队列研究、病例对照研究等[4]。横断面研究通过调查特定时点和范围内人群疾病或健康状态的分布,从而获得患病率信息,有助于发现高危人群,并提供病因线索。队列研究根据特定人群是否暴露于某个待研究的危险因素或暴露程度分为不同的亚组,通过随访观察亚组的预期结局发生情况,比较结局发生率,从而评价危险因素与结局的关系。与之相反,病例对照研究以是否患有某种疾病分组,通过询问、实验室检查或复查病史,搜集既往各种可能的危险因素暴露史,比较病例组与对照组中各因素的暴露比例,从而判断各因素与疾病间的关联程度。实验性研究以随机对照试验为主,通过随机分组,并对不同组实施不同的干预,能够最大程度地避免研究设计、实施过程中可能出现的各种偏倚,得到可靠的因果推论。
2. 统计分析框架构建:在明确研究设计类型后,需进一步结合研究问题或研究假设,构建恰当的统计分析框架(图1)。若研究问题不涉及因果推断,研究变量通常为疾病或健康结局,此时应考虑横断面研究,对研究变量进行描述,并比较三间分布,以获得患病率信息。若研究问题涉及因果推断,则研究变量通常既包含疾病或健康结局,又包含预测因素,此时,若采用病例对照研究,需以结局分组,调整混杂后比较预测因素,以获得预测因素与结局的关联信息;若采用队列研究或随机对照试验,需以预测因素分组,并比较基线特征,若基线可比,可直接比较结局,若基线不可比,还需调整混杂后再比较结局。


注:RCT为随机对照试验
1. 统计分析流程:一般情况下,一篇医学研究论文会围绕一个核心研究问题呈现统计分析结果。在采用图表呈现统计分析结果时,图表之间应体现严密的内在逻辑关系,并不是图表越多越好。下文将按不同研究设计类型展示统计分析流程。
(1)横断面研究:横断面研究的主要目的为描述疾病或健康状态在人群中的分布,并探索各种因素与疾病或健康状态之间是否存在统计关联[4],因此,在进行统计分析时,应着重关注研究对象的代表性与统计结果的外推性。首先通过流程图等形式给出目标人群、抽样方法、入选标准和筛选流程,以展示样本来源;随后描述样本特征,尤其是研究关注的变量(如患病率、疫苗接种率、规律体检率等)在样本人群中的分布情况;继而通过亚组分析进一步了解研究关注的变量在不同特征亚人群中的分布;如有必要,以研究关注的疾病或健康状态(如是否患病)为分组变量,比较人群特征在不同组间的分布是否存在差异,如果人群特征与疾病或健康状态存在统计学关联,则可形成研究假设,即该特征是导致疾病或健康结局发生的潜在影响因素[1]。
例如,在“中国成人肺部健康研究”中,研究者关注的是我国20岁以上人群慢性阻塞性肺疾病(简称为慢阻肺)患病率[5],其统计分析流程如下:①绘制流程图,展示研究对象的抽样与筛选方法,即采用多阶段分层整群抽样,首先从全国30个省区市中按地理区域分层抽取8个省、自治区和2个直辖市,其次从每个省、自治区中按经济水平分层各抽取1个大城市、1个中型城市、1个经济发达县和1个经济欠发达县,接着从每个城市中随机抽取2个市区、从每个县中随机抽取2个乡镇、从每个直辖市中随机抽取4个市区和4个乡镇,最后从每个市区或乡镇中随机抽取2个社区,并从每个社区中按性别和年龄分层抽取20岁以上的个人(每个家庭仅选择1人),为每个签署知情同意的个人进行肺功能检查,排除未能完成肺功能检查或肺功能测量值不合格的参与者;②列表描述研究对象的基本特征,包括年龄、城乡分布、教育水平、吸烟史、污染物暴露史、呼吸系统疾病史等,由于慢阻肺在不同性别间存在显著差异,因此分性别进行上述特征的统计描述;③计算慢阻肺的患病率及其95%CI,考虑到慢阻肺受吸烟影响,列表描述总人群及非吸烟人群中分性别、年龄、城乡等亚组的慢阻肺患病率,以此提出初步的因果假设;④基于以上因果假设,采用多因素分析,探索慢阻肺的潜在影响因素。
(2)队列研究:队列研究的主要目的为检验暴露与结局的关联,通常以暴露与否或暴露剂量分组,比较不同组别研究人群的基线特征及结局事件发生情况,并采用多因素分析校正潜在混杂,以获得暴露对结局的独立影响[1]。由于队列研究可以通过随访建立变量间的时间顺序,因此在因果推断中存在显著优势[4]。但队列研究受到失访及数据缺失的影响,需要在统计分析时予以充分考虑。
例如,在“中国慢性病前瞻性研究”中,研究者关注的是我国30~79岁人群中水果摄入与心血管事件的关系[6],其统计分析流程如下:①以水果摄入频率(从不或很少摄入、每月摄入、每周1~3 d摄入、每周4~6 d摄入或每日摄入)为分组变量,列表描述不同组研究对象的基线特征,包括年龄、性别、城乡分布、教育程度、收入水平、吸烟史、饮酒史、体力活动及其他食物摄入量等;② 比较不同水果摄入频率组的心血管事件发生风险,以水果摄入频率为横坐标,心血管事件发生风险为纵坐标,绘制线图,呈现二者的剂量反应关系;③ 采用多因素分析调整不同水果摄入频率组中不可比的混杂因素,列表展示调整后水果摄入频率对心血管事件的风险比(HR)及其95%CI;④ 针对重要的心血管事件影响因素进行亚组分析,分性别、年龄、城乡等计算水果摄入频率与心血管事件的关联,以阐明该关联在不同特征人群中是否一致,为因果推断提供更多证据。
(3)病例对照研究:病例对照研究的主要目的为探索疾病的危险因素,或验证病因假说。不同于队列研究,通过观察从暴露到结局的时间顺序来推断因果,病例对照研究从疾病反推成因,可以经济、高效地获取信息,尤其适用于罕见病相关研究[4]。在统计分析时,通常以病例和对照分组,比较不同组别研究人群的基本特征及暴露分布情况,并采用多因素分析校正潜在混杂,以获得暴露与结局的独立关联[1]。由于病例对照研究可能暴露于选择偏倚和信息偏倚,因此病例与对照的合理选择尤为重要,需通过流程图进行详细阐释。同时,考虑到对照比病例相对更容易获得,病例对照研究多采用匹配设计,此时应采用匹配设计的统计方法予以分析。
例如,在“魁北克健康保险计划研究”中,研究者关注的是加拿大66岁以上人群接触苯二氮䓬与阿尔茨海默症的关系[7],其统计分析流程如下:①绘制流程图,展示研究对象的筛选方法,即从2000至2009年魁北克健康保险数据库中选择首次诊断为阿尔茨海默症(ICD-9编码331.0)的老年人作为病例,要求此前未被诊断为其他痴呆症且持续随访至少6年,并为每个病例随机选择4个性别、年龄和随访时间匹配的对照;②以病例(患阿尔茨海默症)和对照(未患阿尔茨海默症)为分组变量,列表描述不同组研究对象的基本特征与苯二氮䓬暴露量;③采用多因素分析调整潜在混杂因素,列表展示调整后苯二氮䓬对阿尔兹海默症的比值比(OR)及其95%CI。
(4)随机对照试验:随机对照试验的主要目的为验证临床治疗的有效性及安全性。由于观察性研究不受人为控制,受偏倚风险的影响较大,而随机对照试验通过随机分配、盲法等形式,尽可能在研究实施的各个环节减少了偏倚发生的可能性,因此被视为因果推断的“金标准”,通常可以直接通过组间比较获取确证性结果[4]。但随机对照试验的入选标准及研究环境设定相对严格,需采用流程图等形式展示研究对象的筛选、随机和随访过程,并阐明不同分析集的确定方法与样本含量。同时,如果试验存在严重的不良事件或不良反应,需在统计分析中充分说明[2]。
例如,在吉西他滨联合顺铂诱导化疗治疗鼻咽癌的Ⅲ期多中心平行随机对照试验中,研究者关注的是吉西他滨联合顺铂诱导化疗+放化疗与单纯放化疗相比,是否能改善我国鼻咽癌患者的无复发生存率[8],其统计分析流程如下:①绘制流程图,展示研究的实施步骤及研究人群的确定方法,即首先将鼻咽癌患者随机分成两组,一组242人接受诱导化疗+放化疗,一组238人接受单纯放化疗(意向性治疗人群),其中诱导化疗+放化疗组中有239人开始了诱导化疗,234人开始了同期放化疗,单纯放化疗组中有237人开始了放化疗(安全性人群),最终诱导化疗+放化疗组中有218人完成了3个周期的诱导化疗和2~3个周期的放化疗,单纯放化疗组有177人完成了3个周期的放化疗(符合方案人群);②以不同干预措施为分组变量,列表描述不同组患者的基线特征;③绘制生存曲线,比较不同干预组患者的无复发生存率、总生存率、远处无复发生存率及局部无复发生存率等;④评估不同干预组对无复发生存的相对危险度(RR)及其95%CI。随机对照试验一般不考虑采用多因素分析调整混杂因素。
2. 常用统计分析方法选择建议:在明确各研究设计类型的常规统计分析流程后,即可针对不同数据类型选择适宜的统计分析方法(表1)。医学研究的数据类型一般分为连续变量、分类变量和生存变量。连续变量如年龄、白细胞计数等,根据分布情况又分为正态分布与非正态分布;分类变量如性别、疾病分型等,又分为二分类变量、无序多分类变量和有序多分类变量(等级变量);生存变量如3年心血管事件发生率、5年无进展生存率等,具有连续变量和分类变量的共同特征,既包含事件发生时间信息,又包含是否发生事件信息,需在分析时予以特别关注。

常用统计分析方法选择
常用统计分析方法选择
分析目的 | 连续变量 | 分类变量 | 生存变量 | |||
---|---|---|---|---|---|---|
正态分布 | 非正态分布 | 二分类 | 无序多分类 | 有序多分类 | ||
统计描述 | 均数、标准差 | 中位数、四分位间距 | 频数、百分比 | 频数、百分比 | 频数、百分比 | Kaplan-Meier曲线 |
组间比较 | ||||||
两独立样本 | 成组t检验 | Wilcoxon秩和检验 | 卡方检验 | 卡方检验 | 卡方检验 | Log-rank检验 |
两配对样本 | 配对t检验 | Wilcoxon符号秩检验 | McNemar检验 | Kappa检验 | Kappa检验 | 分层Cox回归 |
多独立样本 | 方差分析 | Kruskal-Wallis检验 | 卡方检验 | 卡方检验 | 卡方检验 | Log-rank检验 |
因果关联 | 线性回归 | 正态转换后采用线性回归 | 二分类Logistic回归 | 多分类Logistic回归 | 有序Logistic回归 | Cox回归 |
(1)统计描述:统计描述通常用于展示研究对象的基本特征,以了解变量在人群中的分布情况。正态分布的连续变量采用ˉx±s描述其平均水平与变异程度,非正态分布的连续变量则采用中位数(四分位间距)来描述;分类变量采用频数(百分比)描述其分布情况;生存变量可考虑采用Kaplan-Meier曲线来描述生存率随时间的变化。
(2)组间比较:组间比较通常用于检验两组或多组样本是否来源于同一总体,在比较研究对象的基本特征时起到重要作用。在处理两独立样本的组间比较时,正态分布的连续变量采用成组t检验,非正态分布的连续变量则采用Wilcoxon秩和检验;分类变量采用卡方检验;生存变量采用Log-rank检验。类似的,在处理多独立样本的组间比较时,分类变量和生存变量还可以采用卡方检验及Log-rank检验;但为了避免多重比较带来的假阳性错误膨胀,正态分布的连续变量需采用方差分析,非正态分布的连续变量需采用Kruskal-Wallis检验。而在处理两配对样本的组间比较时,不能将独立样本的统计方法直接套用,正态分布的连续变量需采用配对t检验,非正态分布的连续变量需采用Wilcoxon符号秩检验;二分类变量需采用McNemar检验,多分类变量需采用Kappa检验;生存变量采用分层Cox回归。
(3)关联分析:关联分析通常用于评估两变量间是否存在潜在因果关系。随机对照试验通过基线随机化可以充分均衡不同干预组间已知或未知的混杂因素,因此可以直接采用试验组事件发生风险(Risk1)除以对照组事件发生风险(Risk0)获得统计学关联,即RR=Risk1/Risk0,再计算RR值的95%CI评估其不确定性。队列研究与病例对照研究常常需要处理混杂后获得变量间的独立关联,即混杂调整后的RR值或OR值。在选择混杂调整统计方法时,连续变量应经正态转换后采用多因素线性回归进行关联分析;分类变量采用多因素Logistic回归;生存变量采用多因素Cox回归。
完成统计分析后,还需对统计结果进行规范化报告,以提升研究的透明性与可重复性。观察性研究可参考STROBE声明[3],实验性研究可参考CONSORT声明[2],对研究结果进行充分、合理的报告。笔者此前对比不同医学研究报告指南,将其中普遍涉及的统计事项进行总结,并逐条解读[9],可在研究报告或论文撰写时予以参考。
综上所述,在进行医学研究的统计分析时,需首先明确研究设计类型,搭建统计分析框架,并以此为基础,设计统计分析流程,之后根据每部分分析的目的与数据类型选择恰当的统计方法,最后需对统计结果进行合理报告,以规范、科学地呈现研究结果。上述步骤可以帮助研究者解决大多数常用的统计分析问题,然而,在实际工作中,针对不同研究目的,研究者面临的问题可能千变万化。因此,应明确分析思路,结合统计与临床专业知识,并参考已有文献,以全面、合理地解决临床问题。
所有作者均声明不存在利益冲突
1. 以下哪种研究设计类型一般不适用于回答因果推断问题( )
A. 横断面研究
B. 队列研究
C. 病例对照研究
D. 随机对照试验
2. 关于队列研究与病例对照研究,以下说法错误的是( )
A. 队列研究与病例对照研究均为观察性研究
B. 队列研究与病例对照研究通常以预测因素为分组变量,比较不同组研究对象的结局事件发生情况
C. 队列研究与病例对照研究通常需采用多因素分析校正潜在混杂
D. 队列研究通常通过观察从暴露到结局的时间顺序来推断因果,而病例对照研究通常从疾病反推成因
3. 关于随机对照试验,以下说法正确的是( )
A. 随机对照试验无法用于回答因果推断问题
B. 随机对照试验的入选标准及研究环境设定相对严格,因此受偏倚风险的影响较大
C. 随机对照试验通常以是否发生结局事件为分组变量,比较不同组患者的干预措施分配情况
D. 随机对照试验一般不考虑采用多因素分析调整混杂因素
4. 不服从正态分布的连续变量一般采用以下哪种方法进行统计描述( )
A. 均数、标准差
B. 中位数、四分位间距
C. 频数、百分比
D. Kaplan-Meier曲线
5. 对于两独立样本,分类变量一般采用以下哪种方法进行组间比较( )
A. McNemar检验
B. Wilcoxon秩和检验
C. 卡方检验
D. Kappa检验











