统计方法与案例点评
诊断试验中的统计分析
中华全科医师杂志, 2017,16(12) : 984-986. DOI: 10.3760/cma.j.issn.1671-7368.2017.12.021
引用本文: 冯国双. 诊断试验中的统计分析 [J] . 中华全科医师杂志, 2017, 16(12) : 984-986. DOI: 10.3760/cma.j.issn.1671-7368.2017.12.021.
参考文献导出:   Endnote    NoteExpress    RefWorks    NoteFirst    医学文献王
扫  描  看  全  文

正文
作者信息
基金 0  关键词  0
English Abstract
评论
阅读 0  评论  0
相关资源
引用 | 论文 | 视频

版权归中华医学会所有。

未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。

诊断试验主要用于评价一种诊断方法的真实性与可靠性,通过与公认的金标准比较,检验诊断技术是否有较高的诊断价值,是否可应用于临床诊断。诊断试验在医学中应用十分广泛,本文主要介绍诊断试验中的常用指标及样本量估算问题,并分析诊断试验实施中的注意事项,为临床应用提供借鉴。

一、诊断试验实施中的注意事项
1.关于研究类型:

诊断试验并非一种流行病学研究类型,与病例对照研究、队列研究等不是同一层次上的概念。诊断试验可以是回顾性研究,也可以是前瞻性研究,还可以是横断面研究。例如,某研究以核磁作为金标准,评价某诊断技术的价值,如果同时采用核磁和该诊断技术进行诊断,然后得到各自结果并进行对比,此为横断面研究的诊断试验。再如,某研究以疾病进展作为金标准,分析某诊断方法能否提前判断疾病的进展风险,研究者对所有研究对象采用该方法进行诊断,得到其是否可能进展的结果,然后再随访观察若干时间,得到实际的进展结果,此时为前瞻性研究的诊断试验。

2.关于金标准(gold standard)的选择:

诊断试验一定要明确金标准,否则便无法准确评价诊断方法的诊断价值。金标准应是临床公认的能够正确地区分阳性和阴性的方法或技术。常用的如组织病理学检查、手术发现、影像诊断、病原体的分离培养以及长期随访结果等。有的细菌培养研究中,发现阳性的可以100%确定为真阳性,但如果结果阴性,却无法保证是真阴性,这种无法作为金标准,因为它无法区分阴性结果是真阴性还是假阴性。

3.关于研究对象的选择:

诊断试验中研究对象不是随机分组,而是以金标准的诊断结果为依据,金标准确诊为阳性的为病例组,金标准证实为阴性的为对照组。应注意对照组人群不等于健康人群,而是被金标准诊断为不患有研究疾病但又容易与所研究疾病混淆的人群。如采用某指标诊断胃癌,其研究对象应为高度怀疑胃癌的就诊患者。这些患者经金标准(如病理检查)确定为胃癌和非胃癌,然后用诊断方法进行判断。如果选择正常健康人,实际上是人为地提高了诊断方法的特异度。

4.关于盲法的实施:

诊断试验尽管无法采用盲法随机分组,但应采用盲法评价,即诊断试验结果的评判者不能预先知道金标准划分的结果,否则评判者有可能会倾向于对金标准判断为阳性的标本给出阳性结果,以致夸大诊断方法的价值。

二、诊断试验的常用评价指标

诊断试验中常用的指标主要有灵敏度、特异度和受试者工作特征曲线(ROC曲线),本系列前面文章介绍的Kappa一致性系数、组内相关系数(ICC)等指标也可用于相应的场合。

1.灵敏度和特异度:

如果一项诊断试验结果是二分类(阴性和阳性),则可将数据整理为表1所示的四格表。

点击查看表格
表1

诊断试验结果与金标准结果比较

表1

诊断试验结果与金标准结果比较

诊断结果金标准结果
有疾病无疾病
阳性a 真阳性b 假阳性
阴性c 假阴性d 真阴性

灵敏度=a/(a+c),反映了一项诊断试验能将实际患病的人正确地诊断为患者的概率;特异度=d/(d+b),表示将实际无病的人正确地诊断为非患者的概率。

灵敏度和特异度都是越高越好,然而二者往往难以兼顾,实际中需要根据研究目的有所侧重。如细菌培养中可能更关注阳性率的检出(即灵敏度),而如果一种疾病的误诊会给一个人带来严重后果(如艾滋病),则应尽量降低假阳性,提高特异度。

2.ROC曲线:

如果诊断方法的结果不是二分类资料,而是连续资料,此时无法直接计算灵敏度和特异度,通常可采用ROC曲线下面积评价诊断价值。ROC曲线是以灵敏度为y轴、以1-特异度为x轴,根据不同界值产生不同的点,由线段将这些点连接起来形成的曲线。如果诊断方法的判断结果有k(k≥2)类,则会有k-1个界值点,ROC曲线会有k条直线连接个k-1个点,如图1,诊断方法分5类,因此有5条直线连接4个点。

点击查看大图
图1
ROC曲线示意图
点击查看大图
图1
ROC曲线示意图

ROC曲线下面积介于0和1之间,一般认为,ROC曲线高于机会线,即曲线下面积>0.5才有诊断价值。曲线下面积越大,表示诊断价值越高,反之诊断价值越低。

ROC曲线还有一个很重要的用途,就是对连续资料寻找一个合理的cut-off值,将诊断指标分为两类,这样可以计算灵敏度和特异度。

例1:某研究评价两个分子标志物(分别用A和B表示)对胃癌的联合诊断价值,研究者利用ROC曲线找出A和B的cut-off值分别为1.8和5.5,研究者认为,如果同时A>1.8和B>5.5,此时预测胃癌发生的较为准确。

辨析:当同时分析两个或多个诊断指标的联合诊断价值时,不能简单地分别对每一指标找出cut-off值,然后再联合诊断。如果两个指标之间具有交互效应,二者之间会相互影响。例如,单独分析A时可能以1.8划分最佳,但考虑到B的效应后,则1.8未必是最佳的界值;同样,单独分析B时5.5是界值,但考虑到A的影响后,可能5.5就不是最佳的cut-off值了。

建议:多个指标(尤其是连续变量)的联合诊断不同于流行病学中的并联和串联,通常可采用logistic回归分析多个指标的综合预测价值,检验多指标联合与单指标的ROC曲线下面积是否有统计学差异。如果多指标联合的预测价值更高,再利用多因素logistic回归分析思路找到最佳的预测点。

三、诊断试验中的样本量估算

诊断试验的样本含量估算公式为[1]n=(Zα/22V/(d2)

式中,Zα/2表示标准正态分布1-α/2的分位数,通常取α=0.05,此时Zα/2为1.96。

V表示相应指标的方差,根据不同指标而不同。如果根据灵敏度计算样本量,则V=灵敏度×(1-灵敏度);如果根据特异度计算样本量,则V=特异度×(1-特异度);如果根据ROC曲线下面积来计算,则V=[(0.009 9×exp(-a2/2)]×[(5a2+8)+(a2+8)/k],其中aΦ-1(A)×1.414,Φ-1表示累积正态分布函数的逆函数,k表示阴性人数与阳性人数的比例,A是ROC曲线下面积,可通过查阅以往文献获得。

d表示估计精确度,主要根据专业来定。如果专业上难以确定,可根据以往文献报道的95%可信区间来确定,通常最高不超过可信区间宽度的一半,也称半宽(half width)。

如果根据灵敏度和ROC曲线下面积计算,最终计算的例数为阳性例数,可根据阳性率p求得总例数,即Nn/p。如果根据特异度计算,最终计算的例数为阴性例数,可根据Nn/(1-p)求得总例数。

例2:某研究欲观察PET对甲状旁腺瘤的诊断价值,以手术确诊作为金标准。查阅文献发现,PET的灵敏度和特异度大约为0.8(95%CI:0.65~0.95)和0.62(95%CI:0.42~0.83),ROC曲线下面积为0.72。另外已知甲状旁腺瘤率为60%。试分别根据灵敏度、特异度和ROC曲线下面积计算样本含量。

根据灵敏度和特异度的95%CI,并结合临床情况,设定研究精度d=0.1。

1.根据灵敏度计算结果为:n=1.962×0.8×(1-0.8)/0.12=62。需要的阳性(甲状旁腺瘤)人数为62例,总例数为N=62/0.6=104例。

2.根据特异度计算结果为:n=1.962×0.62×(1-0.62)/0.12=91。需要的阴性(疑似但非甲状旁腺瘤)例数为91例,总例数为N=91/0.4=228例。

3.根据ROC曲线下面积计算过程为:首先计算aΦ-1(0.72)×1.414=0.824(Φ-1在Excel中可用normsinv函数实现),据此计算:V=(0.009 9×exp(-0.8242/2))×[(5×0.8242+8)+(0.8242++8)/0.667]=0.172,然后可计算:n=1.962×0.172/0.12=67。需要的阳性(甲状旁腺瘤)人数为67例,总例数为N=67/0.6=112例。

参考文献
[1]
Hajian-TilakiK. Sample size estimation in diagnostic test studies of biomedical informatics[J]. J Biomed Inform, 201448193204.DOI:10.1016/j.jbi.2014.02.013.
 
 
展开/关闭提纲
查看图表详情
回到顶部
放大字体
缩小字体
标签
关键词