
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
临床中经常会遇到下列情况:一种新的诊断方式,能否替代原有的标准诊断方法?一种简便易行的检测方法,与原来繁琐操作的方法是否结果一致?一种价格便宜的试剂,能否取代原来价格昂贵的结果?这些都是一致性分析(agreement analysis)的内容。一致性分析与相关分析不同,它是比相关分析更为严格的一个概念,不仅要求两个测量结果具有相关性,而且要求两个测量之间差别不大。本文主要介绍一下诊断试验中常见的几种一致性分析方法,为临床医生提供一定的参考。
例1:某研究欲评价某干眼仪在干眼诊断中的价值,选择确诊的25例干眼人群和25例非干眼人群,分别采用干眼仪进行检测,结果数据见表1。该研究分别采用了χ2检验和Pearson相关分析,评价干眼仪的诊断效果。

干眼仪诊断结果与实际结果比较(例)
干眼仪诊断结果与实际结果比较(例)
| 诊断结果 | 实际结果 | 合计 | |
|---|---|---|---|
| 干眼 | 非干眼 | ||
| 干眼 | 20 | 6 | 26 |
| 非干眼 | 5 | 19 | 24 |
| 合计 | 25 | 25 | 50 |
辨析:该研究是评价干眼仪诊断结果与实际诊断结果(金标准)的一致性,两个结果均为二分类变量,这种情况下,一般采用Cohen′s Kappa一致性检验。χ2检验只是说明二者之间是否存在关联,而Pearson相关则主要用于连续资料的相关分析。而在本研究中,分析的是两个二分类变量的一致性,采用Kappa一致性检验更为合理。
Kappa一致性检验主要用于两个分类资料之间的一致性分析,它要求两个分类资料的类别数是相等的,如2×2表、3×3表等。该法其实就是计算一个Kappa值,根据Kappa值大小来反映一致性的强弱。Kappa值的计算思路如下:


由公式不难看出,当观察数据的一致性越高,Kappa值越大。Kappa值介于-1和1之间。一般认为,当Kappa值≥0.80,认为二者的一致性非常好(perfect);Kappa值介于0.61至0.80之间,二者的一致性较好(substantial);Kappa值介于0.41至0.60之间,二者的一致性为中等(moderate);Kappa值介于0.21至0.40之间,二者的一致性勉强可接受(fair);当Kappa值≤0.20,则认为几乎没有一致性(slight)[1]。
一般Kappa值主要用于无序分类资料的情况。但如果是有序分类资料,通常采用加权的Kappa值,其思路与一般的Kappa值相同,只是将考虑到了有序资料的权重(如轻度、中度、重度分别赋值为1、2、3)。
对于例1的数据,利用统计软件不难得到Kappa值为0.56(如SPSS可通过"分析" - "统计描述" - "交叉表" - "统计量"指定),可以认为两种方法具有中等一致性。
尽管Kappa系数应用很广,但在有些情况下该系数可能可靠性较差,尤其是两类结果的例数差别较大的时候。如表2数据中,左侧场景一的四格表中,两种方法一致的数目为40+45=85例;右侧场景二的四格表中,两种方法一致的数目为80+5=85例。但两个表的Kappa一致性系数差别非常大,左侧的Kappa值为0.70,右侧则为0.32。

不同场景下模拟数据的比较(例)
不同场景下模拟数据的比较(例)
| 结果 | 场景一 | 场景二 | ||
|---|---|---|---|---|
| 检测阳性 | 检测阴性 | 检测阳性 | 检测阴性 | |
| 实际阳性 | 40 | 9 | 80 | 10 |
| 实际阴性 | 6 | 45 | 5 | 5 |
为什么会出现这种情况,因为左侧数据中,实际阳性和阴性的例数分别为49和51,差别不大;而右侧数据中,实际阳性和阴性的例数分别为90和10,差别非常大。换句话说,Kappa值受行合计或列合计数的影响较大,如果两类的例数差别很大,此时Kappa值的结果未必可靠。
例2:某医生欲了解电脑验光与综合验光测量结果的一致性,在医院随机抽取10名青少年,分别进行电脑验光和综合验光,检测其球镜度数(见表3)。该研究采用了Pearson相关系数来描述一致性,计算得到Pearson相关系数为0.71,认为两种方法具有较高的一致性。

10名青少年的球镜度数
10名青少年的球镜度数
| 分类 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 电脑验光 | -2.10 | -2.50 | -1.95 | -4.45 | -3.25 | -1.75 | -0.35 | -1.70 | -3.05 | -4.60 | |
| 综合验光 | -2.50 | -2.05 | -0.75 | -1.65 | -1.55 | -1.55 | -0.20 | -0.90 | -1.90 | -3.25 |
辨析:该研究中两个结果均为连续变量,尽管相关系数较高,但相关分析只能说明随着一个变量的变化,另一个变量是如何共变的。即使两个变量差别很大,也可以显示出很好的相关性。而一致性要求两个变量之间的值应该差别较小,这一点无法通过相关系数体现出来。事实上,如果采用配对t检验,可以发现两种方法之间的差异有统计学意义(t=3.25,P=0.01)。
也有人同时结合相关系数和配对t检验,认为相关系数高,且配对t检验差异无统计学意义,就认为一致性较高。这也是一种错误的做法,因为即使配对t检验差异无统计学意义,也未必说明差别小,P值大主要与例数有关,不一定与差值大小有关。
如果要说明两个连续变量之间的一致性,常用的是ICC(intra-class correlation coefficient,内部相关系数)指标或Bland-Altman图。
ICC常用于评价不同诊断方法对同一对象评价的一致性,也可用于不同评判者对同一测定结果的一致性。该指标反映了研究对象间的变异占总变异的比例,其公式为:


从公式可以看出,ICC值介于0~1。ICC值越大,评价对象之间(如例2中10个人之间)的变异越大,从而每个人的两种评价方法之间(如例2中的电脑验光和综合验光)的变异越小,即二者的一致性越高。
对于例2数据,利用统计软件可以计算出ICC为0.66(如SPSS可在"分析" - "质量" - "可靠性分析" - "统计量"中指定),可以认为两种方法的检测结果有一定的一致性,但不是非常高。
Bland-Altman法是从两种方法所测数据的差异入手,通过对其差异的处理,分析两种方法的一致性。该法的基本思路是,根据原始数据求出两种方法的均值和差值,以均值为横轴、以差值为纵轴,画出散点图。计算差值的均数及差值的95%分布范围(均数±1.96×标准差),这一范围也称为一致性界限。理论上,如果差值的分布服从正态分布,则95%的差值应位于一致性界限之内。Bland-Altman图的绘制并不难,只要计算出两个变量的均值和差值,利用Excel也可绘制。
图1是例2数据的Bland-Altman图,上下两条水平虚线代表95%一致性界限的上下限,中间实线代表差值的均数。根据95%一致性界限外的数据点的个数以及一致性界限内的最大差值,并临床上的可接受程度,可对待评价的两种方法的一致性作出评价。如果两种测量结果的差值位于一致性界限内且在0附近(表示两种方法的差值很小),并在临床上可以接受,则认为这两种诊断方法具有较好的一致性。如果超出一致性界限的点数过多(如5%),临床上认为不可接受,则认为两种方法不具有一致性。


图1中多数点都位于一致性界限内,只有1个点在下限外,从这一点来看,一致性尚可。但二者差值并不是很小,可以看出,差值均值为-0.94,距离0较远。因此综合来看,这两种方法的一致性不是非常高。





















