统计方法与案例点评
常见统计资料类型及其错误理解分析
中华全科医师杂志, 2017,16(2) : 167-168. DOI: 10.3760/cma.j.issn.1671-7368.2017.02.022
引用本文: 冯国双. 常见统计资料类型及其错误理解分析 [J] . 中华全科医师杂志, 2017, 16(2) : 167-168. DOI: 10.3760/cma.j.issn.1671-7368.2017.02.022.
参考文献导出:   Endnote    NoteExpress    RefWorks    NoteFirst    医学文献王
扫  描  看  全  文

正文
作者信息
基金 0  关键词  0
English Abstract
评论
阅读 0  评论  0
相关资源
引用 | 论文 | 视频

版权归中华医学会所有。

未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。

了解资料的类型,是选择统计方法的第一步。几乎所有统计学方法都跟资料的类型有关,不同的数据类型需要采用不同的方法。多数统计学教材都会在第一章就介绍资料的类型,然后才介绍针对不同资料类型所采用的统计方法。资料类型似乎很容易辨识,但现实中也存在不少错误的理解和应用。本文对统计学中常见的资料类型进行简要介绍,并对文章中常见的一些错误理解进行解释。

一、常见的资料类型

资料(data)也称为数据,医学统计中基本的资料类型可以分为两大类:定量资料(quantitative data)和定性资料(qualitative data)。定量资料也称数值资料(numerical data),可进一步分为离散型资料(discrete data)和连续型资料(continuous data)。定性资料又称分类资料(categorical data),也可继续分为二分类资料(binary data)、无序多分类资料(nominal data)和有序多分类资料(ordinal data)。

定量资料的取值一般都有明确的实际含义,如身高170 cm,实际意义很明确。而定性资料的值往往只是一个代码,并无实际含义,如男性和女性分别用1和0表示,这里的1和0并不是只是个符号,并无特定的意义,也可以用2和3表示。

连续型资料的特点是可以取任意值,可以有小数点,这类资料在医学中很常见,如身高、体重等,只要测量工具足够精确,理论上可以取任意位数的小数点。离散型资料的特点是只能取整数,不能有小数点,实际中我们经常说的计数资料(count data)就是这种,如疾病发作的次数、住院次数等,不能说发作2.3次、住院1.6次等。

二分类资料的值只能取两类,常见的如性别(男和女)、存活情况(死亡或存活)。多分类资料的值可以取多类,如果多个类别之间无明显的等级顺序,就是无序分类资料,如血型(A、B、AB、O)、婚姻状况(已婚、未婚、离异);如果多个类别之间有一定的等级顺序,就是有序分类资料,如疗效(无效、有效、显效)、疾病严重程度(轻度、中度、重度)。

以上为基本的资料类型,这些基本的资料类型有时可以构成其他的形式。例如,生存资料同时含有一个分类资料(死亡或存活)和连续资料(生存时间);重复测量资料是对同一个体多次测量,相当于同时包含多个资料。在选择统计方法时都需要考虑到这些资料的类型和特点。

二、常见的资料误用案例

目前仍有不少科研工作者对资料的理解存在一定误区,常见的主要有:

(一)混淆计数资料和分类资料

例1:某研究观察两种药物的止吐效果,以呕吐次数作为疗效指标。该研究在统计学方法部分写道:"计量资料采用t检验,计数资料采用χ2检验" 。

辨析:该文章把计数资料等同于分类资料,采用χ2检验。但二者并不是一回事。

首先,分类资料是没有单位的,如疾病发生与否(是或否),而计数资料是有单位的,如发病人数(人)、吸毒次数(次)、性伴数(人)。

其次,分类资料通常是服从二项分布或多项分布,而计数资料通常是服从Poisson分布或负二项分布。

下面举几个例子来说明分类资料和计数资料的区别。

临床试验中,两组不同干预的人群观察一段时间,可以得到两组的有效和无效的人数,这时可以说无效多少人,有效多少人,此时可以用χ2检验。但最好不要写"计数资料" ,而是写"分类资料"或"定性资料" ,因为此处真正分析的指标是分类资料(无效或有效),人数只是作为无效或有效的频数。

随访研究中,对1 000例幽门螺杆菌阳性患者随访7年,观察胃癌的发生数。考虑到失访较多,因此以人年作为分母,计算人年发病数。此时的结果是计数资料(发生了多少例),可采用Poisson回归,而不能用χ2检验。

临床研究中,观察心血管疾病患者的心血管事件发生次数,结局为计数资料(发生次数),可用Poisson回归分析,而不是χ2检验。

所以,对于本例而言,实际上这并非分类资料,而是计数资料,采用的方法应该是Poisson回归,而不是χ2检验。

(二)将率或比例等同于分类资料

例2:某研究调查了4所高中,测量了男生和女生的脂肪比例情况,比较男女的脂肪比例差异。该研究在统计学方法部分写道:"比例的比较采用χ2检验" 。

辨析:有不少临床医生一看到率或比例,就直接采用χ2检验。事实上,这些情况应该辨证看待。

通常我们所说的比例,是指总人群中,具有某种特征的人所占的百分比,如调查了某高中男生和女生的饮酒比例分别为10%和6%,这里的结局指标并不是比例,而是分类资料(饮酒和不饮酒),比例只是作为每类中的频数,这种情况下,性别间的比较可以考虑χ2检验。

而在例2中,观察的结局指标就是比例,每个人都有一个比例值,这一比例值并不能作为分类资料看待,而是连续资料,其单位是%。对于每组人群(男和女),可以计算平均的脂肪比例,因此其比较应该采用定量资料的比较方法(如t检验、秩和检验等)。

总之,资料类型看似简单,但实际中的误用并不鲜见。有的临床医师将率(比例)、计数资料与χ2检验挂钩,一看到率(比例)或计数资料,就毫不犹豫地采用χ2检验。这就容易导致一些错误的分析思路和结果。只有真正理解资料的类型,才有可能选择正确的分析方法。

 
 
展开/关闭提纲
查看图表详情
回到顶部
放大字体
缩小字体
标签
关键词