
量表的结构效度能够考察测量的数据结构与目标测量事物特征是否相符,客观评价量表的整体架构,在量表开发的过程中十分重要。验证性因子分析(confirmatory factor analysis,CFA)是评价量表结构效度的常用方法。在对具有多个相关因子的量表进行CFA时可以运用二阶因子模型和双因子模型。本研究以汉化苏黎世慢性中耳疾病量表为例,对CFA的基本理论、分析步骤以及软件实现方法进行阐述,为研究者评价量表的结构效度提供方法学支持和应用基础。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
经全国继续医学教育委员会批准,本刊开设继教专栏,每年从第1期至第10期共刊发6篇继教文章,文后附5道单选题,读者阅读后可扫描标签二维码答题,每篇可免费获得Ⅱ类继教学分0.5分,全年最多可获3分。
量表作为一种经过标准化的测量工具,可以客观准确、科学合理地对缺少客观测量指标的复杂性征进行测量,量表的开发在医学研究中有着举足轻重的价值。许多疾病状态无法精确测量,如疼痛、失眠、生活质量等,只能通过量表测量疾病状态的某些表征或研究对象的主观感受,从而间接评价疾病状态[1]。量表由若干维度构成,每个维度由若干题项构成。每个维度内的题项通常与该维度的内涵相一致,这些题项应反映同一独立概念的不同侧面。结构效度反映量表的理论结构与测量值之间的对应程度,可以客观地评价量表的整体架构,即考察测量的数据结构与目标测量事物特征是否相符[2],因此结构效度的评价在量表开发过程中是至关重要的。
因子分析法是量表结构效度评价的一种常用方法[2]。因子分析可以分为探索性因子分析(exploratory factor analysis,EFA)和验证性因子分析(confirmatory factor analysis,CFA)。EFA和CFA都是对题项进行分类的方法,其目的是对反映事物特征的多个变量进行聚类,然后生成潜变量(在因子分析中均称为公因子)来解释每一类的变异。但是,EFA和CFA的理论依据和使用条件是不同的,分别适用于量表评价的两个阶段,即开发阶段与验证阶段。在量表开发初期,需要通过EFA从数据出发对各题项进行大致分类,提取若干个公因子构成量表的维度的同时,完成每个维度下的题项筛选,从而初步构建量表结构。但是,EFA通常仅仅是寻找数据中的规律,而忽略了量表构建的专业理论依据。在编制量表时,研究者已经确定好量表的各个维度,如果通过EFA提取的公因子数目和组成与研究者事先确定好的维度有所出入,就会产生矛盾[3]。虽然很多研究只运用EFA对量表的结构效度进行评价[4, 5, 6],但必须明确仅仅运用EFA评价量表的结构效度存在一定的局限性[2]。理论上,初步开发的量表在进行EFA后,还需要通过CFA验证各题项或各公因子间结构的合理性,在此基础上进一步修正量表结构[7, 8]。而对于文化适应量表,则需要进行CFA,根据拟合度指标并结合专业背景知识进行模型修正。如果修正的模型仍不能被接受,则需重新通过EFA,构建新的模型并验证。
CFA的目的是从理论假设出发,检验数据与理论是否相符,从而修正完善模型假设,CFA的实施正好可以弥补EFA的不足[2]。对于已经区分维度的量表需要先结合原理论和背景知识,经过推论和假设,形成关于一组变量之间关系的结构模型,然后通过CFA计算各拟合度指标。如果原量表结构效度评价结果提示模型可以被接受,则不需要对模型进行修正;否则需要在专业领域知识成立的基础上,根据拟合效果不断修正模型,确定与研究数据相符的最佳模型,但注意不要过度修正模型[9]。
一般情况下,如果量表只有一个维度,采用单因子模型即可(图1);如果因子数目较多而且彼此相关,则存在需要用高一阶的因子解释一阶因子间相关性的可能,这时所形成的模型即为二阶因子模型(图2)。在二阶因子模型中,一阶因子用多个题项进行测量,而二阶因子本身没有测度项,用一阶因子进行测量。二阶因子相当于结构部分,即二阶因子分析模型类似于一个完整的结构方程模型[10]。




研究者常常采用单因子模型和二阶因子模型对量表进行分析,却容易忽略“bi-factor model”(双因子模型),示意图见图3。双因子模型与二阶因子模型最大的区别就在于双因子模型中存在共性因子,该因子能够解释量表中的全部题项[11]。双因子模型的概念最早在认知能力研究领域提出,其共性因子与图2中的因子4不同,其不再由因子1、2、3所解释,而是与因子1、2、3一样,是题项1~10能够解释的一个因子,与所有可观测变量都有直接关联。由于共性因子和其他因子在同一因子层次上共存,因此这种层次模型又称为“双因子模型”。鉴于双因子模型在我国学者中使用相对较少,本研究将总结包括双因子模型分析在内的CFA基本步骤和相关软件实现方法。


1. 绘制路径图:路径图是一种用图来表示变量间因果关系的方法。研究者设计出假定模型的结构后使用路径图表示,需要检验该模型是否适用于研究数据。路径图中包含以下元素:观测变量,指可以直接测量的指标,在路径图中通常使用矩形表示;潜在变量,指无法直接测量的指标,是研究者真正关注的对象[12],其测量常常通过一个或几个显变量的测量来间接完成,通常使用较大的圆形或椭圆形表示。误差通常表示额外的因,即“残差”,是路径图中所有未被明确标出的变异,常使用较小的圆形表示。当箭头从潜在变量指向观测变量时表示潜在变量对观测变量的因果关系,箭头所指向的变量是果。双向箭头则表示两个变量间存在相关。
2. 样本量:目前研究者对CFA所需样本量尚未达成共识,普遍认为每个估算参数需要20个样本,但通常将10个样本设定为更易实现的目标[13]。例如,对由20个条目组成的量表进行CFA时,需要样本量在200~400之间。
3. 构建模型:根据研究背景、编制量表时设定的结构或CFA结果,检验预设模型的合理性。有些研究中,为了得到相对准确适合的模型,通常同时检验两个及以上预设模型,比较各模型拟合程度,选出较优模型[2,14]。常见的模型多为二阶因子模型,其适用于以下情况:(1)低阶因子间有较强的相关性;(2)假设存在一个高阶因子可以解释低阶因子间的关系。而双因子模型通常用于以下情况:(1)研究者假设存在一个共性因子解释所有题项的共性;(2)除共性因子之外,假设还存在多个因子解释各个维度的独特影响;(3)研究者对各个维度的因子和重点关注的共性因子都感兴趣[15]。
4. 检验模型的拟合度:模型对观察数据的拟合程度,用拟合度指标来表示,实际分析时,应该根据各个指标的量值综合考虑做出判断。各类指标的具体含义和适配界值水平见表1。如果研究者对模型拟合度不满意,则需进行模型修正后,再评价模型对观察数据的拟合程度,直到满意为止。表1中列出几个较为常用的指标。需要注意,模型拟合度指标只是检验预设模型与研究数据的适配程度,仅作为一项参考,并不能作为评价模型的唯一标准,还需要根据研究领域背景知识对模型进行综合评价。

较为常用的模型拟合度指标
较为常用的模型拟合度指标
| 拟合度指标名称 | 拟合度指标缩写 | 适配标准或临界值 | 说明 |
|---|---|---|---|
| 卡方值 | χ²值 | 卡方值显著性检验P>0.05[16] | 表示整体模型包含的变量相关关系矩阵(因果路径图)与实际资料的相关关系矩阵的拟合度。χ²值越小,表示两者差异越小。χ²值受变量数目和样本量影响。 |
| 渐进残差均方和平方根 | RMSEA | <0.05(优良) | 在参数未知但最优选择的情况下,评价模型与总体协方差矩阵的拟合度。RMSEA最大的优势之一是可以计算其置信区间。 |
| 规准适配指数 | NFI | ≥0.95[9,16,18] | 通过与空模型比较χ²值来评估模型。对样本量敏感,当样本量<200时,会低估模型拟合度。不建议作为评价模型的单一指标。 |
| 非规准适配指数,有时也称为Tucker-Lewis指数 | NNFI(TLI) | ≥0.95[9,16,18] | 当样本量较小时,即使其他指标表明拟合度较好,NNFI也可能表明拟合不良。 |
| 比较适配指数 | CFI | ≥0.95(良好)[9] | 由NFI改良而来,考虑到样本量对模型拟合效果的影响,应用广泛。 |
| 赤池信息准则 | AIC | AIC值越小的模型,拟合度越好 | 将待估计变量个数考虑进假设模型拟合度中,寻找可以最好地解释数据同时包含最少自由参数的模型,尽量避免出现过度拟合的情况。适用于多个模型间的比较,而不是评价单个模型。 |
| 贝叶斯信息准则 | BIC | BIC值越小的模型,拟合度越好 | 适用于多个模型间的比较,而不是评价单个模型。 |
| 可解释的共同方差 | ECV | - | 表示双因子模型中总变异归因于共性因子的百分比(即共性因子解释的变异除以总变异的值)。 |
| Omega系数 | ωH | - | 在总(标准化)得分变异中,可以归因于单一共性因子的比例。在双因子模型中,ωH是比ECV更直接的指标。 |
注:-为无数据
5. 修正模型:任何模型修正都应基于研究问题相关背景知识,而不应仅仅根据CFA的结果增加或减少参数。否则,模型修正就会成为一个探索性过程,增加Ⅰ类错误的概率[9]。当初始模型具有较高的拟合度时,不应进行模型修正以获得更高的拟合度,因为此时修正模型的目的可能仅仅为了模型适应研究数据的特定属性。模型修正后,研究者需要报告修正模型在统计学上优于原始模型的证据,如χ²值、渐进残差均方和平方根(root mean square error of approximation,RMSEA)、比较适配指数(comparative fit index,CFI)等。但是,只有当新研究在相同理论支撑下,使用相同数据和完全相同的观察分析方法时,再次检验才会提示模型结构是合理的。在大部分情况下,使用不同数据验证同一模型时,不一定能得到较高的拟合度[9]。
本研究以一项在中国慢性中耳炎患者中验证汉化苏黎世慢性中耳疾病量表的研究为例,阐述CFA具体实施步骤。该量表包括4个维度,共21个题项,用于测量慢性中耳炎患者健康相关生活质量[19]。本研究实例按照研究对象数:题项数=10∶1来采集数据,针对208例满足纳入与排除标准的研究对象进行调查。首先运用Kaiser-Meyer-Olkin检验(KMO检验)和Bartlett球形检验来确定数据是否满足因子分析的条件。一般认为KMO取值>0.7时,因子分析效果较好。同时,当Bartlett球形检验拒绝H0时,表示数据适宜进行因子分析[3]。由于量表原作者推荐使用4个维度的结构模型,因此,本实例中将通过CFA来检验双因子模型和二阶因子模型的拟合度。
经计算,本实例中KMO=0.87,Bartlett球形检验的χ²=1 694.24(自由度为210,P<0.001),数据满足进行因子分析的条件。使用SAS软件下的“CALIS”过程进行CFA。使用“METHOD”选项确定分析方法,通常采用极大似然估计(ML)。使用“PATH”语句提供直观的因果路径,设定模型结构。使用“ON”选项选择需要输出的模型拟合度结果,如χ²值、RMSEA、CFI等。此外,还可以通过“PLOTS”选项绘制路径图。详细说明可以在SAS Help中查询“CALIS”过程。两个模型的统计结果见表2,各项指标提示模型并未达到良好的拟合效果,因此本研究实例需要在原作者推荐的量表结构基础上对模型进行适当修正。

各模型拟合度指标
各模型拟合度指标
| 模型 | χ2 | Δf | RMSEA | NNFI(TLI) | CFI | AIC | BIC |
|---|---|---|---|---|---|---|---|
| 原作者推荐结构 | |||||||
双因子模型 | 270.83a | 168 | 0.05 | 0.94 | 0.94 | 394.25 | 637.89 |
二阶因子模型 | 376.02a | 185 | 0.07 | 0.88 | 0.87 | 468.02 | 621.55 |
| 修正后结构 | |||||||
双因子模型 | 237.25a | 150 | 0.05 | 0.96 | 0.95 | 348.26 | 581.89 |
二阶因子模型 | 338.93a | 181 | 0.07 | 0.89 | 0.88 | 426.92 | 573.78 |
注:RMSEA为渐进残差均方和平方根;NNFI为非规准适配指数;TLI为Tucker-Lewis指数;CFI为比较适配指数;AIC为赤池信息准则;BIC为贝叶斯信息准则;aP<0.001
修正模型的CFA可在R软件中实现。通过lavaan程序包可以估算各个题项的因子载荷及其标准误以及各项拟合度指标数值[20]。由于在量表的所有题项中,题项5的因子载荷最小,并且对于母语为中文的研究对象来说,题项5是最不易理解的,因此,尝试验证删除题项5后的双因子模型与二阶因子模型的拟合度(表2)。同时,由于题项6的因子载荷较小,尝试建立删除题项6或同时删除题项5、题项6后的模型,CFA结果表明这两个模型的拟合度没有比删除题项5的模型更加理想,从专业知识来看,删除题项6在专业理论上也不合理(结果略)。接下来,对模型进行卡方差异性检验,计算模型间卡方值差异与P值,若P<0.05,则表明模型间差异有统计学意义。在模型结构相同时,双因子模型的χ²值、RMSEA以及AIC值均小于二阶因子模型,Tucker-Lewis指数(Tucker-Lewis index,TLI)与CFI均大于二阶因子模型,提示双因子模型较二阶因子模型具有稍好的拟合度,因此只检验原作者推荐结构和通过删除题项5修正结构后的双因子模型间的差异,Δχ2(18)=33.58,P<0.05。综上,选择删除题项5的双因子模型作为拟合度较好的模型。
为构建双因子模型,并在此基础上估算Omega系数(coefficient omega hierarchical,ωH)和可解释的共同方差(explained common variance,ECV),可运用R psych程序包和GPArotation程序包实现该功能。Schmid-Leiman转换是将相关因子模型转换为双因子模型的常用方法[21]。使用“schmid”功能,设定因子数目、分析方法等参数,进行Schmid-Leiman转换,得到因子载荷、特征值等统计量。使用“omega”功能可以估算ωH值和ECV值,评价模型,两者可以评估共性因子解释总体变异的比例。
实例中ωH取值为0.65,提示共性因子可以解释模型中的大部分变异。然而,ECV=0.47,提示不同维度的因子可解释总变异的53%(即1-ECV),量表的总体得分和各个维度得分的综合均对量表进行较为重要的解释,这为量表的多维性提供了进一步证据。
CFA从理论假设出发,检验理论与数据是否相符,评价量表的结构效度,在专业领域知识成立的基础上修正完善模型,获得具有较高拟合度的模型。本文主要介绍了CFA的基本原理,并以一项在中国慢性中耳炎患者中验证汉化苏黎世慢性中耳疾病量表的研究为例,阐述了CFA的分析步骤,提供了进行CFA的软件实现方法。实例中的各项模型拟合度指标提示,通过删除题项5修正后的双因子模型的拟合效果优于原作者推荐结构模型与二阶因子模型。双因子模型能够很好地评价拥有共性因子的量表结构效度,在量表结构效度的评价中发挥重要作用。同时,实例中的软件实现方法可以为实际应用提供基础。
CFA是评价量表结构效度的常用方法。除常用的单因子模型和二阶因子模型,研究者还可以考虑运用双因子模型评价量表的结构效度。模型拟合度指标只是检验预设模型与研究数据的适配程度,并不能作为评价模型的唯一标准,还需要根据研究领域背景知识对模型进行综合评价。本研究通过实例对CFA的基本理论、分析步骤以及软件实现方法进行阐述,为研究者评价量表的结构效度提供方法学支持和应用基础。
所有作者声明无利益冲突
1. 关于信度,下列说法错误的是()
A.信度即可靠性
B.通常采用Cronbach′s α 系数、折半系数、重测信度等进行评价
C.可反映量表的内部一致性和稳定性
D.可反映量表的理论结构与测量值之间的对应程度
2. 关于效度,下列说法错误的是( )
A.效度即可靠性
B.通常采用内容效度、效标效度、结构效度等进行评价
C.结构效度可以考察测量结果的数据结构与问卷的设计是否相符
D.验证性因子分析是评价量表结构效度的常用方法
3. 在量表的开发阶段和验证阶段通常适用的分析方法分别为( )
A.探索性因子分析
B.验证性因子分析
C.探索性因子分析、验证性因子分析
D.验证性因子分析、探索性因子分析
4. 关于路径图,下列说法错误的是( )
A.路径图可以揭示一组变量之间的相互关系
B.观测变量,指可以直接测量的指标,在路径图中通常使用矩形表示
C.潜在变量,指无法直接测量的指标,在路径图中通常使用矩形表示
D.路径图中,箭头所指向的变量是果
5. 关于验证性因子分析,下列说法错误的是( )
A.可以运用Kaiser-Meyer-Olkin 检验和Bartlett 球形检验来确定数据是否满足因子分析的条件
B.模型拟合度指标是评价模型的唯一标准
C.如果有必要,可以根据模型拟合效果和研究领域背景知识对模型进行适当修正
D.模型的χ²值、渐进残差均方和平方根(RMSEA)、Tucker-Lewis指数(TLI)、比较适配指数(CFI)等均可作为评价模型拟合度的指标





















