
本讲座首先介绍真实世界研究中有别于倾向性评分的另一类统计方法:工具变量法。该方法绕开混杂变量,借助"工具变量"实现类似于随机化的效果;进而介绍利用与生物学属性相关联的重要基因为工具变量的孟德尔随机化方法。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
前一讲,我们建议利用基于倾向性评分的倾向性匹配和逆概率加权两个方法来校正混杂因素。[1]这两个方法的前提假设是:所有混杂因素都能够识别,并且准确收集它们的信息。然而,现实中,混杂因素往往无法完全识别,信息收集也无法达到完全准确;倾向性匹配和逆概率加权处理之后,往往还有残余混杂(residual confounding)。
工具变量(Instrumental variable,IV)分析原本是计量经济学常用方法,现也用于医学领域,分析医疗手段和健康效应之间的关系,即使存在残余混杂,也可以估计治疗的效应。[2]
对付混杂效应的经典方法是随机分组。如图1所示,随机分组变量:(1)决定治疗方法;(2)与结局没有直接关联;(3)独立于混杂因素。


借鉴随机分组的思想,如图2所示,任何变量,若满足以下三个条件便可充当工具变量;这三个条件是:(1)与选择治疗方法紧密关联;(2)与结局没有直接关联;(3)独立于混杂因素。


选定工具变量后,数据分析分两个阶段。阶段1,治疗变量X对工具变量Z作回归X(Z),由Z得到X的预测值
;阶段2,结局变量Y对
作回归Y(
),从而摆脱了混杂因素,得到结局变量与治疗变量间的关系。
我们借助《美国医学会杂志》1994年发表的一篇文章来介绍工具变量分析方法。该文题目的中文翻译为"老年急性心肌梗塞患者较强化治疗降低死亡率?利用工具变量分析"。[3]作者利用医疗保险索赔数据,比较侵入式治疗(如血管成形术、旁路移植术)和保守治疗对老年急性心肌梗塞(AMI)患者病死率的影响。
以下图3和图5是原文的Table 1和Table 4。Table 1是205021例1987年急性心肌梗塞老年患者的特征,按照90天内是否使用心导管插入术分成两部分;使用心导管插入术的46760例大多数接受侵入式治疗(血管成形术、旁路移植术),结局较好;未使用心导管插入术的158261例绝大多数接受保守治疗,结局较差。然而,基线不均衡,前者共患疾病状况明显好于后者,存在混杂偏倚,这两部分患者的结局不可直接比较。见图3。




数据显示:(1)居住地远离侵入式治疗专科医院的患者,较多保守治疗,而居住地靠近侵入式治疗专科医院的患者,较多侵入式治疗;(2)居住地远和近与结局没有直接联系;(3)居住地远和近的患者在年龄和病情等方面并无本质差别。鉴于此,决定以"居住地与侵入式治疗专科医院距离是否超过2.5英里"为工具变量(图4)。


Table 4是按照工具变量划分的患者特征。居住地远和近的患者各有102505例102516例,他们共患疾病状况几乎没有差别,仿佛将对象"随机"分成了两组:居住距离近组,以侵入式治疗为主,居住距离远组以保守治疗为主;这两组中,病情、年龄等混杂因素均衡。可见,这两组比较,相当于"侵入式治疗为主"与"保守治疗为主"之间的比较。见图5。
分析结果表明,老年AMI患者是否24小时内及时住院治疗最为影响生存;侵入式治疗病死率略低1%,主要体现在住院的第一天;长期看来,更多使用血管成形术、旁路移植术之类侵入式治疗,生存方面得益甚小。
虽然工具变量与"随机分组"异曲同工,适宜的工具变量并非轻易可得。幸好遗传学中有个孟德尔分离定律:影响亲本性状的等位基因在形成配子时,将通过减数分裂,随机分配给子代;这是医学研究运用工具变量的天赐良机。Katan (1986)利用全基因组关联研究(genome wide association study,GWAS)筛选出的与特定性状强关联的基因作为工具变量,研究暴露与结局的因果关系。[4]此后学界称此类方法为孟德尔随机化(mendelian randomization)。下面请看一个眼科研究的例子。
Tan et al.(2019)在美国临床营养学杂志发表一篇文章,题目的中文翻译是"评估年龄相关白内障与肥胖的联系:孟德尔随机化研究"。[5]作者称,关于肥胖与白内障关联,文献报告不一致,曾有人建议FTO SNP和宏量营养素摄入导致肥胖。该研究基于人群为基础的一个队列,探索肥胖导致白内障的风险。
FTO SNP rs9939609符合工具变量3条件:(1)rs9939609与BMI/肥胖关联很强;(2)rs9939609独立于后天的混杂因素;3)rs9939609对白内障并没有直接效应,仅仅可能通过BMI/肥胖影响结局。见图6。


蓝山地区眼研究(Blue Mountains Eye Study,BMES)是澳洲一项人群为基础的常见眼病纵向研究。1992-1994,收集了3654人的基线数据;5年后2334人存活(75.8%),10年后1952人存活(76.7%);5年后新加入1174人。采用Wisconsin白内障评定系统,患者包括皮质性、核性和后囊下(PSC)白内障;FTO SNP rs9939609计量评定;宏量营养素用FFQ作5分位评定。
采用多变量Logistic回归模型估计风险比ORs和95%置信区间(95%CI)。[6]以rs9939609为工具变量,多变量校正后,BMI和任何一类白内障均无关联;rs9939609次等位基因和蛋白质5分位最低层摄入联合作用,提升PSC风险(P=0.03),OR=2.14,95%CI:1.27~3.60。结论:肥胖与年龄相关白内障并无因果关联;然而,在五分位蛋白质最低摄入人群中,肥胖可能与PSC白内障有关联。
工具变量法基本思路源自随机分组,绕开了混杂变量,无残余混杂之忧;常在应用倾向性评分法之后,作敏感性分析(sensitivity analysis)之用。若有足够样本量,二阶段回归时,不妨将可疑的混杂变量也纳入回归模型。
上述实例,作者选用与专科医院的距离为工具变量;此外,也有作者以医生或医院的处方偏好为工具变量。总的说来,寻找适宜的工具变量并无任何捷径,全凭研究者的聪明才智。
基因与重要属性的关联实属"天然的随机化",孟德尔随机化因此而得名。以重要属性为暴露变量时,在全基因组关联研究的基因库中有可能找到一个或多个理想的工具变量。
真实世界医学研究对统计学理论与方法不断提出新挑战,需要医生与统计学家深度合作、共同探讨;为此,研究团队必须有较强的统计学阵容。
所有作者均声明不存在利益冲突





















