
随着医疗大数据的推广与应用,监管机构开始使用非随机化的真实世界证据(RWE)来评估医疗产品的有效性。本文简要介绍了哈佛大学研究团队于2018年发起RCT DUPLICATE项目的最新进展与研究成果,并结合我国医疗服务特点总结了相关研究经验,为国内学者今后开展相关RWE研究提供借鉴。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
药物治疗的有效性和安全性相关的医疗卫生监管决策需要真实的证据作为依据,随机对照试验(randomized controlled trial,RCT)虽被视为证据来源的金标准[1],但临床决策不能仅依靠RCT的证据,仍需要真实世界证据(real-world evidence,RWE)的补充支持。近些年,利用真实世界数据(real-world data,RWD)产生的RWE被越来越多地用于补充RCT的决策范畴,包括监测疾病状况、评估药物疗效和支持监管决策[2, 3, 4, 5]等。但目前关于RWE研究的探索和应用仍面临着众多挑战,包括RCT与RWE研究结果是否一致,RWE研究何时可以替代RCT,如何更好地利用RWE用于医疗领域等。
2016年出台的《21世纪治愈法案》要求美国食品药品监督管理局(FDA)促进RWE的使用[6]。2018年FDA正式发布了RWE项目的实践框架[7],列出了FDA后续行动计划的实施细节,包括示范项目、涉及的利益相关者以及特定主题的指导文件,以帮助发展RWE,支持FDA的监管决策。欧洲药品管理局在对开展RWE研究实践活动保持警惕的同时,也在持续推动RWE在决策方面的应用[8]。2019年5月国家药品监督管理局药品评价中心也发布了使用RWE支持药物开发关键考虑的指导意见草案[9]。
RCT DUPLICATE(Randomized,Controlled Trials Duplicated Using Prospective Longitudinal Insurance Claims:Applying Techniques of Epidemiology)项目便是鼓励在监管决策层面使用RWE的举措之一,旨在证明RWE在何种情况下可以模拟RCT的结果。该项目将为RWE的因果推论提供参考案例,以增加使用RWE进行监管决策的可信度。基于此,本课题组撰写了以RCT DUPLICATE项目为基础的系列文章[10, 11, 12]。并持续跟进该项目的进展,在系列一中对RCT DUPLICATE项目背景和研究内容框架进行概述的基础上,本文主要介绍项目进展与主要成果,并对两个具有代表性研究的实施、进展及成果进行重点解读。本文总结了该项目对我国开展相关RWE研究带来的一些启示,为国内学者今后开展RWE研究提供借鉴。
1. 目前已公开的研究结果:本文针对项目组最新公布的10个RWE研究结果展开介绍[13],基本情况见表1。其中8项为降糖药比较,2项为抗血小板药比较,考虑的临床结局均为心血管相关结局。其中7项RCT为安慰剂对照,项目组在模拟RWE中选择的阳性对照组来替代安慰剂组,因为未经治疗的患者可能从本质上区别于主动治疗的患者,而这些个体差异很难在医疗索赔数据中捕捉到。项目组规定,在GLP-1受体激动药(GLP-1RA)和SGLT-2抑制剂(SGLT-2i)的研究中,使用DPP-4抑制剂(DPP-4i)作为对照组,在DPP-4i的研究中,使用磺脲类药物作为对照组。之所以选择DPP-4i和磺脲类药物作为安慰剂的替代药物,因为它们既是抗糖尿病药物,又与研究的药物有相似的适应症,且有证据表明,它们对研究关注的心血管结局没有影响。

10项RWE研究的基本介绍
10项RWE研究的基本介绍
| 简称 | NCT 号码 | 类型 | 干预药物(对照) | 结局 | |
|---|---|---|---|---|---|
| 随机对照试验 | 真实世界证据 | ||||
| LEADER[14] | NCT03936049 | 糖尿病药 | 利拉鲁肽(安慰剂) | 利拉鲁肽(DPP-4i) | 3P MACE |
| DECLARE[15] | NCT04215523 | 糖尿病药 | 达格列净(安慰剂) | 达格列净(DPP-4i) | 心衰入院+心血管死亡 |
| EMPA-REG[16] | NCT04215536 | 糖尿病药 | 恩格列净(安慰剂) | 恩格列净(DPP-4i) | 3P MACE |
| CANVAS[17, 18] | NCT03936010 | 糖尿病药 | 卡格列净(安慰剂) | 卡格列净(DPP-4i) | 3P MACE |
| CARMELINA[19] | NCT03936036 | 糖尿病药 | 利格列汀(安慰剂) | 利格列汀(磺脲类药物) | 3P MACE |
| TECOS[20] | NCT03936062 | 糖尿病药 | 西他列汀(安慰剂) | 西他列汀(磺脲类药物) | 3P MACE+心绞痛 |
| SAVOR-TIMI[21] | NCT03936023 | 糖尿病药 | 沙格列汀(安慰剂) | 沙格列汀(磺脲类药物) | 3P MACE |
| CAROLINA[22, 23] | NCT03648424 | 糖尿病药 | 利格列汀(安慰剂) | 利格列汀(格列美脲) | 3P MACE |
| PLATO[24] | NCT04237935 | 抗血小板药 | 替格瑞洛(氯吡格雷) | 替格瑞洛(氯吡格雷) | 3P MACE |
| TRITON-TIMI[25] | NCT04237922 | 抗血小板药 | 普拉格雷(氯吡格雷) | 普拉格雷(氯吡格雷) | 3P MACE |
注:数据来自https://www.clinicaltrials.gov.(更新时间为2022年4月12日);LEADER:利拉鲁肽在糖尿病中的作用:心血管预后评价;DECLARE:达格列净对心血管事件发生率影响的多中心研究;EMPA-REG:2型糖尿病患者的心血管结局事件试验;CANVAS:卡格列净心血管评价研究;CARMELINA:利格列汀治疗2型糖尿病患者的心血管和肾微血管预后研究;TECOS:西他列汀心血管预后研究;SAVOR-TIMI:沙格列汀单独使用或与其他糖尿病药物联合使用是否能降低心血管事件的风险;CAROLINA:利格列汀与格列美脲对2型糖尿病患者心血管事件的研究;PLATO:血小板抑制与患者预后;TRITON-TIMI:普拉格雷溶栓优化血小板抑制改善心肌梗死治疗效果的试验;3P MACE:主要不良心血管事件复合结局,包括非致死性心肌梗死、非致死性中风或心血管死亡
在10个研究中,RWE研究和RCT的结果差异无统计学意义。根据事先制定的评价标准[26],其中8个RWE研究的结果与对应的RCT结果实现了估计值一致性,6个RWE研究的结果与对应的RCT结果实现了监管一致性(RWE研究模拟RCT结果的方向和统计显著性的能力)。这些研究结果也指出了RWE研究的一个主要局限性:由于真实世界中存在诊疗的差异,以及在真实临床环境中接受药物治疗的患者与参加RCT的患者之间的本质差异,尤其针对以安慰剂为对照的RCT的模拟可能具有挑战性。在未达成监管一致性的4个RWE研究中,有3个对应的RCT采用的是安慰剂对照[13]。每个RWE研究的详细信息可在注册网站(https://www.clinicaltrials.gov)上查询获取。
(1)基线特征:10个RCT中研究对象的平均或中位年龄从61岁到66岁不等,除了DPP-4i的RCT(CARMELINA[19]、TECOS[20]、SAVOR-TIMI[21]和CAROLINA[22])的4项RWE研究(年龄比RCT人群更大,均P<0.05)外,每个RWE研究患者的平均年龄与相应的RCT的平均年龄相近。这表明尽管设计RWE研究时采取与RCT人群相同的年龄范围标准,但RWE研究的人群年龄普遍会略大于RCT人群的年龄。此外,除TRITON-TIMI[25]外,所有RWE研究中女性的占比均高于RCT中女性占比。在RCT和相应的RWE研究中,测量的心血管结局的危险因素是相近的,例如都包括吸烟和高血压等因素。
(2)结局事件发病密度:10个RCT中除了DECLARE[15],9个均使用主要不良心血管事件复合结局(3P MACE,包括非致死性心肌梗死、非致死性中风或心血管死亡)作为主要终点,其RWE研究中的发病密度均较低。例如,在LEADER试验的试验组和对照组中,发病密度分别为3.4/100人年和3.9/100人年,而对应的RWE研究的发病密度在两组分别为2.0/100人年和2.8/100人年[14]。然而,有其他结局指标的两个RCT在其对应的RWE研究中表现出更高的发病密度。如在DECLARE试验的试验组和对照组中,因心力衰竭住院或心血管疾病死亡的发病密度分别为1.2/100人年和1.5/100人年,而其RWE研究的发病密度分别为1.6/100人年和2.4/100人年[15]。TECOS试验的3P MACE或因急性心绞痛住院的发病密度在试验组和对照组中分别为4.1/100人年和4.2/100人年,而其RWE研究的发病密度分别为7.3/100人年和8.3/100人年[20]。这些发病密度的差异可能归因于研究人群本身的差异,但考虑到RWE研究中事件捕获的特异性较低,项目组将这些试验的终点评估的质量标记为中等。在随访的前6个月,RWE研究中的患者数量迅速下降,导致RWE研究的平均随访时间较短。RWE研究中的事件数一般是通过大量患者积累得来的,而RCT的患者较少,但其随访时间较长。
(3)RCT-RWE结果一致性:10个RWE研究中[13],有6个符合监管一致性(LEADER、DECLARE、EMPA-REG、CANVAS、CAROLINA和TRITON-TIMI),有8个符合估计值一致性(LEADER、EMPA-REG、CANVAS、CARMELINA、TECOS、CAROLINA、TRITON-TIMI和PLATO)。PLATO结果发现替格瑞洛优于氯吡格雷(HR=0.84,95%CI:0.77~0.92)[24],其RWE研究发现HR点估计与RCT的估计值处在同一方向,但其95%CI的上限大于1.00(HR=0.92,95%CI:0.83~1.02),故该模拟研究满足预先制定的估计值一致性,而未满足监管一致性。比较DPP-4i与安慰剂的3项RCT(CARMELINA[19]、TECOS[20]和SAVOR-TIMI[21])结果发现,在心血管风险方面,DPP-4i相比于安慰剂是非劣效的而不是优效的,对应的RWE研究均呈现出了优效性。有8个RCT的模拟研究都达到了估计值一致性(除了DECLARE[15]和SAVOR-TIMI[21]),即这些RWE研究的点估计值都落在了RCT估计值的95%CI内。此外,项目组目前结果显示SAVOR-TIMI是唯一一个RCT和RWE研究估计值有显著性差异的试验。
2. 具体案例解读
(1)模拟已完成的RCT项目:模拟CANVAS的研究:CANVAS试验(NCT01032629,NCT01989754)包含两项多中心、双盲、安慰剂对照试验(CANVAS和CANVAS-R)[17],在30个国家的667个中心开展,旨在评估2型糖尿病(T2DM)患者中服用卡格列净对发生3P MACE的影响。CANVAS试验研究对象为年龄在30岁以上血糖控制不佳[7.0%≤糖化血红蛋白(HbA1c)≤10.5%]且有动脉粥样硬化性血管病症状史的患者,或年龄在50岁以上且至少有两种心血管危险因素的患者。
试验结果显示研究对象的平均年龄为63.3岁,35.8%为女性,T2DM平均病程为13.5年,65.6%有心血管疾病史。卡格列净组的主要结局发生率低于安慰剂组(26.9/1 000人年vs.31.5/1 000人年,HR=0.86,95%CI:0.75~0.97,非劣效P<0.001,优效P=0.020)。
模拟CANVAS试验的RWE队列(NCT03936010)研究是利用美国医疗保险数据库(OpumInsight,Eden,Prairie和MN)来评价与临床常规治疗T2DM的DPP-4i、GLP-1RA和磺脲类药物相比[18],卡格列净治疗T2DM的心血管安全性。研究采用倾向性评分法将卡格列净的新用药者分别与3种对照药物的新用药者进行了1∶1匹配,构建了3个研究队列(卡格列净与DPP-4i、GLP-1RA或磺脲类药物匹配后3对样本量分别为17 667对、20 539对和17 354对)。
研究发现与常规抗糖尿病药物(DPP-4i、GLP1-RA和磺脲类)初次使用者相比,卡格列净初次使用者因心力衰竭入院风险明显降低(HR=0.70,95%CI:0.54~0.92;HR=0.61,95%CI:0.47~0.78;HR=0.51,95%CI:0.38~0.67),在心肌梗死或中风的复合结局发生方面无明显差异。
(2)预测未完成的RCT项目:模拟CAROLINA的研究:CAROLINA试验(NCT01243424)是一项多中心、随机、双盲、阳性对照试验,共纳入6 042例患者[22]。研究起始时间为2010年11月11日,完成时间为2018年8月21日。该研究旨在评估利格列汀与格列美脲对早期T2DM患者发生3P MACE的影响。此外,CAROLINA还包含了4项子研究:认知子研究(cognition sub-study)、血糖变异性子研究(glycaemicvariability sub-study)、β细胞功能子研究(β-cell function sub-study)和成人隐匿性自身免疫性糖尿病子研究[latent autoimmune diabetes in adults(LADA)sub-study]。
CAROLINA试验结果显示6 042名受试者中,6 033名参与了治疗并进入到分析中(平均年龄64.0岁),2 414名(39.9%)女性,平均HbA1c 7.2%,糖尿病中位病程6.3年,59.0%的受试者接受了二甲双胍单药治疗。中位随访时间为6.3年。利格列汀组有356/3 023(11.8%)发生了主要结局事件,在格列美脲组有362/3 010(12.0%)发生(HR=0.98,95%CI:0.84~1.14,非劣效性P<0.001),符合非劣效性标准,但不具有优效性。
模拟CAROLINA试验的RWE队列研究(NCT03648424)是利用美国两个商业健康保险索赔数据库(Optum Clinformatics和IBM MarketScan)和Medicare数据库来预测CAROLINA在真实世界中的结果[23],并在CAROLINA的RCT完成之前对结果进行预测。该研究选择利格列汀和格列美脲初次使用者,以便得到一个能与RCT中试验人群可比较的研究群体。研究对象进入队列的日期定义为其医疗处方中第一次出现利格列汀或格列美脲的时间,在这个日期前个体需至少有连续6个月的医疗记录以确定新用药者。研究采用倾向评分1∶1匹配法对120项基线特征进行了控制。根据CAROLINA试验的主要研究结局,对患者进行了随访。随访从进入队列后的第1天开始,直到停止治疗或更换到对照组、发生了预定结局事件、疗养院入院、退出队列或研究时间结束(以最早发生事件为准)。如果治疗中断,研究会将暴露效应窗口延长至最后一个用药记录的后30 d。考虑到常规护理中治疗中断的高发生率,研究选择了实际治疗分析(as treated analysis,AT)而非意向性治疗(intention-to-treat,ITT),以避免RWE研究中经常出现的暴露错分偏倚。该研究队列最终纳入24 131对T2DM患者,与格列美脲组相比,利格列汀组的3P MACE结局的风险无显著相关(HR=0.91,95%CI:0.79~1.05),此结果符合CAROLINA试验的非劣效性假设。
CAROLINA RCT与RWE研究结果比较发现,RWE研究得到了与预期RCT相似的研究结论。这个项目的完成显示了RWE相较于RCT具有研究周期短和人力物力成本低两个显著的优势。CAROLINA RCT花费近8年的时间才完成,除了需要医务人员和研究团队提供大量资源外,还需要招募大量符合标准的患者。相比之下,RWE研究仅需一个由流行病学家和医学专家组成的小组,利用已有的RWD以及一个RWD分析平台就可以开展,且一般只需要几个月的时间就能得到研究结果。
在使用电子索赔数据开展RWE研究中,CAROLINA的RWE研究项目组实现了足够的统计能力,并进行了可靠的混杂因素控制,研究发现在公布RCT研究结果之前RWE研究可以准确预测CAROLINA试验的结果,这表明RWE具有较高的可信度。而且根据RWE研究结果,由于CAROLINA试验的参与者的平均年龄低于模拟研究的人群(64岁vs. 70岁),所以对于RCT,利格列汀的年龄相关性心血管益处在实际人群中可能会更明显。
1. 研究经验总结:RCT DUPLICATE旨在为选定的RCT样本提供严格的证据,以及非干预性的RWE研究在何时以及如何得出与RCT相同的结论[26]。即使在偏倚风险很低的情况下,一些RWE研究也可能无法产生与RCT完全一致的结果[27]。对于结果有统计显著性的RCT,无偏倚的RWE研究结果与之符合监管一致性的概率在80%~90%之间,但未发现显著性差异的RCT中实现监管一致性的概率则更低[13]。
RCT和RWE的研究结果证实,选择具有相似适应证的阳性对照的RCT进行模拟会提高RWE的有效性。然而,即使在阳性对照的情况下,也不能完全保证RCT和RWE研究结果的一致性。RCT DUPLICATE项目组开展的RWE研究都是基于严格筛选后的研究样本,最大程度上使用RWD测量结局指标,并考虑了重要的尽可能多的混杂因素。目前项目组遴选的RCT远不能覆盖所有临床话题,未来仍需要更多的证据来帮助理解RWE的适用场景,从而确定RWE是否可以预测在不同治疗领域RCT的研究结果。
RCT DUPLICATE研究仍存在一定的局限性,许多RCT会存在一些模糊的排除标准,如“在研究者的判断中”“不太可能存活至少5年”。这些标准使得利用RWD开展RWE研究时模拟RCT试验人群变得困难,并且很难在RWE研究中转化为一个可测量的指标。RWE研究也难以精准地模拟RCT的治疗策略,包括坚持用药、剂量规格和附加治疗等。
RCT中的安慰剂对照是开展RWE研究的主要难点。项目组试图通过识别接受标准治疗的患者来模拟安慰剂对照。然而在RWD中很难精准定义标准治疗,并且人群在RCT和RWD中选择的具体治疗方法可能存在差异。此外,尽管项目组试图统一重要结局的定义,但在如何定义和识别结局等方面仍可能存在差异。例如CAROLINA试验比较利格列汀和格列美脲,评估了中度或重度低血糖的风险。但对于这一结局,RCT可以根据研究目的获取到这类信息,而基于医疗索赔数据的RWE研究难于直接获取这类结局指标。项目组在RWD中将低血糖定义为住院或急诊诊断为低血糖,或许可以解释RCT和RWE研究关于中重度低血糖风险比估计值的差异(HR=0.15,95%CI:0.08~0.29;HR=0.42,95%CI:0.32~0.56),而在心血管结局上结果呈现高度一致性(HR=0.98,95%CI:0.84~1.14;HR=0.91,95%CI:0.79~1.05)。
尽管存在上述局限性,RWE研究结果与RCT结果之间的差异并不会阻碍前者在监管方面的价值。因为RCT和RWE之间存在本质上的“效力-效果差距”,RWE还有尚未挖掘的价值。项目初期目标可能是为了加快推荐使患者获益的干预措施,尽管需要额外考虑医疗索赔系统的特点和患者的偏好。更长远的目标是减少从研究证据到更广泛的临床应用之间的漫长等待,辅助药物审批和上市后不同特征患者人群的实际疗效和安全性监测等监管决策应用。
项目组制定的一致性度量标准简单直观,但单纯依赖于P值和95%CI可能会遗漏RWE研究是否成功的相关细节。即使每个RWE研究都是完全无偏倚的,也会由于抽样的变异性导致30个RWE研究中的一些结果与RCT不同[28]。但是该项目首次评估了大量高质量的RCT的可重复性,并在研究初期设置了一系列规范化的统一标准和透明化研究流程,实现了在虚拟平台上的数据公开和细节追踪[29, 30]。尽管该项目的规模尚小,无法回答所有RWE研究设计的相关问题,未来的工作可以通过模拟更多的RCT来为不同的临床问题提供新的见解。
2.对基于中国人群开展RCT模拟研究的启发:RCT为监管机构提供了治疗效果评估的参考标准,对于有的RWE研究无法模拟RCT的结果仅能表明无法在真实世界中模拟,并不意味着原始RCT的研究结果是无效的。根据已有经验利用可用的RWD,约4%的补充批准药物适应证的RCT可被RWE研究模拟[26],表明RCT目前的可重复性普遍较低。然而,RCT DUPLICATE项目经验指出,若一些RCT的主要结局难以在RWE研究中定义,此时可以在医疗索赔数据库中获取相似的替代指标,由此增强RCT可重复性。此外,由于RCT DUPLICATE项目组预先制定的定义限制,发现许多RCT是无法被平台上的数据模拟的,因为这些RCT需要的实验室指标无法在医疗索赔数据库中获取,但可能在其他RWD中很容易获取,如电子健康病历(electronic health record,EHR),后续需要在更广的数据源中开展模拟RCT的RWE研究。
如果基于中国人群开展类似的RWE研究,考虑到国内外人群本质上的差异,应尽量在研究人群的选择上保持一致性,即尽量选择基于亚洲人群的RCT。关于RWD的选择,尽管RCT DUPLICATE项目组计划在医疗索赔数据库中模拟每个RCT的重要研究细节,但在其实际实施阶段发现RWD可以获取的测量值与RCT还是有差距的。如系列一所述,研究有时无法完全模拟某些RCT的纳入排除标准,这些标准往往依赖于索赔数据库中无法获得的临床测量指标。此外,不同于RCT,实际临床治疗中患者的依从性不受研究者控制,且可能出现更多的停药和短期用药情况。这也启发我们在开展RWE研究时要着重关注所选RCT的对照和结局的测量能否在现有的RWD中获得。
根据我国的基本国情、医疗卫生系统的特点和可供选择的RCT特征,要更灵活地选择RWD。除了RCT DUPLICATE项目组采用的医疗索赔数据库,一些其他来源的RWD,如EHR和患者登记信息,可能会提供不同的、更广泛的可模拟的RCT选择,因为这些数据源通常涵盖更广泛和详细的临床信息,有助于在开展RWE研究时调整混杂因素和定义关键变量。如果将研究扩展到这些RWD来源,就可能对RCT DUPLICATE项目目前没有包括的肿瘤、传染病和神经病学等其他医学领域的RWE进行可信度评估[31, 32]。但是,这些数据库并非没有局限性,例如门诊用药的数据在药房配药数据库中比在EHR中更容易获取[33]。此外,EHR可能会高估未按处方填写患者的用药情况,且可能遗漏患者在医疗机构外的治疗,从而导致严重的偏倚[34]。所以在开展RWE研究时,根据研究领域和研究目的,科学灵活地选择合适的RWD来源和待模拟的RCT,广泛探索RWE研究和RCT之间的可重复性、差距及其潜在的影响因素,旨在促进RWE研究结果的真实性和可靠性。
此外,考虑到患者隐私和数据安全性问题,在基于中国人群开展RWE研究时,可以参考RCT DUPLICATE项目组在开展研究前的一系列措施,由具有权威性的监管机构或者部门牵头,联合大型医疗卫生相关数据库搭建虚拟数据分析平台(如RCT DUPLICATE项目中的Aetion平台),在保证数据安全性的基础上,实现数据的共享和统计分析,并且制定相关研究规范标准,保证研究的透明化和流程化,如在研究方案确定后统一进行研究注册和细节公开等,进一步增强RWE研究结果的可信度。
在过去的几年间,RWE受到很多学者和决策机构的关注,当前用于新型冠状病毒肺炎治疗相关的RWE也呈爆炸式增长[35]。越来越多使用单臂治疗研究和非随机研究为FDA药物审批和标签拟定提供证据[36, 37]。我们也希望能通过RWE为患者和医疗决策相关机构提供一些有意义的补充证据。2021年BMJ上发表了一篇关于FDA加速审批的药物存在上市后无临床效果且长期未被取消上市资格的相关问题的文章[38],在RWE研究快速发展的当下,给我们以警醒,RWE研究的初衷是为了更好地解决RCT结果不能推广至更广泛的人群以及长时间高成本等实际问题,补充决策证据体系,加速药品审批流程。但是在开展相关RWE研究时,需首先确保研究的质量。随着RWE研究的数据来源和研究方法的不断成熟,预计还会有更多的RWE研究涌现,将RWE纳入监管决策的机会也会越来越多。从长远来看,RWE用于补充和提供决策证据依然是一个可行的方案,今后在开展RWE相关研究时,需要进一步完善相关规范并严格遵守标准,确保研究流程的透明化和高质量实施,切实为患者和相关决策者提供有效信息。
所有作者声明无利益冲突





















