
针对评价系统综述偏倚风险的ROBIS(Risk of Bias in Systematic Review)工具进行详细介绍,包括ROBIS的制定过程、应用ROBIS对系统综述进行评价的3个阶段、并举例说明ROBIS的使用方法和注意事项。ROBIS与AMSTAR(A Measurement Tool to Assess Systematic Reviews)工具不同,是第一个制定出用于全面评价系统综述偏倚风险的工具,为研究者制定临床实践指南或系统综述再评价提供依据。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
系统综述是系统地总结既往研究成果,进一步形成决策证据的方法[1,2]。除了针对随机对照试验(RCT)的系统综述,还有观察性研究的系统综述、定性研究的系统综述等类型。如果在系统综述的设计阶段和制作阶段存在系统缺陷或局限性,会产生偏倚,进而影响结果的真实性和可靠性。系统综述制作过程的各阶段都有可能产生偏倚,用户在解释系统综述的结果和结论时需要考虑这些潜在的偏倚。因此,需要利用评估工具对系统综述的偏倚风险进行评价,以便筛选出高质量的系统综述,供研究者制作临床实践指南或系统综述再评价使用,从而有效促进循证决策。
目前已有许多工具评估系统综述的方法学质量,主要包括OQAQ(the Overview Quality Assessment Questionnaire)工具[3]和AMSTAR(A Measurement Tool to Assess Systematic Reviews)工具[4]。AMSTAR工具于2007年发布,是目前最广泛使用的工具之一[5],其主要用于评价基于RCT制定的系统综述,在非RCT系统综述中的应用有限;因此,2017年该工具又更新为AMSTAR 2,基于RCT或非RCT的系统综述均可以应用,共包括16个条目[6]。
2014年英国布里斯托尔大学(University of Bristol)社会医学部制定了一种全新的评价工具——ROBIS工具[7],其针对系统综述的偏倚风险,不仅用于评估包括干预性、诊断性、病因性、预后性等多种系统综述制作过程和结果解释过程中的偏倚风险,还用于评价系统综述问题与其使用者要解决的实践问题的相关性。本文主要介绍ROBIS工具,为国内系统综述制作者、临床指南制定者和其他相关研究者提供理解和应用该工具的参考,从而提高系统综述的质量,促进其应用。完整的ROBIS工具和使用指导可以从ROBIS网站(www.robis-tool.info)获取。
ROBIS工具的制定分为4个阶段[8]:
成立专家指导小组,通过视频会议确定ROBIS的范围,之后举行面对面会议,通过Delphi法最终确定ROBIS工具的要点、结构和性能。
制定者通过3种方法来获取证据以指导ROBIS的制定。①参考Cochrane干预性系统综述方法学期望值(Methodological Expectations of Cochrane Intervention Reviews,MECIR)的80个条目;②评价40个现有的系统综述或Meta分析的质量评价工具并进行条目分类;③对使用AMSTAR工具的系统综述进行再评价,以获取ROBIS工具潜在使用者的具体要求。
ROBIS工作组召开面对面会议及采用Delphi法,形成ROBIS的草案。
采用改良Delphi法确定ROBIS的范围和内容。在预试验的基础上,于2016年形成ROBIS的终版以及相应的使用指导。
应用ROBIS工具对系统综述进行评价的过程包括3个阶段:①评估相关性(根据情况选择);②确定系统综述制定过程中的偏倚风险程度;③判断系统综述的整体偏倚风险。
此阶段旨在评估目标问题与系统综述中拟解决问题的吻合度。评价者在制作系统综述再评价或临床实践指南时,首先需要确定想要解决的问题,即目标问题。对不同研究类型的系统综述(包括干预性、病因性、诊断试验和预后性系统综述),表1中提供了相应的评价内容。如果在PICO或类似的问题分类框架中有一个或多个分类条目不匹配,则阶段1相关性评估应该判定为"否"。如果仅评估系统综述的偏倚风险,而没有目标问题,那么可跳过该阶段(即根据情况选择)。

不同类型系统综述的PICO或类似问题(阶段1)
不同类型系统综述的PICO或类似问题(阶段1)
| 干预性系统综述 | 病因性系统综述 | 诊断试验系统综述 | 预后性系统综述 |
|---|---|---|---|
| 患者或人群 | 患者或人群 | 患者 | 患者 |
| 干预措施 | 暴露因素和对照因素 | 待评价试验 | 要预测的结局 |
| 对照措施 | - | 金标准 | 计划使用的模型 |
| 结局指标 | 结局指标 | 目标疾病 | 计划的时间点 |
此阶段主要确定系统综述制定过程中可能产生的偏倚,涉及制定系统综述的4个领域:①研究的纳入标准;②研究的检索和筛选;③数据提取和质量评价;④数据整合和结果呈现。各领域包括3部分内容:从系统综述中寻找支持偏倚风险程度判断的信息、回答信号问题、判断偏倚风险程度。信号问题的回答有"是/可能是/可能否/否/无信息"5种,据此,每个领域的偏倚风险程度被判断为"低/高/不确定"。如果一个领域内所有信号问题的回答都是"是"或者"可能是",则偏倚风险程度被判断为"低";如果一个领域内有任何信号问题的回答是"否"或者"可能否",则存在潜在的偏倚风险。表2总结了阶段2的4个领域21个信号问题和阶段3整体偏倚风险判断的3个信号问题。对每个领域的详细描述以及如何对每个信号问题进行评价可参考ROBIS的使用指导。领域1评估系统综述的纳入标准是否预先确定、是否清晰以及是否符合系统综述的问题。领域2评估是否有符合纳入标准的原始研究未被纳入到系统综述中。领域3评估数据提取和原始研究偏倚风险评价过程是否会产生偏倚。领域4评估系统综述制定者是否采用恰当的方法合并原始研究的数据(采用定量合并或非定量合并)。

ROBIS阶段2的各领域、阶段3以及信号问题总结
ROBIS阶段2的各领域、阶段3以及信号问题总结
| 项目 | 领域1:研究的纳入标准 | 领域2:研究的检索和筛选 | 领域3:数据提取和质量评价 | 领域4:数据整合和结果呈现 | 系统综述的偏倚风险 |
|---|---|---|---|---|---|
| 信号问题 | ●系统综述是否遵循预先确定的目的和纳入标准? | ●检索已发表和未发表的研究时所包含的数据库或电子资源的范围恰当吗? | ●提取数据时是否尽可能地减少误差? | ●数据整合是否包括了所有应该包括的研究? | ●结果解释中是否处理了领域1~4中所有的偏倚风险? |
| ●对于系统综述的研究问题,纳入标准是否恰当? | ●是否采用除数据库检索以外的其他方法来检索相关研究? | ●系统综述的作者和读者是否能获取足够的研究特征来解释结果? | ●是否报告了所有预先确定的分析或是否解释了未报告的部分? | ●是否恰当地考虑到了纳入研究与系统综述研究问题的相关性? | |
| ●纳入标准是否明确? | ●检索策略的检索词和检索结构是否能尽可能多地检索到符合纳入标准的研究? | ●是否提取了所有相关的研究结果用于进行数据整合? | ●鉴于纳入研究的研究问题、研究设计和结局指标的性质和相似性,数据整合方法是否恰当? | ●评价者是否避免过度强调有统计学意义的结果? | |
| ●纳入标准中所有基于研究特征的限制是否恰当(如研究发表时间、样本量、研究质量、结局测量)? | ●基于发表日期、发表形式或语言的限制是否恰当? | ●是否采用了恰当的标准来正规地评价偏倚风险(或方法学质量)? | ●数据整合中研究之间的差异(异质性)是否是最小或经过处理? | ||
| ●纳入标准中所有基于研究信息来源的限制是否恰当(发表状态或形式、语言、数据的可获得性) | ●筛选研究时是否尽可能地减少误差? | ●偏倚风险评价时是否尽可能地减少误差? | ●研究结果是否稳定,例如是否通过漏斗图或敏感性分析来证明? | ||
| ●原始研究的偏倚是否最小或是否在数据合成中进行了处理? | |||||
| 判断 | 判断研究纳入标准的偏倚风险程度 | 判断检索和(或)筛选研究所使用方法的偏倚风险程度 | 判断数据提取和质量评价所使用方法的偏倚风险程度 | 判断数据整合和结果呈现的偏倚风险程度 | 系统综述的偏倚风险 |
此阶段包括3个信号问题,是判断系统综述整体的偏倚风险,与阶段2各领域的结构相同,包括信号问题和支持偏倚风险程度判断的信息,但是判断的是整体的偏倚风险程度。例如第1个信号问题是关于"结果解释中是否处理了领域1~4中所有的偏倚风险",如果没有偏倚风险,将其判断为"是";如果这4个领域中有超过一个领域存在偏倚风险,但是在解释结果和得出结论时恰当的考虑到了这些风险,同样可以将其判断为"是";进一步根据其他信号问题的分级,这个系统综述仍然可能被判定为"低偏倚风险"。见表2。
使用已发表的研究举例说明ROBIS的实际使用。该文是2016年11月发表在BMJ杂志上的一个系统综述和Meta分析[9],研究者希望评价α受体阻滞剂治疗输尿管结石患者的有效性和安全性,研究纳入α受体阻滞剂与安慰剂或其他治疗措施进行比较的随机对照试验,主要结局指标是排出结石的患者比例,次要结局指标是排出时间、疼痛发作次数、采用手术治疗的患者比例、要求入院的患者比例以及不良事件。本研究除正式发表的系统综述,还在PROSPERO网站进行了注册(编号:CRD42015024169),这些资料作为支持信息来源在偏倚风险评估过程中被使用。由于本文仅评估系统综述的偏倚风险,并非制定系统综述再评价或临床实践指南,故没有目标问题,因而在评价时跳过阶段1评估相关性,对阶段2和阶段3进行评价。采用ROBIS工具进行评价后,该篇系统综述整体偏倚风险程度为"低"。见表3,表4。

阶段2各领域偏倚风险程度的评价
阶段2各领域偏倚风险程度的评价
| 领域 | 信号问题 | 回答 | 支持信息/理由 | 偏倚风险程度判断 |
|---|---|---|---|---|
| 领域1:研究的纳入标准 | ●系统综述是否遵循预先确定的目的和纳入标准? | 可能是 | ●本研究的计划书可以从PROSPERO网站上获得。计划书中有详细的纳入排除标准,在发表的系统综述全文中虽然未指出明确的纳入排除标准,但是指出在研究检索前已经制定了,可推测是按照计划书中确定的进行 | 低 |
| ●对于系统综述的研究问题,纳入标准是否恰当? | 可能是 | ●纳入标准详细、α受体阻滞剂的剂量未作限定、纳入研究实施环境为门诊和住院、结局指标围绕有效性和安全性 | ||
| ●纳入标准是否明确? | 可能是 | ●研究明确规定了研究设计、纳入排除标准、结局指标,但未明确描述疾病的诊断标准、干预组和对照组的具体使用信息 | ||
| ●纳入标准中所有基于研究特征的限制是否恰当(如研究发表时间、样本量、研究质量、结局测量)? | 可能是 | ●研究纳入了随机对照试验,文中未报告其他研究特征的限制信息,可认为未进行限制 | ||
| ●纳入标准中所有基于研究信息来源的限制是否恰当(发表状态或形式、语言、数据的可获得性) | 是 | ●研究检索了已发表、未发表和正在进行的研究,对语言未加限制,对同一人群发表的多篇文章如何纳入也进行了限定 | ||
| 领域2:研究的检索和筛选 | ●检索已发表和未发表的研究时所包含的数据库或电子资源的范围恰当吗? | 是 | ●研究检索了Cochrane Central Register of Controlled Trials (via Wiley), Web of Science, Embase, LILACS, and Medline (via PubMed)数据库,另外,通过已发表的系统综述或相关文献的参考文献进行补充,手检了3个会议的会议摘要以获得未发表研究,检索了ICTRP和ClinicalTrials.gov以获得正在进行的研究 | 低 |
| ●是否采用除数据库检索以外的其他方法来检索相关研究? | 是 | ●研究通过已发表的系统综述或相关文献的参考文献进行补充,手检了3个会议的会议摘要以获得未发表研究,检索了ICTRP和ClinicalTrials.gov以获得正在进行的研究 | ||
| ●检索策略的检索词和检索结构是否能尽可能多地检索到符合纳入标准的研究? | 是 | ●研究提供了详细的PubMed检索策略,检索策略具有可重复性,检索词和检索结构能尽可能多地检索到符合纳入标准的研究 | ||
| ●基于发表日期、发表形式或语言的限制是否恰当? | 是 | ●研究未对发表日期、发表形式或语言进行限制 | ||
| ●筛选研究时是否尽可能地减少误差? | 是 | ●研究指出由两组研究团队成员独立阅读每篇文献的标题和摘要、以及全文,有争议时邀请第三方进行判断 | ||
| 领域3:数据提取和质量评价 | ●提取数据时是否尽可能地减少误差? | 是 | ●研究指出由两组研究团队成员根据事先制定好的数据提取表,独立提取每篇文献的数据,有争议时,两组成员进行讨论,并请第三方进行判断。在评价纳入研究的偏倚风险时,同样由两个研究团队成员进行评价,有争议时邀请第三方进行判断 | 低 |
| ●系统综述的作者和读者是否能获取足够的研究特征来解释结果? | 是 | ●研究列出了纳入研究的特征,包括作者、发表年代、试验地点、主要指标、样本量、年龄、性别、结石大小、干预措施和结局信息 | ||
| ●是否提取了所有相关的研究结果用于进行数据整合? | 是 | ●研究中二分类变量以相对危险度(RR)和95%可信区间(CI)表示效应量,采用危险差(RD)计算需治疗的病例数(NNT),连续性变量以均数差(MD)表示效应量,相关数据均被提取 | ||
| ●是否采用了恰当的标准来正规地评价偏倚风险(或方法学质量)? | 是 | ●研究采用公认的已发表的工具——Cochrane偏倚风险评估工具对随机对照试验进行评价 | ||
| ●偏倚风险评价时是否尽可能地减少误差? | 是 | ●研究指出由两组研究团队成员根据Cochrane偏倚风险评估工具,对每篇随机对照试验进行评价,有争议时邀请第三方进行判断 | ||
| 领域4:数据整合和结果呈现 | ●数据整合是否包括了所有应该包括的研究? | 是 | ●研究列出了结局指标,并且在数据整合时包括了所有应该包括的研究 | 低 |
| ●是否报告了所有预先确定的分析或是否解释了未报告的部分? | 可能是 | ●本研究的计划书可以从PROSPERO网站上获得。计划书中详细列出了所有预先确定的分析方法,研究遵循计划书,进行了主要结局指标和次要结局指标的相关分析、以及Meta回归、敏感性分析、亚组分析、发表偏倚评价。但是研究采用了累积Meta分析,计划书中未指出采用此分析方法 | ||
| ●鉴于纳入研究的研究问题、研究设计和结局指标的性质和相似性,数据整合方法是否恰当? | 是 | ●研究根据不同的结局指标数据类型采用不同的数据整合方法,采用随机效应模型对数据进行合并,存在异质性时采用敏感性分析和Meta回归 | ||
| ●数据整合中研究之间的差异(异质性)是否是最小或经过处理? | 是 | ●研究采用τ2和I2计算统计学异质性,对于存在统计学异质性的情况,研究采用敏感性分析和Meta回归 | ||
| ●研究结果是否稳定,例如是否通过漏斗图或敏感性分析来证明? | 是 | ●研究进行的敏感性分析包括:排除联合使用皮质类固醇激素的研究、限制在全文发表在同行评议期刊的研究、根据不同的基线风险进行敏感性分析。研究采用漏斗图识别发表偏倚 | ||
| ●原始研究的偏倚是否最小或是否在数据合成中进行了处理? | 是 | ●研究对纳入文献的偏倚风险进行了评价,研究排除了高偏倚风险的文献后进行了敏感性分析,未对结果造成影响 |

阶段3各信号问题及系统综述总体偏倚风险的评价
阶段3各信号问题及系统综述总体偏倚风险的评价
| 信号问题 | 回答 | 支持信息/理由 |
|---|---|---|
| 结果解释中是否处理了领域1~4中所有的偏倚风险? | 是 | 阶段2中4个领域的偏倚风险程度均为"低",故回答为"是" |
| 是否恰当地考虑到了纳入研究与系统综述研究问题的相关性? | 可能是 | 在讨论部分对研究发现进行了讨论,并与已经发表的其他研究结果进行了比较 |
| 评价者是否避免过度强调有统计学意义的结果? | 是 | 研究中几个结局指标均为有统计学意义的结果 |
| 偏倚风险 | 低 | 阶段2对系统综述制作过程的偏倚风险程度进行了评价,均为"低"。结果讨论部分详细讨论了研究的优势和局限性,并且与其他研究的结果进行了比较 |
判断系统综述的偏倚风险并不总是简单易行的。ROBIS是第一个专门用于评价系统综述制定过程中偏倚风险的工具,在这方面与AMSTAR 2工具不同,AMSTAR 2工具是评价系统综述的方法学质量,可用于评价基于RCT或非RCT的系统综述,针对的是干预性系统综述。ROBIS可应用于不同研究类型的系统综述(包括干预性、病因性、诊断试验和预后性系统综述)。
ROBIS工具对系统综述进行评价的过程包括3个阶段,阶段2包括4个领域21个信号问题,每个领域的偏倚风险程度被判断为"低/高/不确定",阶段3包括系统综述整体偏倚风险判断的3个信号问题,也包括"低/高/不确定"。AMSTAR 2工具共包括16个条目。不可避免的,ROBIS和AMSTAR 2有些条目是重复的,例如检索时是否制定了全面的检索策略、筛选研究和提取数据时是否尽可能地减少误差、是否采用恰当的标准来正规地评价纳入研究的偏倚风险、进行Meta分析时数据整合方法是否恰当、原始研究的偏倚是否在数据合成中进行了评价等。但两种工具在结构方面有两个主要的不同,ROBIS工具阶段2中的"领域1:研究的纳入标准",对纳入标准设置了5个信号问题,评估系统综述的纳入标准是否预先确定以及是否清晰,另外还评价纳入标准是否符合系统综述的研究问题,因此评价时需要具备临床专业知识的人员参与,AMSTAR 2工具在评价纳入标准时仅评价是否纳入了PICO的要素以及是否预先确定。AMSTAR 2工具中有一个条目是评价研究者是否报告系统综述纳入原始研究的赞助来源,另外一个条目评价系统综述研究者是否报告了潜在的利益冲突,而ROBIS工具并没有关于利益冲突的条目。因此用两种工具进行评价的结果不一定一致。由于AMSTAR 2工具2017年刚发布,截至目前还没有研究比较ROBIS和AMSTAR 2在评价系统综述质量上是否有不一致。有研究同时采用AMSTAR和ROBIS工具对139个干预性系统综述的质量和偏倚风险进行评价[10],结果显示采用AMSTAR工具评价为高质量的系统综述中,有超过50%的被ROBIS工具评价为高偏倚风险,因此研究认为系统综述的方法学质量只能反映偏倚风险的一部分。研究建议评价者同时采用AMSTAR和ROBIS工具对系统综述的质量进行评价,互为补充。
ROBIS工具自发布以来,已经被越来越多的研究者用于评价系统综述的偏倚风险[11,12,13,14,15]。截至2017年4月,PROSPERO平台上已经有54个注册的计划书采用ROBIS工具评价系统综述的偏倚风险,18个计划书同时采用ROBIS和AMSTAR工具进行评价[16]。ROBIS工具的每个信号问题都有相应的标准和对偏倚风险判断的说明,富有条理且十分详尽。但在应用ROBIS工具进行评价时也存在一些问题:①评价过程耗时较长,工作量较大;②ROBIS工具对评价者要求较高,评价者需要具有一定的统计学知识和临床专业知识,建议评价时,两名评价者分别具有相关的专业背景。目前ROBIS工具的1.0版已可获取,之后还会不断进行更新,希望在应用过程中逐渐完善。
无





















