
在循证指南制定中经常会遇到一些问题,例如如何提出临床问题,如何用推荐等级的评估、制定与评价(GRADE)方法评估证据并形成相关联的推荐意见,如何区别循证指南与非循证指南,没有高级别的证据时能否制定指南条款,以及指南的制定过程中临床专家和方法学专家的职责如何分工配合。笔者从这些问题入手,探讨了如何去认识和走出循证指南制定认知上的误区,以提高指南的科学性、透明性、可靠性和适用性,促进规范化制定具有国际水准而又适合中国国情的指南。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
临床实践指南(以下简称指南)是为临床诊疗决策提供参考和指导的重要文件,是临床医师在对患者进行循证诊疗时的高级别依据。由于指南在提升临床医师的诊疗水平,规范医疗行为,提高医疗质量,以及改善患者临床结局等方面均十分重要,各个临床专业委员会、临床专家、学科带头人都十分重视指南的制定和更新。为提高指南制定的质量,笔者探讨了目前在指南制定认识上的一些误区及如何去看待这些问题,供读者参考与争鸣。
答案:否。指南的定义是基于系统综述的证据和平衡了不同干预措施的利弊,在此基础上形成的能够为患者提供最佳保健服务的推荐意见[1]。因此,发布指南目的是能够为患者提供最佳保健服务的推荐意见。患者最需要解决的是其疾病的诊疗问题,推荐意见应该针对临床上尚未解决的问题,包括一些新的证据(新的诊疗手段)是优于还是劣于目前已有的诊疗措施,能否改变目前的医疗行为。以根除幽门螺杆菌感染方案为例,2017年发表的《第五次全国幽门螺杆菌感染处理共识报告》[2]推荐三联方案,而近年来我国许多医疗单位使用铋剂四联方案取得了比较好的疗效,故应该继续使用三联方案(国外推荐使用)还是推荐铋剂四联方案?这正是在《2022中国幽门螺杆菌感染治疗指南》[3]需要解决的重要问题之一。因此,在指南制定时,首先要考虑的是为什么要制定或更新该指南,哪些是这个领域迫切需要做出推荐意见的问题,而不是像编写教科书那样面面俱到。例如某疾病的流行病学、发病机制等,这些是做出推荐意见的背景资料,并不需要列出证据等级和推荐级别。因此,临床问题并不是越多越好、范围越全面越好,一般建议指南中提出的临床问题的数量在3~8个。由于每个研究问题都需要全面检索文献,对其包括的每个结局指标都要进行证据收集、整合与评价,尽可能地应用推荐等级的评估、制定与评价(grading of recommendations assessment, development, and evaluation;GRADE)列出证据总结表(summary of findings table),并且不同的研究问题往往需要不同系统综述整合证据,需要花费大量的人力、物力和时间。考虑到一部医学指南最好在1年左右完成,而且每3~5年可能需要更新1次,笔者建议临床问题的数目不宜过多。
临床问题必须由临床专家根据临床需要提出。在提出临床问题时,临床专家需要考虑以下5个方面[4]:①这个问题是否在临床实践中经常被提出,但从未得到充分解决;②医护工作者是否无法针对这个问题给出明确答案;③这个问题已经被回答过,但现在有新的证据出现并可能会改变原来的答案;④在临床实践中,解决这个问题的措施或方法是否存在很大差异;⑤解决这个问题对临床资源的使用或医疗成本支出是否有重大影响。对某个临床问题完成上述5点考量后,"是"的回答越多,其重要性和迫切性就越高,临床专家组应根据问题的重要性和迫切性进行排序。
临床研究问题主要分为治疗、诊断、预后、病因、预防、筛查六大类[5]。提出临床问题后,需要将其转换为与之相对应的研究问题,例如关于治疗的临床问题需要转化为研究对象、干预措施、对照措施、结局(participant, intervention, comparison and outcome;PICO)成分的研究问题,即治疗对象(P)、干预措施(I)、对照措施(C)、结局(O)。只有明确与临床问题相对应的研究问题(例如PICO成分),才能有助于设立准确的文献检索策略,明确纳入和排除标准,并选择适当的偏倚风险评价工具。
临床专家需要与方法学团队合作共同确定与临床问题相对应的研究问题,以及研究问题中的必要成分。在《2022中国幽门螺杆菌感染治疗指南》[3]中,临床专家提出的问题是"治疗幽门螺杆菌感染哪个方案最好,以便于推荐给医师和患者"。该问题转换为治疗的PICO研究问题则为对于幽门螺杆菌初次和再次感染的患者(P),采用铋剂四联方案(I)与三联方案(C)的幽门螺杆菌根除率和不良反应差异(O)。根据上述PICO成分的关键检索词,就可以进行文献检索。筛查文献时纳入的文献均需符合PICO的内容。筛查时优选近期发表的系统综述或meta分析,若质量高、纳入文献全面、检索日期有时效,则直接引用其数据;若无研究符合上述要求,则启动对随机对照试验(randomized controlled trial,RCT)文献的筛查,获取文献后开展新的系统综述的制作;在系统综述和RCT研究均缺失的情况下,启动对观察性研究的筛查,对符合PICO的研究进行描述性总结。针对与治疗相关的不同研究设计,选择适当的偏倚风险评价工具,例如应用RoB-2工具[6]评价RCT的偏倚风险,应用ROBINS-I工具[7]评价非随机对照的对比性研究的偏倚风险。
制定指南的主要目的是需要对临床上重要的、尚未解决、医护工作者无法给出明确答案或答案存在很大差异的问题提供有指导性的推荐意见以协助医护工作者和患者选择最佳诊疗措施。因此,指南中的临床问题是临床实践导向而不是研究文献导向,即使未查询到相关文献、没有研究证据,必要时也需要制定指南。例如,在某新发传染病发生的初期,可能搜集到的证据是专家证据(即尚未发表的数据)、病例报告、病例对照研究或是回顾性和前瞻性的队列研究,上述并非高级别的证据,而专家组不会因为缺少高级别的证据就不制定或发表对诊疗的推荐意见,因为医护人员需要指导,患者需要选择,政策制定者需要建立紧急政策以应对突发流行事件。循证医学的证据并不只是包括RCT及其相关meta分析,故不要直接排除其他非RCT研究。无论证据是否充分或者质量、级别的高低,必要时均可作为制定推荐意见的依据。
如果只有低质量或低级别的证据,Yao等[8]提出以下5种情况可以考虑做出强推荐。①当低质量证据支持此干预措施可能对危及生命或者灾难性的情况有利时,无论危害结局的证据质量是高还是低,均可以做出强推荐。②当低质量的证据支持一项措施对某种临床情况的益处并不肯定,但是高质量证据支持其害处是肯定的(弊大于利),则强烈不推荐该措施。③当低质量证据支持两种措施的获益等效,但高质量证据支持后者措施的危险性更低或者花费更少,则强推荐后者措施。④当高质量证据支持两种措施的获益确定较少,低质量证据支持后者措施的危险性更高或者花费更多,则强烈不推荐后者措施。⑤当高质量的证据证明一个措施的获益不高,低质量的证据支持其可能存在灾难性的害处,则强烈不推荐该措施。除了考虑上述5种情况,在实际推荐意见形成过程中,还需要同时考虑4个重要的领域[9]:①干预措施受益与危害结局之间的平衡;②证据体的质量分析;③患者的价值观和偏好的考量;④资源及其他因素的考量。Yao等[8]提出的5种情况仅考虑了上述4个领域中的①和②。
循证指南与非循证指南主要的区别是循证指南是基于对证据体的全面检索(包括具体的医学文献数据库名称、检索的日期和检索词汇)及证据体的质量评估。在指南的每条推荐意见下面的"证据总结和推荐理由"中可以看到具体的描述,包括对筛选出来的文献进行系统综述的结果(主要结局的有效性和安全性的总结与分析)和对其证据质量评估结果的报道即可信度。同时,循证指南的推荐意见还会考虑到其他因素和理由(包括患者的价值观和偏好的考量、卫生资源、可行性、可接受性、公平性等因素)。非循证指南在证据总结方面对文献的检索并不完整,没有对证据体进行系统描述。因此,对证据质量的评估是不全面的,降低了可信度。
因此,在鉴别指南是否为循证指南时,不能只看题名是否为某指南及其方法学部分的内容。为了能够符合指南的报告标准,作者往往声明他们应用了GRADE方法制定指南,但是在制定过程中并没有按照GRADE的步骤去做。
临床研究证据等级评价的标准和方法有多种,比较常用的是牛津体系和GRADE体系。牛津体系将临床研究证据分为5个级别[11],其主要分级依据是不同临床问题下所对应的各研究设计对系统性偏倚的控制能力。各类临床问题所对应的高级别证据不同,例如干预措施有效性和安全性问题的一级证据是RCT,但用于诊断或检查方法准确性的一级证据是横断面研究[12,13]。无论是哪类研究,系统综述结论的可信性都比单项研究更高。GRADE更侧重对证据全貌进行评价,除了关注偏倚风险之外,还考虑了证据体内不一致性、不精确性、间接性和发表偏倚对观测效应值的影响,将证据体的质量分为高、中、低、极低4个级别,并且对证据体质量的升级也提出了明确的标准[9]。与牛津体系相比,GRADE体系突破了单从研究设计角度考虑证据质量的局限性,指南制定专家通常不会用GRADE去评价单项研究的质量,除非这项研究是该临床问题相关的唯一的研究证据(即证据全貌)。
GRADE提倡将证据质量级别与临床实践指南中的推荐强度关联。证据级别越高表示对其所显示的效应估计值接近真实效应值的把握度越高,制定强推荐的可能性就越大[9]。如果指南仅用GRADE对证据质量进行评级,或仅从报道形式上将推荐意见分为强弱,但并未将证据质量级别与推荐强度相关联,则不符合GRADE原则。GRADE提供了一套决策框架"evidence to decision framework",该框架引导使用者在决策过程中考虑干预的利弊平衡和证据级别,同时结合使用者的价值偏好、资源消耗、成本效果、可行性和可接受度来综合评价干预价值。在特殊情况下基于低质量证据也可做出强推荐,对此类特殊情况GRADE提供了详细指导[9],笔者在回答第三个问题时也作了相关回应。
指南的推荐意见必须明确且具有可操作性,避免模棱两可的描述。清晰、精确的推荐意见不仅有利于临床医师和患者的应用,而且有利于推荐意见被纳入决策支持工具(例如电子病历、决策清单等)[14],促进指南的推广应用。推荐意见所用语言应保持一致性,尽量使用主动语态,反映出PICO内容,并且体现相关证据体质量级别和推荐强度,陈述推荐原因(如利弊权衡)及提供推荐意见适用条件的相关描述和注释[15]。例如,当指南专家组推荐铋剂四联方案用于幽门螺杆菌感染治疗时,同时会对抗菌药物组合的选择、药物剂量范围和治疗时长提出实施建议[3]。如有亚组人群或者特殊场景需要作为例外处理,也应在实施建议中描述清楚。实现推荐意见的可操作性并非易事,因为指南专家组面对的数据经常有局限性,不是所有的临床研究问题都能通过系统综述找到证据,专家组试图从中寻找信息来形成推荐意见的实施建议面临诸多困难,以上述幽门螺杆菌感染治疗为例,如果从研究数据里无法分离出各种抗菌药物组合及剂量的亚组数据,则很难针对实施细节进行准确推荐。综合上述因素,指南专家组在组织推荐意见的语言时需要仔细平衡数据忠实性与临床实用性。
世界卫生组织指南制定手册中建议制定循证医学指南时需要成立4个组,即指导组、专家组、工作组(包括指南方法学家和系统综述团队)和外部评审组[15]。4个组分工合作,笔者着重阐述专家组和工作组的分工和配合任务。专家组的核心任务包括协助指导组确定指南范围,帮助指导组提出关键临床问题并转换成研究问题(PICO),确定每个临床问题相关的结局指标并根据指标对决策的影响程度进行排序,检查系统综述和证据质量评价的结果,解读证据并制定推荐意见,参与执笔或评审指南文稿。工作组中的指南方法学家是系统综述、GRADE方法的专家,可以弥补指导组、专家组及其他成员缺乏的方法学专业知识,其主要工作是监督指南的制定过程,指导系统综述团队的工作,对GRADE证据概要表进行评审,参加指南推荐会并引导专家组采用GRADE决策框架形成推荐意见。系统综述团队的核心任务是对指南中的关键问题执行系统综述,并制作GRADE证据概要表。专家组与工作组不能互相取代,而是互补、配合,双向奔赴。
综上所述,指南在规范诊疗和医疗资源的合理使用方面起到重要的指导作用。制定指南是一件重要且严肃的事,认识和走出上述循证指南制定认知上的误区对于制定高质量的指南至关重要。规范化制定具有国际水准而又适合中国国情的指南,提高指南的科学性、透明性、可靠性和适用性,以推动中国指南及相关临床证据在世界范围的应用。
中文:王吉耀,夏君,姚晓梅.走出循证临床实践指南制定的误区[J].中华消化杂志,2023,43(9):583-587.DOI:10.3760/cma.j.cn311367-20230718-00006. 英文: Wang JY, Xia J, Yao XM. Common pitfalls in evidence-based clinical practice guideline production[J]. Chin J Dig,2023,43(9):583-587.DOI:10.3760/cma.j.cn311367-20230718-00006.
所有作者声明不存在利益冲突





















