
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
近20多年来,医师和患者均认识到临床实践指南的重要性,所以指南数量逐年增加。1993至2016年国内医学类期刊共发表了664个指南类文章,但是多数为专家共识,基于系统综述的循证指南很少;国内指南平均参考文献数量为36条,而国际指南平均为400条;利益冲突问题严重,88%的指南无利益冲突声明[1],所以国内指南质量普遍较低。而且针对同一问题有多个指南,多个指南的推荐意见也可能有不同,让医师不知如何选择。因此建立指南质量的评价体系非常重要,有助于临床医师选择高质量的指南来指导临床实践,也有助于指南的制定者规范地制定指南。
2003年,来自加拿大、英国等13个国家的研究人员成立的临床指南研究与评价国际工作组,发布了指南研究与评价工具(Appraisal of Guidelines Research and Evaluation in Europe, AGREE),由6大领域、23个条目和2个整体评价条目组成。2009年,为了进一步提高AGREE工具的可靠性和有效性,使其更好地满足用户的需求,AGREE工作组对第1版的工具进行了修订,推出AGREEⅡ[2],领域和条目数量没有变化,但其内容更加具体和明确。目前AGREEⅡ已经成为国际公认的评价指南的"金标准"[3]。
我们对30个国内指南采用AGREEⅡ进行了质量评价,发现对多数临床医师而言,应用AGREEⅡ进行评价存在一些困难。一是不同评价者得出的评分差异非常大,AGREE对评价者要求比较高,不仅要求评价者对疾病专业知识很熟悉,还要求对指南的标准化制定过程、循证医学基本概念(如证据分级系统、证据检索方法)等知识经过系统化的培训,有深刻的理解,否则差异很大。二是AGREEⅡ中每个条目评分都是1~7分,权重是一样的,但是实际上每个条目的重要性是不同的。三是有些条目在国内指南中都无提及,如审计工具等。四是花费的时间较多,评价一个指南平均需要50 min。为了满足现阶段针对中国临床指南进行评价工作的需要,有必要在国外公认的AGREE Ⅱ的框架下,制定具有实质性等效的"中国临床指南评价体系"(AGREE-China)。
经过国家卫生健康委员会(以下简称卫健委)医管中心标准处的立项后正式启动制定流程,首先成立评价标准制定小组,成员以复旦大学循证医学中心的人员为主,同时邀请了来自全国各地的多学科专家,制定小组包括国家政策制定者、指南制定方法学家、临床流行病学和循证医学专家、临床医师、护理专家、杂志编辑,共20名。
小组成员学习国内外临床指南的建立规范[4,5]和推荐等级的评估、制定与评价证据质量分级标准[Grading of Recommendations Assessment, Development, and Evaluation(GRADE)分级系统][6],评价目前国内外已发表的临床指南评价标准和体系,包括各评价体系的内容、优缺点、与我国实际情况的对比。因为AGREEⅡ为目前国际比较公认的评价标准,所以重点分析其条目、应用现状,并且选择各种研究领域的2个指南进行评价,以了解应用的实际感受。每个小组成员形成书面的初始评价条目。然后,召开制定小组会议,面对面逐条讨论,经过筛选后形成统一的一份初始条目清单。
邀请全国各地各个领域的专家,包括各学科临床医师、临床流行病学和循证医学专家、文献检索专家、护理专家等召开专家共识会议,对初始条目清单进行讨论、修改、匿名投票,然后制定小组根据这些意见再次进行修改,形成指南评价标准的15条评价清单初稿。
检索和遴选近5年内发表的、有学科代表性的我国临床实践指南,覆盖专业包括儿科、风湿免疫、护理、消化科、心内科、血液科、眼科和肿瘤科。分别由两位独立的、相关专业领域、高级专业技术职称的评估者,采用AGREEⅡ和本次制定的评价标准对入选的指南进行评价。评价两种标准在不同学科实际应用中的优缺点,发现存在的问题,提出改进意见建议。并进行交叉验证,评价AGREEⅡ与我国标准之间的一致性(外部一致性),不同专家采用我国标准评价同一个指南的评分一致性(内部一致性)和可重复性。
再次召开包括临床流行病学和循证医学、神经外科、普通外科、肝胆外科、影像学、护理、消化内科、血液科、肿瘤科、儿科等多学科专家咨询会,面对面讨论,听取意见与建议,对初稿进行第一轮修改。根据卫健委医管中心确定的外审专家名单,进行书面评阅,包括150多位分别来自中华医学会、中华护理学会、上海市医学会、陕西省医学会等各个不同专科的外审专家。
期间,复旦大学循医学中心多次组织召开专家咨询暨讨论会,汇总外审专家意见建议。研究制定符合我国临床实际情况的2017版AGREE-China,包括评价标准、评价标准细则、评价标准实施说明,确定修订稿。
再次由独立评审员对同一指南同时应用AGREEⅡ、AGREE-China进行指南质量评估,汇总分析AGREE-China和AGREEⅡ总评分相关系数,AGREE-China的评审员间信度。验证并确定其作为指南评估工具的可靠性,再由中华医学会临床流行病学和循证医学分会常委对修订稿条目逐一背对背专家投票,形成正式稿并由专家组研究制定国家医疗临床实践指南库的收录条件。最后由卫健委医管中心组织专家验收结题。
AGREE-China构建过程流程图见图1。经过2轮背对背专家投票、3次专家共识形成会议、2次对国内指南的试用评价、外部专家审阅,经过10次修改,最后得到最终的清单条目、评分和权重以及评价标准细则。


指南评价标准包括5个领域(科学性/严谨性、有效性/安全性、经济性、可用性/可行性、利益冲突),共15个条目、1条整体评价"指南的整体印象:强推荐、弱推荐、不推荐"(表1)。重点关注"科学性/严谨性"质量评价的领域,共包括8个条目。每个条目的评分采用李克特(Likert)等级评分量表方法(0~5分),根据条目的重要性不同,给予不同的权重。可以计算不同领域的总分,也可以计算整个量表的总分,分数越高,质量越高。

中国临床实践指南的评价标准
中国临床实践指南的评价标准
| 评价领域 | 评价条目和内容 | 分值 | 权重 |
|---|---|---|---|
| 科学性/严谨性 | 1.指南制定小组由相关的多学科团队组成。 | 5(完全符合) 4 3 2 1 0 (完全不符合) | 1 |
| 2.制定指南的背景、目的和应用对象。 | 5(完全符合) 4 3 2 1 0 (完全不符合) | 1 | |
| 3.正确、全面的文献检索策略进行证据检索,并提供了全部参考文献列表。 | 5(完全符合) 4 3 2 1 0 (完全不符合) | 2 | |
| 4.对检索到的证据进行质量评价,对证据/证据体进行分级。 | 5(完全符合) 4 3 2 1 0 (完全不符合) | 2 | |
| 5.说明了从证据到形成推荐意见的方法。 | 5(是) 4 3 2 1 0 (否) | 2 | |
| 6.列出了推荐意见的推荐等级。 | 5(完全符合) 4 3 2 1 0 (完全不符合) | 1.5 | |
| 7.发表前经过外部专家的评议。 | 5(完全符合) 4 3 2 1 0 (完全不符合) | 1 | |
| 8.有指南的更新计划。 | 5(是) 3 0 (否) | 0.5 | |
| 有效性/安全性 | 9.推荐方案的有效性:同一临床问题,如有备选方案,列出备选方案;列出效应大小的具体数据。 | 5(完全符合) 4 3 2 1 0 (完全不符合) | 2 |
| 10.推荐方案的安全性:推荐意见考虑了不良反应和安全性,列出安全性相关具体数据。 | 5(完全符合) 4 3 2 1 0 (完全不符合) | 2 | |
| 经济性 | 11.推荐意见考虑了卫生经济学问题。 | 5(是) 3 0 (否) | 1 |
| 可用性/可行性 | 12.指南表达清晰,推荐意见明确不含糊,容易理解。 | 5(完全符合) 3 0 (完全不符合) | 1 |
| 13.指南容易获得和推广。 | 5(是) 4 3 2 1 0 (完全不符合) | 1.5 | |
| 14.指南检索和评估了中国研究的证据。 | 5(是) 3 0 (否) | 0.5 | |
| 利益冲突 | 15.指南制定过程有"利益冲突声明"。 | 5(是) 3 0 (否) | 1 |
| 总分 | / | / | |
| 你对该指南整体印象 | / | 强推荐 | |
| 弱推荐 | |||
| 不推荐 |
具体评分标准的细则和解释见附件1。例如第1条"指南制定小组由相关的多学科团队组成",如果只有1个行业专家制定,给0分;由2~5个行业专家制定,给1分;5个以上行业专家制定,给2分;多学科专家组成指南制定小组制定,给3分;多学科指南制定小组参加人员中包括方法学专家,给4分;上述基础之上,明确说明了方法学专家的角色,以及在指南制定中所起的作用,给5分。评分标准非常具体。
AGREEⅡ包括6个领域:指南的范围和目的、参与制定人员、制定的严谨性、表达的清晰性、应用性、制定的独立性。AGREE-China包括5大领域:科学性/严谨性、有效性/安全性、经济性、可用性/可行性、利益冲突。把AGREEⅡ中的指南范围和目的、参与人员、严谨性进行了合并,删去一些条目。考虑到临床医师更关注有效性和安全性,把其作为单独的一个评价领域。把AGREEⅡ评价中"指南提供了监督和(或)审计标准"等目前国内指南中尚不能做到的一些条目删去,增加了"指南检索和评估了中国研究的证据"等条目,强调中国的指南应该包含中国人自己的研究证据。AGREE-China和AGREEⅡ总评分的质量评级一致性较好(r=0.508,P=0.020)。
经过2次试用,发现与AGREEⅡ相比,AGREE-China评分更容易,各个评价者之间的差异缩小。AGREE-China的不同评审员间质量评分高度一致[组内相关系数(ICC)= 0.957,P<0.001]。与AGREEⅡ相比,AGREE-China条目的ICC相关性更强。评价时间缩短,评价同一指南,AGREEⅡ时间依据有无评价经验,需要45~60 min,AGREE-China平均时间均接近30 min。没有经验与有经验的临床医师相比,使用AGREE-China进行评估,质量评级高度一致,并均能提出是否推荐使用指南的建议,而AGREEⅡ使用非常耗时且需要训练有素的人员,不适合普通临床医师评价。
AGREE-China在AGREEⅡ的框架下进行了修改,包括每一条目的评分从7分制改为5分制,从23个条目精简为15个条目,删去了目前国内指南尚不能做到的条目,强调了中国的指南应该包含中国人自己的研究证据,附有详细的评分标准,应用时更简单高效,适合国内临床实践。
建立中国指南评价标准的意义在于:适合中国实际情况,应用性强;为中国指南的制定提供了参考标准,使制定者清楚一个好的指南应该包括什么内容;为将来建立中国指南库提供了入库标准。目前我国临床指南中,指南制定者的利益冲突以及患者的参与绝大多数未充分考虑,本评价体系中给予了适当的权重,旨在以后制定指南和发展指南评估工具时应更加重视这些问题。
本次制定的中国指南评价标准和解读是国内第1次尝试,按照国际标准的方法,以准确和透明的方式制定了评价标准,在临床不同学科中的试用验证也显示了此标准的高度有效性和可靠性。但它仍然有一些不足,需要在今后的研究中进行验证,例如找出哪些条目和质量维度是评估指南质量所必不可少,确定更精确的权重大小。另外,AGREEⅡ是迄今最为广泛验证的工具,此标准不能被视为独立于AGREEⅡ。希望在以后的应用中不断修改和完善中国指南评价标准,计划每1~2年修订一次。
卫健委医管中心标准处立项资助、召集组织外审专家评审;复旦大学循证医学中心提供技术、人员和财力支持;中华医学会临床流行病学和循证医学分会在评价标准起草和投票过程中的支持

中国临床实践指南的评价标准评分细则
中国临床实践指南的评价标准评分细则
| 条目 | 评分标准说明 | |
|---|---|---|
| 1 | 说明:指南制定小组一般不少于10人,多数由10~20人组成,成员主要包括:组长(由该领域的专家担任)、临床医师(包括专科医师和全科医师)、护理人员、临床流行病学家、循证医学专家、卫生经济学专家、信息学专家(文献检索)等相关的多学科专家。如有患者代表参加更佳。 | |
| 0分:只有1个行业专家制定; | ||
| 1分:2~5个行业专家制定; | ||
| 2分:5个以上行业专家制定; | ||
| 3分:多学科专家组成指南制定小组制定; | ||
| 4分:多学科指南制定小组参加人员中包括方法学专家; | ||
| 5分:上述基础上,明确说明了方法学专家的角色,以及在指南制定中所起的作用。 | ||
| 2 | 说明:制定指南的背景和目的是什么,谁将使用该指南、应用于什么对象。 | |
| 0分:没有说明制定指南的背景、目的、使用者和应用对象; | ||
| 1分:说明了指南制定的必要性和疾病负担; | ||
| 2分:在上述基础上说明了国内外有无相同指南,本指南是改编还是原创; | ||
| 3分:在上述基础上详细描述指南制定的目的; | ||
| 4分:在上述基础上明确使用者(医师、护理人员或其他); | ||
| 5分:在上述基础上明确应用对象(患者类别)。 | ||
| 3 | 说明:有明确的临床问题,并形成PICO问题(P:人群/患者,I:干预措施,C:对照/比较,O:结局指标)。对证据的文献检索有明确的检索数据库或检索平台、时间范围、检索词、检索策略。证据查全、查准。①列出所有数据库;②有时间范围;③检索词,检索策略;④证据查全查准;⑤提供全部参考文献列表。 | |
| 0分:未提及检索策略和数据库,无任何参考文献; | ||
| 1分:仅有PICO问题或附有参考文献; | ||
| 2分:有PICO问题,并列出关键词和检索策略; | ||
| 3分:在上述基础上,列出与主题相关的必要的数据库,应包括中外基本数据库,如PubMed、Embase、CINAHL、PsychoInfo、Cochrane Library、JBI数据库、中国生物医学文献数据库(CBM)、各专业学科数据库; | ||
| 4分:在上述基础上,有文献筛查标准、时间范围、文献是否公开发表等详细说明; | ||
| 5分:在上述基础上,提供检索流程和所有相关附件,并列出全部参考文献目录。 | ||
| 4 | 说明:对检索到的证据进行综合,形成针对某个问题的证据体,然后对证据体进行证据质量评价和分级,一般采用GRADE证据分级系统,分为A、B、C、D级。或者采用牛津循证医学中心证据分级系统,分为Ⅰ、Ⅱ、Ⅲ、Ⅳ级。对证据体采用证据概要表进行描述,如对设计方案、研究方法、结果的一致性进行描述。 | |
| 0分:对证据没有任何质量评价和分级; | ||
| 1分:少量证据有质量分级,没有分级的定义和标准; | ||
| 2分:绝大部分证据有质量分级,没有分级的定义和标准; | ||
| 3分:全部证据有质量分级,但是没有分级的定义和标准; | ||
| 4分:有证据级别,并有证据级别定义; | ||
| 5分:有证据级别,并有证据级别定义,并附有证据概要表。 | ||
| 5 | 说明:从证据到形成推荐意见应该有科学、正确的方法,如德尔菲法、名义群体法、共识形成会议法、投票系统等。形成推荐意见时不仅要考虑证据的等级,还要考虑本地的医疗环境、医疗条件、经济成本、患者价值观等进行利弊权衡,所以并非高等级的证据一定是强推荐意见。当证据不足或没有,或者存在争议的部分,明确指出相应的解决方法。 | |
| 0分:没有从证据级别到推荐意见的形成过程说明,也没有考虑证据以外的其他因素; | ||
| 1分:有从证据级别到推荐意见的形成过程的说明,但是不具体,如投票情况;也没有考虑证据以外的其他因素; | ||
| 2分:有从证据级别到推荐意见的形成过程的说明,采用了正规的方法,并清晰写明形成过程以及存在争议时的处理方法,或考虑到证据以外的其他因素; | ||
| 3分:有从证据级别到推荐意见的形成过程的说明,采用了正规的方法,并清晰写明形成过程以及存在争议时的处理方法,并同时考虑到证据以外的1个其他因素如医疗条件或者患者价值观等; | ||
| 4分:有从证据级别到推荐意见的形成过程的说明,采用了正规的方法,并清晰写明形成过程以及存在争议时的处理方法,并同时考虑到证据以外的2个其他因素如医疗条件、患者价值观或者经济条件等; | ||
| 5分:有从证据级别到推荐意见的形成过程的说明,采用了正规的方法,并清晰写明形成过程以及存在争议时的处理方法,并同时考虑了上述的各种因素的利弊平衡。 | ||
| 条目 | 评分标准说明 | |
|---|---|---|
| 6 | 说明:推荐意见应该有非常明确的等级定义和等级,如强推荐或弱推荐。 | |
| 0分:全部推荐意见均没有推荐等级; | ||
| 1分:有明确的推荐等级的定义; | ||
| 2分:<50%的推荐意见有明确的推荐等级; | ||
| 3分:50%~75%的推荐意见有明确的推荐等级; | ||
| 4分:75%以上的推荐意见有明确的推荐等级; | ||
| 5分:每一条推荐意见,都有明确的推荐等级。 | ||
| 7 | 说明:指南制定后发表前应该有制定小组以外的专家小组进行审阅。 | |
| 0分:无专家审阅; | ||
| 1分:有专家审阅,但专家的相关性和权威性未进行说明; | ||
| 2分:有专家审阅,并说明专家的相关性和权威性,但未强调外部专家; | ||
| 3分:有外部专家审阅,但专家的相关性和权威性未进行说明; | ||
| 4分:有外部专家审阅,并说明专家的相关性和权威性,但未说明专家组成结构的合理性; | ||
| 5分:有外部专家审阅,说明其组成结构合理,并说明专家的相关性和权威性。 | ||
| 8 | 说明:有指南更新的计划。说明现在的指南是否是更新版,准备多长时间更新一次。 | |
| 0分:没有指南更新计划; | ||
| 3分:有更新计划,但是无具体方案; | ||
| 5分:有具体的指南更新计划和方案。 | ||
| 9 | 说明:对于同一临床问题,如果有不同的备选方案,应该都写清楚,方便不同的临床医师选择。对不同方案的效果要有客观的评价,有具体的数据支持。 | |
| 0分:对所有的推荐方案的疗效均无明确的疗效说明和具体数据; | ||
| 1分:少量推荐方案(<25%)有明确的疗效说明和具体数据; | ||
| 2分:部分推荐方案(25%~50%)有明确的疗效说明和具体数据; | ||
| 3分:多数推荐方案(50%~75%)有明确的疗效说明和具体数据; | ||
| 4分:绝大多数推荐方案(>75%)有明确的疗效说明和具体数据; | ||
| 5分:在上述基础上,有临床获益程度描述与评价标准。 | ||
| 10 | 说明:制定推荐意见时不仅要考虑疗效,也要考虑不良反应和安全性,在指南中应该说明该推荐方案的安全性问题,会导致什么不良反应。 | |
| 0分:没有考虑各个推荐方案的安全性问题和不良反应; | ||
| 1分:很少的推荐方案(<25%)提及有不良反应,但没有具体数据; | ||
| 2分:部分(25%~50%)说明各个推荐方案的安全性问题,没有具体数据; | ||
| 3分:部分(25%~50%)说明各个推荐方案的安全性问题,有具体数据; | ||
| 4分:50%以上的推荐方案考虑了安全性问题,但没有具体数据; | ||
| 5分:50%以上的推荐方案考虑了安全性问题,有具体数据。 | ||
| 11 | 说明:推荐方案是否经过了卫生经济学的评价,如进行了成本-效果分析。推荐的方案应该是有效而经济的。 | |
| 0分:无卫生经济学评价; | ||
| 3分:提及卫生经济学,但没有具体数据; | ||
| 5分:有卫生经济学评价,并有具体数据。 | ||
| 12 | 说明:指南写作规范,条理清晰,推荐意见应该十分明确和详细,让人容易理解,不会引起误解。 | |
| 0分:指南表达不清晰,不易理解,推荐意见含糊不清; | ||
| 3分:指南表达尚清晰,可理解; | ||
| 5分:指南写作规范,表达清晰,容易理解。 | ||
| 13 | 说明:指南的全文在国内杂志发表,容易获得。指南包含了一些评估工具、评估标准、流程图等与指南推广应用相关的支持性工具。指南的推荐意见准确清晰,适合国内国情,容易推广。 | |
| 0分:指南无法通过公共途径获得,指南可操作性不强,无支持性工具; | ||
| 3分:指南的全文在国内杂志发表,推荐意见、推荐方案通俗易懂,有流程图等。指南有一定的可操作性,有一些支持性的工具作为附件; | ||
| 5分:指南容易获得,具有可操作性,有完整的支持性的工具作为附件。 | ||
| 14 | 说明:中国的指南应该纳入中国的研究证据,不能全部是国外研究。中国研究证据是指研究对象来自我国人群,包括发表在外文期刊的中国研究,也包括入组了我国患者的国际多中心研究。 | |
| 0分:没有检索国内研究证据; | ||
| 3分:有国内研究证据,但没有系统完整检索,证据不全面; | ||
| 5分:检索了国内的研究证据,并且纳入了研究证据,或者已经经过检索但是发现没有高质量的国内研究证据,有详细的说明。 | ||
| 15 | 说明:指南制定小组成员应该说明有无利益冲突,如果有利益冲突,是否会影响到指南的推荐意见。 | |
| 0分:没有"利益冲突声明",或者指南中出现药物或器械的商品名、对赞助商的志谢; | ||
| 3分:虽然没有"利益冲突声明",但指南中未出现药物或器械的商品名、对赞助商的志谢,可能不会影响指南的推荐意见; | ||
| 5分:有"利益冲突声明",并且说明是否会影响到指南的推荐意见,指南中没有出现药物或器械的商品名,也无对赞助商的志谢。 | ||
| 整体印象 | 说明:评价完成后,对该指南整体的印象,分为强推荐(临床上可应用性很好)、弱推荐(可应用性差)和不推荐。 | |





















