
我国外科临床研究领域已有不少突破,但总体质量相对不高,主要体现在方法学的规范性、合理性和严谨性欠缺。因手术技术和设备应用的固有特点,在外科领域开展高质量临床研究须建立一套相适应的方法学体系。IDEAL协作网针对外科技术和设备创新提出了一套系统的方法学框架,即"IDEAL框架"。其主体分为5个序贯阶段:设计(idea)、开发(development)、探索(exploration)、评价(assessment)和长期随访(long-term follow up)。不同阶段所面临的困难、需解决的问题和采用的研究设计各有不同,须逐步推进。IDEAL框架虽然并非最完美,但仍是当前外科临床研究的最佳设计构架。在规范开展外科临床研究过程中,我们应积极思考如何改进和提高外科临床研究的方法学。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
循证外科(evidence-based surgery,EBS)作为术语,1997年最早在发表文献中出现[1]。以往我国外科学界更多处在查证用证的阶段,但近年已在向创证用证阶段转变[2]。在循证外科范畴里,外科临床研究主要扮演创造原始证据的角色。整体来看,外科临床研究可以涉及外科手术技术、外科手术相关器械设备、围手术期管理和综合治疗等多个方面。不同于经典的内科药物类临床研究,外科领域临床研究在干预措施方面更需要考虑到手术技术和设备应用的固有特点。因此,在外科领域开展高质量临床研究,须建立一套与其相适应的循证医学方法学体系。
IDEAL(idea,development,exploration,assessment,and long-term follow up)协作网针对外科技术和设备创新,提出了一套系统的方法学框架,即"IDEAL框架"(IDEAL framework)[3,4,5]。随着近年引入国内,IDEAL框架受到一定关注,但仍需要持续深入地实践和推广[6]。本文将介绍IDEAL框架的主要内容,并从国内推广的角度针对其中关键建议进行解读。
创新想法是外科临床研究开展的起点。外科创新想法可以来自于缜密的计划或实验室研究,也可来自于紧急情况、甚至是意外情况下的临床实际需求[7]。外科创新需要关注技术和相关设备的进步,技术发展使全新的或本质上不同的手术(如外科机器人手术)成为可能。此外,在预后极差的情况下[如合并严重血管和(或)内脏损伤的"损伤控制"手术],出于对现有医疗能力的突破,也可进行有计划和计划外的创新。创新在多数情况下是有节制的渐进式的进步,比如在传统基础上微调的新流程或新技术;创新也可以是全新的设计和手术程序,比如通过精细策划的研究计划(如腹腔镜技术最初用于人体或近代器官移植手术等)进行的临床试验。
构建IDEAL框架的目标为,针对创新性的外科干预措施建立一套科学严谨的评价体系,并根据外科干预发展所处阶段推荐相应的关键研究设计要素。在2009年刚提出时,IDEAL框架包括5个基本阶段:设计阶段(idea)、开发阶段(development)、探索阶段(exploration)、评价阶段(assessment)和长期随访阶段(long-term follow up),见表1[7,8,9];其中开发和探索阶段往往相互重叠同时或紧密序贯发生,可视为同一大阶段(第2阶段)的两个部分。2016年,IDEAL协作网推出"IDEAL-D框架",推荐了医疗器械评估和管理的方法体系[10]。2018年,IDEAL框架中又增加了临床前的研究和评价部分,称为"Pre-IDEAL更新",但尚未将其正式增列为IDEAL框架的第0阶段[11]。目前IDEAL框架是国际认可的外科领域临床研究方法学,现根据IDEAL框架中各阶段内容进行重点解读(BMJ版权许可号:4643901089968、4643910230926、4643920741712)。
| 阶段 | 问题 | 目标 | 样本量 | 最优研究设计 |
|---|---|---|---|---|
| 第0阶段(临床前,未正式增列) | 在人体研究开始之前,应调查所有患者可能面对的可预测风险 | 该操作的可行性和定义 | 临床前 | 形式多样,包括:模拟器、尸体、活体动物、模型的实验以及成本效果研究 |
| 第1阶段(设计) | 该操作或设备能否实现特定的物理或生理目标? | 设想的论证 | 单个到多个 | 第一次应用于人体的研究;结构化的前瞻性病例报告 |
| 第2a阶段(开发) | 什么是最优的技术或设计,对哪些患者效果最好? | 安全性、效力 | 10例 | 前瞻性的观察性研究 |
| 第2b阶段(探索) | 广泛使用的结局是什么?试验关注的问题能否达成共识? | 效力 | 100例 | 前瞻性多中心的观察性研究(二期),或针对可行性的随机对照试验(或两者均可) |
| 第3阶段(评价) | 与目前的标准治疗相比,该操作的效果如何? | 有效性比较 | >100例 | 随机对照试验 |
| 第4阶段(长期随访) | 手术的长期效果和结局是什么? | 质量保障 | >100例 | 观察性研究(病例登记数据库),或嵌套在某疾病大宗病例登记数据库的随机对照试验 |
针对外科创新的设计,IDEAL框架提出了以下几点建议。(1)登记与检索:理论上所有首次在人类活体实施的干预措施(无论是新技术或新设备)都应在某开放注册平台中登记,并报道外科创新的关键细节。这有助于后续研究检索已发表的文献信息。外科医生也应在首次人体应用创新计划开始之前,进行系统文献检索[12]。(2)知情同意:在试验开始前,拟接受创新干预的患者必须充分了解其试验性质,以及关于风险估计的不确定性。若患者由于能力障碍或时间紧迫无法完成知情同意,临床管理部门需要和患者家属通过讨论达成协议。对于事后回顾性病例也应同样要求知情同意。(3)监督:医疗机构应有临床管理部门,对在本机构首次应用的外科创新干预进行特定形式的独立监督。(4)伦理:医疗机构需建立明确的机制,使临床和伦理专家能迅速组合并发挥作用,必要时在正常工作时间之外亦能紧急启动合作。(5)失败记录登记:除报道成功的创新外,正式完整记录失败的想法或早期的失败同样非常重要,这有助于其他研究者避免不必要的重复。因此,IDEAL框架建议登记所有"首次人体应用"的创新技术或设备,并允许匿名上报。但为了让外科医生有信心上报其首次临床试验中的失败细节,尚需一定法律保障,即在有关管理机构和专业机构的支持下,保护外科医生免受法律纠纷。
IDEAL框架发现,由于操作的改进和目标对象的流动性,在开发阶段随机对照试验设计往往不便于操作,且由于技术或设备尚不成熟,急于开展随机对照试验也并不科学合理。故在本阶段更多采用观察性研究。需要强调的是,在本阶段,IDEAL框架支持前瞻性研究而非回顾性研究,要求对所有病例和结果进行连续完整报道,并清晰描述技术细节,包括在何时及如何改变了技术、设计或适应证。结果报道的病例顺序将有助于展示术者学习曲线对结果的影响。为更好地完成开发阶段,IDEAL框架从以下3个角度提出了建议。
关键要素是完成事前研究方案,方案中需明确各项技术环节和客观结果的定义,以及详尽透明的病例报告表单。在最终报道时,需说明何时在适应证或技术细节上做出改变以及改变的内容。尽管组织这类前瞻性研究需要较高的规划和更多的精力耗费,但其获得的研究数据比回顾性的病例系列报道结果更可靠、更有效。因此,IDEAL框架建议,处于开发阶段的技术和设备,学术期刊应积极区别对待相关前瞻性观察性研究,并应停止接受基于回顾性数据的研究,除非能够令人信服地证明无可行的替代研究设计。
这是一个需要国际外科界普遍认同的关键问题。IDEAL框架建议,情景因素应包括:(1)患者危险因素的分级;(2)一般状况和合并症的严重程度分级;(3)手术创伤量化;(4)操作的危急状况;(5)手术实施场所的条件。临床结局应包括:(1)功能状况分级;(2)并发症的范围和严重程度;(3)远期观察终点指标。这项共识需要国际社会、国家专业机构和主要学术期刊共同参与和努力才能达成。
与关键数据定义繁杂多样的研究相比,使用共同术语和分类方法的报道可较少混淆和质疑,从而提供更有价值的数据。IDEAL框架建议,专科终点指标最好由专科学术协会内达成共识形式来定义,而专科学术协会和学术期刊应该共同努力来标准化其关注领域的术语,如在术后并发症评价方面,目前普遍使用的Clavien-Dindo分类就是一个很好的范例[13]。
早期评估并不足以确证创新外科干预的效果,外科创新的最终评估还需要通过更多数据来支撑,最优设计是采用随机对照试验,收集实际准确信息并充分评估创新的优劣效果。此外,创新外科干预也可考虑其他适当设计类型的研究评估,前瞻性(可采用对照)的观察性研究是在探索阶段最可能采用的设计。基于以下4项建议,观察性研究的价值可以实现最大化。
应从多个外科医生(多中心为宜)收集实施新干预措施的连续病例数据[14]。理想情况下,这些研究还应以患者诊断或疾病分组为基础,而非按传统仅以一种新技术为基础。一项高质量、大规模前瞻性观察性研究可作为确定患者重要特征(包括特征组合)、技术干预变量(包括可能的联合干预),以及重点临床结局的理论基础。
在收集病例关键特征信息时,同时应使用标准化定义收集一系列的临床结局数据。研究中不仅要评估获益,而且还要评估危害。尽管各研究中涉及的范围和清晰度可能各异,但基本上,所有外科研究均须集中关注短期危害的风险(如手术并发症)。
手术技能的差异和相关学习曲线可能影响研究结果[15]。在探索阶段,需要尽可能将手术技术变化和学习曲线的评估纳入研究设计中[16]。建议明确和量化技能和学习效果的相关变量,如外科医生或医疗机构的手术量、质量评价以及适当的临床结局,并在可能的情况下对数据进行分析,以评估学习效果[17]。
在本阶段所进行的研究虽然不一定是确定性的设计,但需为确定性的评价研究(最好是随机对照试验)做准备。专业组织或政府机构应引导和促成多中心观察性研究,以评估其专业领域的重要新干预措施,并将其作为最终随机对照试验的坚实前期基础。所收集到的信息可以作为确定性试验(或其他高质量前瞻性研究)的启动时机、关键研究问题、适宜研究人群的重要参考。通过前期的观察性研究,可以评估干预措施的标准化情况、质量保证的相关技术,以及验证可测量的结果判效措施的实用性,并能够筛选出一系列协同因素和不利因素。
评价是IDEAL框架中的后期阶段。一般来说,需要通过随机对照试验才能得到确定性的评估结果。但在极少数情况下,由于早期评估已获得了大量有效的证据,故随机对照设计也可能是不必要的。但需要注意的是,在非随机试验中,偏倚所导致错误的风险非常容易被低估。基于信噪比的标准表明,至少需要达到提高5~10倍的疗效或治愈时,随机对照试验才可被认为是非必要的设计[18]。但很少有新外科干预措施能取得如此显著的效果,故大多数情况都需要进行随机对照试验,以确定其有效性。
在实际中,不采用随机对照试验设计的原因常是由于此类设计被认为不可实施。例如由于预期的病例招募困难,按时完成的可能性很低,将影响试验价值(如关键技术在试验结束时已过时)。在这种情况下,仔细考虑如何获得最有价值的、高质量的临床数据尤为重要。在此提出两个准试验设计:非随机对照试验和中断时间序列研究。这两个设计在方法学上比无对照的前瞻性观察研究更有说服力。当随机对照试验不可行时,该两类设计可起到确定性评估作用。
观察性设计中首选的是非随机对照试验,即将一组接受新技术干预的患者与同时接受标准治疗(标准手术、药物或无干预)的对照组进行比较。此类研究应纳入除随机化和盲法外、随机对照试验的其他积极设计要素,如前瞻性方案和标准化数据收集等。非随机对照试验中的选择偏倚可通过回归调整,控制已知的风险因素来把控。在开始收集数据前,应充分考虑相关的风险因素、如何记录这些因素以及可能存在的偏倚;进入研究时应详细准确记录患者相关特征。然而实践中,在基线招募后,由于治疗组分配时可能具有不同的暴露风险,会导致组间的可比性降低。因此,一般应尽可能对已知的预后因素进行调整或匹配,如目前越来越流行使用的倾向评分匹配和相应的分析[19]。某些情况下,观察性研究和随机对照试验的效应测量结果可能一致,尽管通常情况下观察性研究偏倚风险更大。
这是一种用于观察性研究的、替代性的准试验设计,可在评估阶段使用[20]。该设计使用异时性而非同期对照组。试验分别在新干预实施之前(即中断节点)与实施过程中的时间段内,观察关键临床结果。中断时间序列研究主要适用于有长期治疗某特定疾病经历的医疗机构评估开展相关新干预措施的疗效。虽然中断时间序列设计可被用于评估新干预措施的效果,但通常不应用其来评估临床干预效力。如果没有足够的患者数据来评判和控制风险因素,这种设计可能比非随机对照试验更容易产生偏倚。该设计特别有助于评估临床治疗的长期趋势,随着时间推移即可能影响所有患者的结果。因此在可能的情况下,可通过添加同期对照组(平行时间序列)来加强此设计。外科研究往往因综合干预措施和潜在的协同干预效果而变得复杂(如手术患者的内科和麻醉处理)。理论上,中断时间序列设计可以整合和隔离除了手术本身以外其他有影响的风险因素,减少偏倚。
在过去的30年里,随机对照试验在评估手术干预中的作用一直备受争议,但最终还是形成了共识:即接受规范实施的随机对照试验作为评价手术治疗有效性的"金标准"。虽有多项外科试验取得了成功并产生了影响,但也有试验经尝试以失败或未对评价的新干预措施产生实际影响而告终。即使进行了成功的试验评价,仍存在研究人员无法控制的因素(如创新和技术演进),而导致评价的适用性不确定。IDEAL框架建议,在评估阶段,大型多中心试验是最有价值且可行的。随机对照试验在评估手术技术方面存在一系列潜在问题,其中大多数问题源于3个相关问题[9]:(1)干预的定义;(2)干预实施人选;(3)外科医生和患者的治疗偏好。
通过以上几个阶段研究,尽管已可确定某一特定外科干预的疗效,但其在长时间广泛应用中的相关细节往往还存在一定疑问。要解答这些问题,需要在更长期随访阶段中,通过观察和监测研究获得关于技术安全性和有效性的高质量证据。出于对成本的考量,目前对长期监测的研究主要集中在医疗设备上,而外科手术中主要是关注植入式设备或材料。对于创新性外科技术或设备,即使其短期效果已经确定(IDEAL框架的第1~3阶段),也必须监测其长期效果。
1.手术操作的长期评估:精细设计的大型观察性研究(如大宗病例登记)可用于评估长期研究阶段的手术操作,其研究结果可为某些亚组开展试验提供理论依据,并在安全性和有效性方面提供罕见终点事件的数据[21]。从评估角度看,一些国家层面的、或具有代表性的病例登记库可被定义为收集"统一数据"的观察性研究,以评估由特定疾病、条件或暴露所定义的群体的特定观察结果。病例登记中心可收集特定条件或暴露(如手术或设备)、提供的医疗服务类型(如手术治疗或诊断程序)或特定结果(如不良事件、功能障碍或疾病)的相关数据,以实现改善医疗服务质量。
2.大宗数据的收集:数据收集的取舍需由实际因素决定。而原则上基于病例登记的优势在于,可考虑到操作选择和评估中可能存在的相关偏倚。操作登记可为不同的干预措施和设备提供有用的比较数据。长期的手术操作登记包括由专业协会开发的手术操作登记数据库,同时其他研究(包括随机对照试验)也可以嵌套入其中。外科手术操作或医疗设备的选择之间,以及同一中心内部或不同中心之间的类似患者之间往往具有很大差别。可以通过关注主要的潜在偏倚(即差异性的适应证范围),在实践中探索变异,改进比较研究的设计。另外,随访方式至关重要,如果数据收集不完整、不准确甚至失访,可导致各种分类错误。使用IDEAL框架早期阶段中提及的标准化术语,可实现常规捕获手术操作和设备的信息,有助于准确描述特定属性并正确识别所使用的技术[8]。
3.固有的共同局限性:(1)数据不能反映治疗意图:当患者接受多次干预(或多种设备治疗)的时候,"治疗意图"的概念并不容易从观测数据反映出来。在一个手术失败的情况下,如果患者后来接受了其他可将前者失败转化为成功的手术,这个"成功"的结果仍可能会被错误地归因于第一个手术[9]。因此,观察性研究(包括基于病例登记的研究)应尽可能处理分析真实世界中发生的治疗行为。然而,往往由于关键数据不规范收集,使用数据时可从资源使用的具体情况做出对异常临床场景的合理推断。(2)永久时间偏差:在此类研究中,病例进入队列(入组)到第一次接触(操作实施)之间的时间常未记录或未分析。入组后的一段观察时间内,由于治疗尚未发生,所以决定随访结束的治疗终点结果也无法发生。这种偏倚可能会影响结果,因为需要更快接受干预措施的病例可能比那些需要更多时间等待干预措施的病例看起来病情更重。(3)提前终止:由于患者拒绝、经济因素或其他可能情况,初始分配的预期干预措施可能并未启动就终止了。这些信息在观察性研究数据源通常并不收集报道,但仍需要有意义的解释。
4.外科设备的监控。在美国和英国,制造商和进口商被要求向监管机构提交与设备相关的死亡、严重伤害和故障报告。美国的医疗机构需要向制造商提交与设备相关的死亡和重伤报告,并向食品药品监督管理局(Food and Drug Administration,FDA)提交死亡报告;但医务人员和患方可以自愿(通过MedWatch)提交相关报告。这种被动报告制度通常有重要的弱点,包括:(1)数据通常未经独立核实而不完整或不准确;(2)数据可能有报道偏倚,包括严重性、独特性、公开或诉讼驱动;(3)不能从任何单独的报告中推断因果关系;(4)事件通常报道不足,且缺乏分母(暴露)数据,因此无法确定事件发生率或患病率。因此除了上述制度外,FDA还开发了一个功能更强的监测系统,使用了包括主动监测在内的几种不同的监测模式。该系统被称为"医疗产品安全网络"(Medical Product Safety Network),它基于代表性用户设施的集合,可实现对医疗设备的全国性监控。需要注意的是,设备的日常数据收集和监控需要持续改进。当资源可用时,基于病例登记的积极监测也可以帮助监测高风险手术和设备。
目前我国外科学界各个领域、各个层级的临床研究需求量巨大,各地研究人员的科研激情高昂。在过去的十余年中,我国外科、包括胃肠外科临床研究领域已有不少突破性的高质量试验[22]。但是目前国内临床研究的总体质量相对不高,主要体现在方法学的规范性、合理性和严谨性方面的欠缺。IDEAL框架虽然并非最完美,但仍是当前外科临床研究的最佳设计构架,在积极规范开展外科临床研究过程中,我们应继续思考如何改进和提高外科临床研究的方法学。为积极推广IDEAL框架,更详尽内容将在人民卫生出版社研究生规划教材《循证医学》第二版中呈现,部分内容已在中国医师协会2019年循证医学专业委员会年会外科学组成立大会中进行了学术汇报。总体而言,积极推广和实施IDEAL框架,对推进我国外科临床研究的质量提升有重要价值,期待在不久的将来,国际外科学舞台上能出现更多中国力量。






















