
静脉血栓栓塞症(VTE)是严重威胁住院患者健康安全的疾病,其因高发生率、高致残率和高病死率越来越引起临床医学界的广泛关注。然而,VTE的临床防治现状不容乐观,需要依托大型专病数据库,积累有效的循证医学证据,开展真实世界研究,逐步规范VTE的临床防治与质量控制。大型医学数据库的构建与发展离不开标准数据集。标准数据集通过数据标准化路线,建立VTE的概念数据模型。根据模型设定的对象类、定义类的属性,规范数据类型和属性的取值,整理出标准化数据元。本文重点介绍国内外不同VTE数据集的特点,阐述其在VTE中的应用及研究进程,以及数据集在规范临床和研究加强质控及人工智能方面的应用,来促进VTE数据集的建立并开展高质量的大型真实世界研究。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
深静脉血栓形成(deep venous thrombosis,DVT)是血液在深静脉内不正常凝结引起的静脉回流障碍性疾病,常发生于下肢。血栓脱落可引起肺血栓栓塞症(pulmonary thromboembolism,PTE),DVT与PTE统称为静脉血栓栓塞症(venous thromboembolism,VTE)[1],以急性PTE为主要临床类型的肺栓塞是目前住院患者非预期死亡的主要原因,也是引起医疗纠纷的主要原因之一[2]。
我国VTE的流行病学调研及VTE规范化防治工作起步较晚,但近20年来,我国VTE的流行病学研究及规范化防治推广工作取得了长足的进展,国内学者已通过研究初步获得了我国住院患者的VTE流行病学、风险特征及预防现状的数据[3, 4, 5, 6],并发布了系列的临床指南建议[1, 2,7, 8, 9, 10]。但是目前国内VTE数据的收集多是人工收集或是依托于单中心小样本的VTE数据库,仅能等到片面、少量的数据,难以积累有效的循证医学证据。多中心多层次临床研究的开展需要标准化的数据集[11]。为更好开展VTE相关的临床研究和质量控制工作,强化医务人员对住院患者实施恰当VTE预防与诊疗措施,建立更标准化、规范化、系统化的VTE数据库迫在眉睫。
医学信息学是随着信息科学与计算机技术在医疗卫生领域的不断应用,逐步形成了集医学、信息科学和管理学于一身的新兴边缘学科[12]。医学数据集(medical datasets)是依托于医学信息学发展起来的,通过建立概念数据模型和一组完整的数据规范,明确数据的定义、类型及应用场景形成的数据集合。标准化数据集是采用统一的概念和表示形式将数据元标准化,保证信息的准确性和一致性,实现对数据的高效管理和利用[13]。
国际上临床数据的标准化主要由国际标准化组织(the International Organization for Standardization,ISO)及国际电工组织(the International Electrotechnical Commission,IEC)联合制定[14]。ISO/IEC 11 179[15](1994—2000第一版;2003—2005第二版)是数据标准化方面的第一版基础标准。卫生信息交换标准(Healthy Level Seven,HL7)[16]是美国官方的一个标准开发组织,负责临床及其相关数据的标准化。美国、加拿大、德国、澳大利亚等国家均以美国卫生信息交换标准通用信息模型(HL7 reference information model,HL7RM)为标准模型,以卫生信息交换标准开发框架(HL7 development framework,HDF)为方法学,建立标准一致、内容互通的标准化数据模型。
我国数据元标准化是基于ISO/IEC 1l 179第一版的国家标准GB/T18391[17],目前尚未更新第二版。《卫生信息数据元目录》(WS363-2013)[18]、《电子病历基本数据集》(WS445-2014)[19]、《卫生信息数据元值域代码》(WS364-2013)[20]、《健康档案基本架构与数据标准》(2009)[21]、《公共卫生信息分类与编码研究》(2007年)[22]都是基于GB/T18391取得的代表性的成就。而包括VTE在内的专病数据库却还处在起步阶段。
最初利用数据库对VTE进行研究的有:1997年对英国全科医生记录的MediPlus数据库进行数据分析[23, 24],2001年启动的全球多中心注册登记研究-静脉血栓疾病注册登记(Registro Informatizado de Enfermedad TromboEmbólica,RIETE)研究[25, 26]以及在欧洲七国进行的前瞻性、观察性、多中心的VTE注册登记研究(PREFER研究)[27],三者都是通过依托数据集建立的数据库开展的,可以说标准化数据集是开展大型多中心临床研究的先行、必行之棋。
全基因组关联研究(genome-wide association study,GWAS)为识别新的VTE相关单核苷酸多态性(single nucleotide polymorphism,SNPs),设计了VTE-GWAS相关数据集[28],该数据集包括从GWAS中获得的数据,用于识别与VTE风险相关的遗传变异。例如,VTE易感性和癌症侵袭相关性的 GWAS 鉴定变异数据集[29]。
美国血栓与止血网络数据集(American thrombosis and hemostasis network dataset,ATHN dataset)从2010年1月1日开始注册登记,收集了美国血栓及出凝血相关疾病的患者,授权共享其人口统计学和临床信息用于研究,并依托该数据库进行了多项流行病学调查及队列研究[30, 31, 32]。
国际血栓和止血学会(International Society on Thrombosis and Haemostasis,ISTH)于2018年11月启动了VTE的通用数据元素(common data elements,CDEs)项目[33]。CDEs包括常用核心数据元素、抗凝和其他治疗方法、慢性VTE和功能结局、VTE的诊断问题、恶性肿瘤、围手术期、VTE的预测因素七个领域。使用该CDEs,研究人员能快速地构建数据库和病例报告表(case report forms,CRFs),并通过使用通用的标准化术语、定义、数据类型来更快地学习创造和更有效地结合研究数据资料进行荟萃分析,可以提高VTE临床研究数据的质量和一致性,为临床研究数据的比较和整合创造机会。
因国内VTE诊疗水平参差不齐、医疗保险类别和覆盖范围不一、网络服务系统不兼容等问题,使得国内标准化VTE数据库的创建困难重重。国内现有的VTE临床研究数据库多是单一医院开展的针对某一个或某几个临床问题而设计的小样本数据库,也未建立相应标准化的VTE数据集。
陈亚萍等[34]通过电子数据库对2014年至2015年在住院患者VTE的电子上报系统基础上,平稳运行了电子数据库,得到了相应的数据信息,并验证了基于医学电子病历系统建立VTE数据库的可行性;复旦大学附属华山医院的李芸等[35]根据美国医师学会(American College of Clinical Pharmacology,ACCP)的第九版《血栓治疗及预防血栓形成指南》,利用电子病历系统建立VTE风险筛查数据库;上海交通大学医学院附属第九人民医院的惠美蓉等[11]于2016年从数据库的设计、软件的开发、数据安全的维护、数据库的运行及应用全流程建立了单中心VTE数据库,同时纳入DVT、肺栓塞和深静脉血栓后综合征(postthrombotic syndrome,PTS)患者,包含病历、检验、影像等多方面信息,从疾病的发生、转归方面获得患者的全流程数据,并依托该数据库参与多项国内外的注册临床试验。
VTE标准化数据集的目标是获得VTE的流行病学及人口统计学数据,规范VTE的诊断、治疗、预防和质量控制,收集医学资料促进科学研究发展,应用大数据人工智能(AI)技术建立VTE的动态风险评估模型,开发基于数据集的辅助诊疗决策系统,反馈和改善医疗和护理质量。高质量的数据资源是VTE数据集的核心评价指标,这要求数据集编写的核心成员要根据国内外最新的卫生健康标准科学设计。流行病学与卫生统计学专家组、数据质控专家组对数据集框架构建宏观把控。
构建VTE标准化数据集需具备以下条件:(1)符合相关法规及伦理审核规范;(2)构建多学科多中心联合的编写团队;(3)制定标准化数据元的属性并定义[36];(4)充分保护患者的个人隐私,通过数据元匿名处理、数据元加密传输等最大程度地避免患者个人信息泄露[37]。
1.确立参照标准:以国内外数据及卫生信息等方面设立参照标准,例如:元数据注册标准[38]、卫生信息数据元标准化规则(WS/T305-2009)[39]、临床数据交换标准协会(Clinical Data Interchange Standards Consortium,CDISC)[40]的标准等。
2.构建VTE信息概念数据模型:收集、整理和分析健康档案产生的大量数据,从中抽象出对象类,构建对象类的层级关系和数据模型,即基于现有数据需求自顶向下(top-down)提炼的过程;然后通过设置模型中对象类的属性和属性的规范化描述,提炼出标准化的数据元素,即基于模型的top-down的具体化过程。上述两个过程形成一个循环,使数据元标准的研制和应用互为依托,相互促进,建立起VTE概念数据模型[41]。模型应包括通用信息、风险因素与评估、诊断、治疗、预防、预后与转归、特殊临床情况和临床研究等八个对象类[42]。
3.定义数据元的属性、规范数据类型和值域:采用“实体/属性/值三联体(entity/attribute/value triplets,EAV)”[43]的数据标准化方法,通过数据元标识符、数据元名称、定义、数据元值的数据类型、表示格式和数据元允许值六个数据元专用属性对数据元进行规范化定义。根据属性的特征,遵照 HL7 规范为属性定义数据类型,明确每个属性的取值,对确定数据元进行规范化描述[44]。
在所有技术领域的标准化环节中,首先要标准化的就是名词术语。名词术语是表达某一抽象概念的语言单位,标准化的名词术语应基于语言的科学、规范及标准的原则来确定其定义,并界定名词术语的特征[45]。VTE 标准化名词与定义是参照国家卫生健康行业中《卫生信息数据集元数据规范》(WS/T305-2009)[20]等相关标准,结合国内外权威的临床指南总结的规范的术语描述。
1.VTE相关的通用核心数据元素:人口统计数据、病史、体格检查、不良事件、研究设计的偏差、研究中止等。
2.慢性VTE和功能性结局:慢性VTE结局的定义,包括功能性结局、生活质量、慢性血栓栓塞(如PTS)和慢性VTE的监测和诊断机制等。
3.VTE的预测因素及风险因素:VTE患者特有的短暂和永久风险因素,包括遗传、环境和获得性预测因素,以及合并症;还应包含出血风险因素等。
4.VTE的诊断:诊断VTE通常用诊断学研究和临床预测方式,包括影像学研究、超声、肺血管造影、患病概率和预后的研究,以及确诊(复发性)DVT/肺栓塞的标准化定义等。
5.抗凝和其他疗法:VTE的治疗和一级及二级的预防疗法,手术、介入等其他疗法。
6.特殊临床状态下的VTE情况:恶性肿瘤,包括癌症相关血栓形成,包括活跃的癌症定义,癌症背景下与VTE相关的死亡率,癌症特有的VTE风险,癌症时VTE特殊性治疗;围手术期,包括手术前、手术中和手术后VTE情况;及女性相关危险因素,中心静脉置管或硬性固定的患者[33]。
值域是允许值的集合。卫生信息数据元值域作为数据传输交互的元数据属性,定义了其数据元的取值范围。VTE标准数据集在卫生信息数据元值域代码表编码的基础上,针对VTE领域中临床及研究的信息数据元自身的特点,提出并设计了VTE标准数据元值域代码的描述规则,并以代码中的顺序码分段区分的编码方法[42]。运用分类组合值域代码的方法,将VTE标准化数据集和VTE标准化数据集值域表桥联起来。
临床信息采集和病历文书记录是病历的重要构成部分。准确记录日常临床诊疗活动和结果的病例资料,不但是重要的法律文件,同时也具有教学价值和科研价值。因此准确、完整、及时、可再利用等要素是对优秀临床病历的基本要求。VTE标准数据集的建立规范VTE相关的病史采集、风险评估、检验检查项目及结果、预防和干预措施、不良事件等方面数据的收集,并提供标准名称、定义和应记录的标准值,可指导临床形成高质量、全面、标准规范的记录,在一定程度上,可以在不同专科领域进行同质化培训,是未来规范医疗数据的重要方法。
CRFs作为数据记录的载体,在设计上很大程度决定了数据采集的质量和完整性,基于CRFs的电子数据采集(electronic data capture,EDC)系统也依赖规范的数据收集和管理。基于CDISC标准制定的VTE标准数据元,在开展真实世界研究(real-world study,RWS)及其他国际化研究时,在制定研究方案、定义CRF过程中可直接参考引用CDISC标准,根据标准化名词与定义和关联数据元,充分理解VTE领域的科研数据采集要求,准确全面地采集临床科研数据,汇聚成更大规模的研究数据,产生更大价值[46]。
随着我国医药卫生体制改革的不断深化,医药卫生信息化建设及质量控制已全面推进。但仍存在着医疗质量管理评价指标体系不完善,信息化质控水平较低,缺闭环式、全流程信息化监控管理等问题,尤其是目前VTE风险评估数据来源不清、缺乏统一规范、依赖人工填报[47]。而高质量的标准数据集可以为医院的临床信息部门或软件平台提供工具,规范数据采集、存储和应用,进一步提升数据质量,并可以开发更多的应用场景[48]。由临床专家和信息化专家审核的VTE标准化数据集,可方便临床信息部门与软件工程专家根据应用的需求设计数据采集要求、存储规范、质控标准和应用展示[49]。通过制定一系列质控的定义和标准,可以为VTE质控的具体实施提供重要的标准化工具。
AI是1956年提出的一个术语,指的是利用计算机模仿人类的智能和批判性思维[50]。随着AI技术在医学影像的记录与判读、辅助疾病诊断和疾病风险的评估等方面的成功应用,AI技术也为数据库的建立提供了新的方向。例如,利用AI技术对涉及隐私的数据元进行加密处理,不仅保证患者信息安全,更有利于推动数据共享[51]。
自然语言处理技术作为一种AI方法被用于从电子病历的临床叙述中提取信息[52],可极大节约人工提取病例信息的时间。研究表明AI可能有助于VTE的预测、诊断和临床决策支持[53, 54]。胡龙军等[55]基于AI技术开发的VTE评估与辅助决策于一体的防治系统,可从院内患者电子病历(electronic medical record,EMR)系统中自动采集指标,并给出评估值和风险分级,能极大减轻医护人员的工作负担。朱一新等[56]通过将智能VTE质控系统嵌入的方式提高VTE预防意识及高危患者的预防比例,减少院内VTE发生率,加强医疗质量管理。蓝淳愉和曹磊[57]结合AI模型和自然语言处理引擎技术,构建的基于AI的VTE管控平台,显著提高了VTE的防控效果,并利用平台设计的数据存储功能,形成VTE专病数据库。Gao等[58]开展基于CDSS的系统干预策略的单中心预试验,初步验证了临床决策支持系统干预策略在内外科住院患者VTE预防中的可行性和有效性。
综上所述,随着对VTE认识的深入和诊疗规范的普及实施,有关VTE的预防和诊治水平不断提高,但在数据管理领域中仍缺乏基于VTE自身疾病特点并结合现有行业标准的VTE标准数据集,其建立迫在眉睫。VTE标准化数据集的建立和优化将有效地促进静脉血栓栓塞性疾病的质量控制和临床数据资源的整合与利用,规范我国静脉血栓栓塞性疾病在数据层面的管理,对我国VTE防治体系建设的标准化、规范化、同质化发展起到重要的推动作用。大数据及AI的普及为医学领域带来了革新,在肺血管领域,将数据集与AI工具结合,不仅有助于临床医生和科技工作者进行全面、标准、规范的数据采集及存储,为实践应用奠定坚实的数据基础,还有助于专业人员从全样本、真实世界数据中更好地认知、研究疾病,精准地制定临床决策和质量控制。
夏磊, 陈兆斐, 甄凯元, 等. 静脉血栓栓塞症标准化数据集开发和应用的现状与前景[J]. 中华医学杂志, 2023, 103(42): 3321-3327. DOI: 10.3760/cma.j.cn112137-20230226-00277.
所有作者声明不存在利益冲突





















