
探讨真实世界数据应用与研究者发起的临床研究存在的鸿沟及其原因,并收集不同利益相关者的建议。
该定性研究针对3类人群分别设计3个访谈提纲。使用建构主义扎根理论进行数据分析。
中国北京市的6家三甲医院(3家综合医院和3家专科医院)。
通过分层目的抽样,对来自12个临床科室的42名医生、5名信息科人员和4名临床管理者进行访谈。
目前,电子病历数据应用于临床研究的过程中存在鸿沟仍然是中国医院普遍存在的问题。缺乏数据互操作性、非结构化的电子病历记录以及对数据安全性的担忧,造成基于医院的真实世界数据应用受到限制。各方利益相关者给出的建议,包括更新医院信息系统、推进数据标准和建立独立的临床研究平台。
了解造成真实世界数据应用于临床研究出现障碍的原因并给出建议,有助于中国临床研究的发展。本研究认为,更新医院信息系统、推进资料标准化和建立临床研究平台,可以促进未来将真实世界数据应用于临床研究。
版权所有,未经出版人书面同意,不得转载、摘编本刊文章,不得使用本刊的版式设计。严禁以任何形式或途径翻印本刊内容,包括利用电子、机械、影印等方式对本刊文字或插图做全部或部分之抄袭复制或传播,或将本刊储存于任何检索库存系统内。
除非特别声明,本刊刊出的所有文章不代表BMJ出版集团、中华医学会和本刊编委会观点。
真实世界数据(real world data,RWD)定义为"日常采集的,从各种来源获得的,与患者健康状况有关和(或)与医疗卫生服务有关的数据",可用于支持多种类型的临床研究1,2,3,4。在中国,电子病历数据(Electronic Medical Record,EMR)是医生最常用的RWD来源。EMR可用于评估临床实践并发现最有效的诊疗方案,从而指导临床医生快速地改进诊疗实践5,6。鉴于EMR的价值,世界上已经开展了许多使用真实世界数据的临床研究7,8,9。但是,原始EMR与可用于临床研究的数据依然存在差距10,11,12。
近年来,全球信息技术产业发展迅速。中国政府积极推动临床研究中信息技术基础设施的发展13,14。目前,中国90%以上的医院都拥有先进的EMR10,15,并普遍使用电子数据采集(Electronic Data Capture, EDC)系统提高临床研究的质量和速度。研究者希望EMR数据可在院内访问并直接转换到临床研究系统中。但是,包括中国在内的大多数国家,EMR通常都是一个单独的系统,不直接与EDC系统关联11,12,导致在临床研究中,研究者需要将EMR中的数据重复手动誊录到EDC系统中。转录数据耗费时间、效率降低、也会由于人为错误而导致数据质量较差,以及数据无法溯源等问题16。
造成这种鸿沟的原因可能涉及多方面的复杂因素,在定量调查中很难获知。有研究报告,EMR数据应用的一些问题包括系统障碍、数据质量差和技术局限性等17,18,19。许多国家都在积极采取措施来改善EMR数据的使用,例如推进数据标准的使用,提高临床医生的意识以及开发新的信息技术11,12,20,21。由于文化差异,阻碍中国医院使用EMR数据的因素也值得探讨。因此,本研究调查了RWD应用与研究者发起的临床研究之间的鸿沟,探讨了造成这种鸿沟的潜在原因,并收集了不同利益相关者的建议。
定性研究能够了解参与访谈者的经验22。建构主义扎根理论(Constructivist grounded theory,CGT)通过考虑社会文化背景,对理论构建的经验提供了深入而全面的理解。该理论认为研究人员本质上是研究的一部分,并不是发现理论,而是通过与受访者的互动和解释来建构理论23,24。探索造成EMR应用于临床研究存在阻碍的原因,本研究采用了基于CGT理论的定性研究策略。
研究组于2019年7—8月,在北京大学医学部直接附属的6家医院开展定性访谈。包括3家综合型医院,即北京大学第一医院、北京大学人民医院和北京大学第三医院,3家专科型医院,即北京大学口腔医院、北京大学肿瘤医院和北京大学第六医院(精神卫生医院)。本研究已获得北京大学医学部伦理审查(IRB00001052-19052)。研究报告遵循《综合报告定性研究标准(COREQ)》的指南25。
访谈对象包括3种身份,第一种为临床医生,第二种为信息科人员,第三种为临床管理者。其中,临床医生又根据职称不同,分为高级、中级和初级。纳入不同身份的受访者,可多角度更全面地了解研究问题26,27。YC和ZSN联系了医院安排访谈。使用分层目的抽样的方法来选择每家医院中不同角色的代表28,29。当研究达到信息饱和时,即与每个角色的参与者进行的访谈不再产生新的编码信息时,对受访者的招募结束30。
受访者的入排标准如下:
纳入标准:
医院的正式员工;
同意记录访谈并自愿签署知情同意书;
临床研究经验(特定于医生)。
排除标准:
无法提供至少15分钟的面试时间。
采取面对面、半结构化访谈31,32,33。访谈形式为个人深度访谈(in-depth interview)或焦点小组访谈(focus group)34。根据临床医生的时间和意愿,可安排同科室不同职称的临床医生共同进行焦点小组访谈、促进讨论和交流。根据访谈对象的身份特点,有针对性的设计了3种访谈提纲。
1)与医生的访谈指南如下:
"您经常进行哪种类型的临床研究(例如随机试验、实用临床试验或观察性研究)?"
"进行研究时,通常会有哪些伦理方面的考虑?"
"请详细描述进行研究时如何收集数据。"
a.为什么需要执行手动转录?(如果受访者手动转录数据)
b.您如何确保数据的准确性?
c.您如何存储和管理源数据?
"您认为进行临床研究的最大障碍是什么?"
"您对改善研究过程有何建议?"
2)与信息技术人员进行的访谈指南如下:
"请描述您医院的数据管理过程。"
"医生对您的部门在临床研究方面有哪些常见要求?"
为什么不允许医生导出数据?(如果受访者提到医生需要数据)
"您对医生需要手动将EMR数据转录到临床研究数据库有何想法?"
"您对改善医生对数据的访问能力有何建议?"
3)与临床管理者进行的访谈指南如下:
"请描述您所在部门的临床研究现状。"
"目前进行临床研究的主要障碍是什么?"
"您的部门是否雇用了与信息技术公司的外部合作来满足您的研究需求?"
将来有这样的计划吗?(若没有)
"您对解决阻碍临床研究有效完成的问题有何建议?医院需要采取什么措施来帮助您?"
访谈员由课题组的2名博士研究生(JFF/DCY)、1名硕士研究生(TY)和1名实习生(LHQ)担任。访谈开展之前,访谈员接受统一培训,规范访谈用语和注意事项。访谈的结构化过程见在线补充文件1(见网站bmj.com)。
本研究共纳入访谈对象52名,1名由于录音设备故障而丢失录音,最终纳入51名(表1)。共进行了39次深度访谈和4次焦点小组访谈。临床医生共42名、信息科5名和临床管理者4名。纳入的临床科室包括创伤外科、儿科、放射科、妇产科、淋巴瘤科、麻醉科、皮肤科、普通外科、心内科、口腔修复科、眼科和肿瘤科等12个科室。受访者的平均年龄为(36.55±8.23)岁(年龄范围为24~58岁)。平均工作年限(11.84±10.5)年(工龄范围为1~46年)。

受访者基本信息
受访者基本信息
| 项目 | 人数(%) | |
|---|---|---|
| 医院 | 北京大学第一医院 | 17(33.3) |
| 北京大学人民医院 | 7(13.7) | |
| 北京大学第三医院 | 13(25.5) | |
| 北京大学口腔医院 | 4(7.8) | |
| 北京大学肿瘤医院 | 6(11.8) | |
| 北京大学第六医院(精神卫生医院) | 4(7.8) | |
| 角色 | 临床医生 | |
| 高级职称 | 11(21.6) | |
| 中级职称 | 14(27.4) | |
| 初级职称 | 17(33.4) | |
| 信息科人员 | 5(9.8) | |
| 临床管理者 | 4(7.8) | |
| 性别 | 男 | 15(29.5) |
| 女 | 36(70.5) | |
| 访谈形式 | 个人访谈 | 39(76.5) |
| 小组访谈 | 12(23.5) | |
| 合计 | 51(100) |
流程图总结了基于CGT的框架和51名受访者的反馈(图1)。研究者对于EMR数据的期望是,这些数据可以在医院内进行访问,并直接转换到临床研究数据库中。但是,我们发现了3个阻碍该目标的原因,包括缺乏数据互操作性、非结构化的EMR数据以及对数据安全性的担忧。更新医院信息系统、促进数据标准和建立独立的临床研究平台可能是解决这些问题的可行建议。


EMR数据不能直接转录到研究数据库中。大多数受访者指出,临床研究过程中最耗时且最费力的环节是手动转录数据。从医院的电子信息系统进行查询或导出数据非常困难,医生可能需要先将EMR中的数据手动转录到Excel文件中,然后再将数据用于临床研究。
实际上,研究数据仍然需要我们手动录入。因为大多数资料都以PDF、图片格式或文本格式存储,因此必须手动导出某些数据。-医生310/311/312
缺乏数据互操作性:根据受访者的回答,不同的平台或医院之间可能使用不同的数据标准,并且很难在信息系统之间实现数据共享。EMR数据使用的数据编码和数据存储格式与EDC系统的编码和存储格式不兼容。信息系统中使用的不同术语或编码架构之间缺乏互操作性,这给EMR数据使用带来了巨大挑战。
"不同的平台或医院可能使用不同的数据标准,因此无法跨系统使用数据。对我来说,来自其他系统数据的价值是有限的。"-中级医生114
数据安全问题:信息科工作人员回答,除非研究者能够充分保护与患者有关的隐私数据,否则不应将数据导出给临床医生。信息科的受访者认为,他们需要对数据泄漏负责,且无法确定临床医生如何使用数据。因此,信息科人员对数据安全的担忧导致数据访问批准程序更为复杂。
"EMR包含患者的私人信息,由于医院没有明确的政策,我们将不允许医生转出数据。因此,临床医生只能依靠自己转录数据。"-(信息科人员)313
非结构化EMR数据:EMR的主要作用是服务于临床实践,而不是临床研究。医生回答说,在使用医院EMR进行临床研究数据收集时存在许多问题。许多实验室检测或影像数据以PDF格式或图像文件储存,必须手动转录。
"EMR中记录的信息包括图片,例如心电图或实验室检查。这些图片中的结果无法直接在EMR中显示。"-高级医生601
更新医院信息系统:医院中的EMR和其他信息系统应进行更新,使得大部分临床数据可以作为数据格式而不是文本格式存储于电子病历系统中。
"EMR系统存在缺陷,需要改进更新,否则系统中存储的大量数据将毫无意义。"-高级医生401
建立独立的临床研究平台:医生和信息部门的工作人员都认为有必要建立一个独立的临床研究平台,并且一些医院已经开始尝试实施这种平台。该平台需要考虑数据安全性,这是信息技术部门员工和医院各方的首要考虑因素:
"我们医院已经在计划建立一个临床研究平台。电子病历中的数据可以实现直接转换,临床医生不需要重复收集数据,并且对患者的隐私数据进行保护,确保数据安全。"-信息科人员313
促进数据标准:受访者报告说,源数据应以统一的数据标准存储在EMR中,并应能够与其他临床研究平台实现数据交换。例如可以通过技术(例如光学字符识别软件)将纸质记录转换为电子化记录。
"国家不断推出数据标准化的版本,不同机构之间使用的数据标准可能不相同。因此开发和推广一套通用的数据标准非常重要。"-信息科人员116
这项研究调查了RWD应用于研究者发起的临床研究的鸿沟,并探讨了造成这种鸿沟的潜在原因及可能的改善建议。在6家三甲医院进行了定性访谈。这些医院具备较完善的科研条件,医生具有较强的研究意识。
通过访谈,我们发现手动转录仍然是研究者开展临床研究的一种普遍现象,而且EMR数据无法直接转换到临床研究数据系统中,对医生开展研究造成障碍。在全球其他国家也开展了类似的研究,有学者报告,缺乏对EMR功能的认识,EMR数据质量差、技术局限性和数据安全性等可能是阻碍EMR数据应用于临床研究的原因17,18,19。
本研究发现,造成数据使用鸿沟的第一个原因是缺乏数据互操作性。因为很难跨系统匹配变量并链接患者的数据,所以不同医院使用的不同平台系统对整合研究所需的数据造成障碍。因此,促进数据标准化很重要。许多国家已经做出了努力以改善不同医院中EMR的互操作性20,21,并采用了临床数据交换标准协会的数据标准11,38。
第二个原因是部分EMR数据是非结构化的。EMR主要服务于临床实践39,40。EMR数据仅在系统中存储一段时间,然后将数据从EMR系统导出到PDF文件。因此,当医生要搜索患者以往的信息时,只能查看PDF格式的文件。这些文件格式导致了额外的工作量。因此,需要更新医院信息系统,将文本格式的EMR记录转换为数据格式,并将EDC使用与EMR相同的编码和存储格式。人工智能等技术也可应用于非结构化文本分析。许多国家,例如韩国41、日本38和美国42已尝试升级EMR。例如,重新设计EMR接口使数据提取更加容易19。研究人员使用图像处理技术来更改EMR中图像数据的存储,并从以PDF格式存储的文件中获取纯数字数据42,43。文本处理技术已用于从医学文本中提取结构化信息17,44。EMR结合患者生成的健康数据以观察更多的患者健康数据41,45。
最后,关于数据安全问题,信息技术部门对数据安全非常谨慎。2017年,中国政府发布了《中华人民共和国网络安全法》和《电子病历应用管理规范》46。根据文件要求,只有在确保患者电子数据的安全性后才能进行数据共享。医院可建立一个独立的平台以便于不同的关键参与者安全地访问和管理数据,这也许是一个可行的建议,可以促进参与者之间的交流47,48,49。这样的研究平台可能是整合特定研究数据和常规收集的数据,并对患者隐私信息进行脱敏,降低数据泄漏风险50,51。根据访问者的身份,应根据不同级别授予对平台的访问权限52。通过对项目建立、数据安全性审查、源数据溯源和数据结果发布进行过程管理可以提高研究数据的效率、质量和可追溯性53。
该研究的一些局限性也值得关注。受访者是从6家医院招募的。未被选中的部门和医生可能有不同的看法,导致选择偏倚。为了最大程度地减少选择偏倚,我们使用分层目的抽样法,包括多个临床科室,并实现了信息饱和。尽管访谈员在进行定性研究方面具有经验,并参加了培训,但作者的文化背景和经验可能影响数据的解释。
这项定性研究基于CGT,研究了RWD应用与临床研究存在的鸿沟。研究访谈了医生、信息部门人员和临床管理者。由于缺乏数据互操作性、非结构化的EMR数据以及对数据安全性的担忧,导致RWD无法直接转换到临床研究数据系统。这些问题使得EMR对临床研究的用处非常有限。更新医院信息系统、促进数据标准化和建立独立的临床研究平台可能是解决当前问题的可行建议。在下一步研究中,我们将探索和验证这些建议的有效性。
志谢(Acknowledgements):We thank all individuals who took the time to participate in our interviews. We also thank Xueying Li and Meixia Shang for their help with recruitment and Xueyan Han for comments regarding the early drafts of this work.
作者贡献(Contributors):JFF, DCY, YXY and YC designed the study. JFF, DCY and TY collected the data. ZSN and YC contacted the respondents. JFF and WB analysed the data. JFF and LJK wrote the first draft of the manuscript. LL revised the manuscript. All authors contributed to the interpretation of the data and editing of the manuscript and approved the final manuscript. YC had full access to all data in the study and had final responsibility for the decision to submit for publication.
资金来源(Funding):This study was supported by the National Science and Technology Major Project of China (grant no. 2017ZX09304028-002).
利益竞争(Competing interests):None declared.
知情同意(Patient consent for publication):Not required.
伦理审查(Ethics approval):Ethical approval was obtained from Peking University Institutional Review board (No. IRB00001052-19052).
数据可用性声明(Data availability statement):Data are available upon reasonable request. Study protocol and original data are available on request by emailing the corresponding author.
资料补充(Supplemental material):This content has been supplied by the author(s). It has not been vetted by BMJ Publishing Group Limited (BMJ) and may not have been peer-reviewed. Any opinions or recommendations discussed are solely those of the author(s) and are not endorsed by BMJ. BMJ disclaims all liability and responsibility arising from any reliance placed on the content. Where the content includes any translated material, BMJ does not warrant the accuracy and reliability of the translations (including but not limited to local regulations, clinical guidelines, terminology, drug names and drug dosages), and is not responsible for any error and/or omissions arising from translation and adaptation or otherwise.
开放获取(Open access):This is an open access article distributed in accordance with the Creative Commons Attribution Non Commercial (CC BY-NC 4.0) license, which permits others to distribute, remix, adapt, build upon this work non-commercially, and license their derivative works on different terms, provided the original work is properly cited, appropriate credit is given, any changes made indicated, and the use is non-commercial.
See: http://creativecommons.org/licenses/by-nc/4.0/.





















