
大型人群队列研究因具有大样本量、多时间点数据等特点,使得其在病因学研究领域具有独特优势,同时也带来了数据管理与质量控制方面的巨大的工作难度。我国近年来启动多项大型人群队列研究,相关队列数据的管理与质控工作面临巨大挑战。本文综合当前我国队列研究领域已有经验和共识,从队列数据特点出发,针对问卷调查数据、临床诊疗数据、生物样本检测数据和观察结局数据等四种主要来源的队列数据的类型和主要形式,从数据存储、流转及传输等工作环节,全面概括了队列数据管理相关工作内容与方法,并针对这些队列数据,从调查问卷评估、数据逻辑核查、调查对象抽查以及多数据库复核等多种途径提出了相应的数据质控策略,以期为我国人群队列研究中数据管理与质控相关策略的制定提供借鉴。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
20世纪中期,随着慢性非传染性疾病对于人类健康的威胁日益严峻,人群队列研究开始蓬勃兴起。人群队列是一类针对特定的人群以个人或家庭为单位进行长期随访观察,以评估暴露和结局的因果关联的一种前瞻性的观察性研究[1,2]。这种研究形式先因后果的时间顺序明确,论证因果关系的证据强度高,结果外推性好,且可以同时评估多种暴露因素对多种结局风险的影响[3,4,5],因此是一种高效的关联研究策略。自1948年美国弗雷明汉心脏队列(The Framingham Heart Study)率先建立以来[6],诸如英国医生队列(The British Doctors Study)[7]、美国护士队列(Nurses' Health Study)[8]以及欧洲多国的出生队列已经并且仍然在产出了大量的高质量研究成果,为人群病因学研究奠定了坚实的基础。进入21世纪以来,队列研究的发展日益呈现出新的趋势,样本量更大,如英国的UK Biobank和中国慢性病前瞻性研究项目(China Kadoorie Biobank,CKB)均超过50万人。伴随着大样本量而来的海量人群数据的质量是评价队列建设的核心指标[9,10,11]。这些人群数据质控工作难度大、任务重、要求高。因此,需要在队列建设中强化顶层设计,采用合理高效的数据质控策略来提升数据质量。随着我国近两年在国家重点研发计划领域加大对队列建设的支持力度,以及一些大型研究机构和团队对队列建设的重视,我国目前正在建设和即将开始建设的人群队列数量快速增加。因此,本文拟综合队列研究领域已有经验和共识,探讨队列建设数据管理与质控相关问题,以期为我国人群队列研究中数据管理与质控相关策略的制定提供借鉴。





















