对传染病流行规律研究的数学和统计模型进行归纳和总结,探索新型冠状病毒疫情分析和决策建模研究的思路和建议。
对比分析了常用的传染病建模分析的数学和统计模型,重点研究了已经公开的有关新型冠状病毒的数学模型及其实际效果。
多个传染病动力学模型已经应用于新型冠状病毒肺炎的分析,它们分别考虑了追踪和隔离机制,城市之间的人口流动和干预措施对病毒传播能力的影响等因素。从分析结果来看,多个模型对感染人数的预测结果与实际情况差距较大。由此可见,对新型冠状病毒肺炎的动力学模型在准确性和扩展性上有待提高。
建议结合新型冠状病毒的特点,利用更加多源化的数据和信息,提高分析和决策模型的准确性和适应性。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
2020年伊始,一场突如其来的新型冠状病毒肺炎疫情在中华大地上肆虐,造成了超过59 800人感染,超过1 300人死亡(数据截止到2020年2月12日)[1]。面对当前的状况,我们都迫切的希望知道,未来还将有多少人感染?疫情还会怎样发展?什么时候能控制住疫情?
人类与传染病的斗争从古至今一直都在进行。从古老的黑死病到近代的艾滋病,从甲型流感疫情到非典疫情,可以说人类社会的发展史就是一部与传染疾病作斗争的历史。每一次的传染病疫情都对经济和社会的发展造成巨大的冲击。未来,传染病的威胁还将继续。2015年3月,比尔盖茨曾经在TED演讲中向我们发出警告:"The next outbreak?We are not ready"。
传染病的发生和发展过程受到自然环境、人口结构和防疫干预等多重因素的综合影响,一直都是流行病学领域的研究热点和难点。数学和统计模型因为其定量化、科学化的优点和精确性、可靠性的特质,很早就被用来研究病毒的传播过程。1854年英国医生John Snow通过绘制英国伦敦的霍乱地图,发现了病毒来自于被污染的水泵。通过隔离病毒,成功地解除了霍乱疫情[2]。1927年苏格兰流行病学家William Ogilvy Kermack和Anderson Gray McKendrick为研究黑死病和瘟疫的流行规律提出了著名的SIR(Susceptible, Infectious, Recovered)动力学模型[3]。该模型被广泛应用于各种传染病的建模分析中。此次新型冠状病毒肺炎疫情中,国内外研究团队都是以动力学模型为基础,给出疫情发展趋势的分析和预测[4,5,6,7,8,9]。
近年来,研究者们综合利用数学和统计模型,基于多源信息对传染病的流行规律进行更加精确地建模分析[10,11,12]。例如,在2013年暴发的非洲埃博拉病毒疫情、2016年美洲寨卡病毒疫情以及慢性传播的艾滋病疫情中,通过建模分析对病毒传播的时空过程都给出了准确而完整的描述。此外,基于模型分析的结果,学者们也提出了一些阻止病毒传播的新举措。例如,研究发现西非葬礼是埃博拉病毒的"超级传播事件",集中精力隔离最严重的埃博拉病例将大幅度降低传染风险[13]。这些基于数学和统计模型的研究成果,对各国政府和世界卫生组织应对传染病的决策提供了充分且可靠的依据[14]。
下面,我们将对传染病流行规律中的数学和统计模型进行一个简要的回顾,并对本次新型冠状病毒肺炎疫情中已经发表的建模研究进行对比分析。
用数学和统计方法对病毒传播机制进行建模的相关研究,经历了两个发展阶段,即经典模型阶段和多元化模型阶段。群体性模型的典型代表是SIR动力学方程模型[15]。该模型将人群分成易感者(记作"S")、传染者(记作"I")及康复者(记作"R")3个群体,并用确定性微分方程组来描述了3类人群在数量上的变化关系。在实际的使用中,SIR模型也有很多派生形式,例如,增设了已经暴露但是并没有传染能力的暴露者(记作"E"),这样的模型称为SEIR (Susceptible-Exposed-Infected-Recovered)模型;考虑了没有传染能力的潜伏者(记作"L")和无症状却有感染能力的无症感染者(记作"A")的SLIAR模型;以及考虑被隔离者(记作"Q")和住院者(记作"J")的SEQIJR模型。此阶段建模所使用的基础数据主要是传统的流行病学数据,包括确诊病例数或者累积病例数和接触跟踪数据(Contact tracing data)。这些经典模型描述了病毒在人群中传播的平均趋势,解释了疫情发展的宏观过程,被成功地应用于SARS等传染病疫情的分析[16]。然而,经典动力学模型的基本前提是同质性混合(Homogenous mixing)假设,即认为各类人群是均匀混合的,任意两个个体之间的接触概率相同。这一点与现实中人际接触的网络化结构不符合[17];另一方面,而且传统的流行病学数据通常会有延迟,且存在漏报和误报,这些干扰因素都降低了群体模型的精确度。
近年来,随着互联网技术和基因测序技术的发展,病毒基因数据、互联网搜索数据和地理信息数据等多源信息都被用来分析病毒的传播过程,传染病建模的方法进入了多元化发展的时代。从2004年开始[18],病毒基因数据在传染病建模中的作用逐渐显现。研究者通过分析不同感染个体体内病毒基因的差异性,构建病毒发育树(Virus phylogeny),并由此来推断感染发生的时间等关键信息。该研究方向总称为病毒发育动力学,主要应用于变异速度较快的RNA病毒,例如埃博拉病毒,艾滋病病毒和结核病毒等[10,12]。另一方面,互联网搜索数据在流行性感冒等常见病毒的建模分析中得到了很好的应用[19,20]。与传统的流行病学数据相比,互联网搜索数据具有时间延迟小,实时性强,调查范围广,稳定性高等特点。2009年谷歌公司首次提出了利用互联网搜索数据来预测流感趋势的谷歌流感系统[19]。随后的研究者不断改进统计方法,得到了更高精度的实时预测结果[20]。除此以外,电子病例数据和地理信息数据也被广泛地应用于传染病建模[21]。在这一阶段的发展中,研究者对传播过程的建模也更加细致,不仅考虑了人与人接触的网络化结构关系,也考虑了传播过程的随机性。除此以外,统计学模型在研究中扮演了重要的角色。统计学方法可以方便地融合多元化的信息,得到更加综合的分析结果。
此次新型冠状病毒肺炎疫情发生之后,国内外多个研究团队利用动力学方程模型对疫情的发展趋势进行了分析和预测[4,5,6,7,8,9]。下面,我们分别对5篇主要的文献中所使用的模型进行介绍,并探讨优化和改进的一些进展。
模型来源 | 模型构成 | 模型优点和不足 | 模型分析结果 |
---|---|---|---|
文献[4] | 带有隔离机制的SEIR模型,包括八类人群:易感者(S),暴露者(E),无症状感染者(A),有症状感染者(I),住院者(H),康复者(R),被隔离的易感者(Sq)和被隔离的暴露者(Eq) | 优点:考虑了常用的隔离和医学追踪机制对控制疫情发展的影响。不足:没有考虑武汉与其他城市间的交通流量及其对疫情的影响。 | 控制再生数Rc = 6.47(95%CI:5.71,7.23),高于其他所有研究结果 |
文献[5] | (1)基本的SEIR模型,包括四类人:易感者(S),暴露者(E),感染者(I),和康复者(R);(2)考虑了从武汉来往国外主要城市的交通总流量(LW,I和LI,W);(3)考虑了从武汉来往国内主要城市的交通总流量(LW,C(t)和LC,W(t)) | 优点:考虑了武汉与国内外主要城市的交通流量,并用各城市的确诊数据来进行综合分析。不足:没有考虑隔离和医学追踪等干预措施的影响。 | (1)基本再生数R0= 2.68 (95%CI: 2.47,2.86);(2)截至1月25日武汉累积感染75 815人(95%CI: 37 304,130 330),远高于实际情况 |
文献[6] | (1)基本的SEIR模型;(2)考虑了武汉与国内外各主要城市间的交通流量。 | 由于文章中未给出模型细节,因此无法给出细节比较 | (1)基本再生数R0=3.11 (95%CI:2.39,4.13);(2)截至1月22日武汉累积感染21 022人(95%CI: 11 090,33 490),高于实际情况 |
文献[7]和文献[8] | (1)考虑6类人群,包括易感者,感染者、确诊者、隔离者、康复者和死亡者;(2)考虑了状态之间转变的时滞效应,即从感染者到确诊者的时间延迟,从确诊者到康复者的时间延迟。 | 优点:同时考虑了不同群体之间转移的时滞现象以及采取隔离措施对疫情的影响;不足:没有考虑城市间交通流量及其对疫情发展的影响。 | 预计2月3日全国累积确诊人数22 410人。实际上,2月3日全国累积确诊20 438人。 |
文献[9] | (1)考虑了5类人群,即易感者,暴露者、感染者、隔离者和康复者;(2)采用随时间变化的病毒传播速率 | 优点:考虑了采用干预措施后病毒传播速率随时间变化的趋势;不足:干预措施的效果描述地过于简单,且没有考虑城市间交通流量及其对疫情发展的影响。 | 预计全国总累积感染人数8 042人(95%CI: 4 199,11 884),死亡人数898人(95%CI: 368,1 429),明显低于实际情况。 |
通过对比研究,发现这些已经公开或发表的文献,在不同侧面为刻画疫情传播的定量规律做出的贡献,但是从计算结果来看,这些工作的预测感染人数与实际情况都存在较大差异。此外,在模型构建上都存在一些共同的缺陷,主要包括以下几点:首先都基于均匀混合的假设,即认为各类人群的接触概率完全相同,都采用确定性微分方程模型来描述病毒传播过程,没有考虑病毒传播过程的随机性;其次,没有考虑新型冠状病毒肺炎在潜伏期具有明显的传染性这一特点;此外,在模型构建过程中,都没有分析模型中重要参数的可识别性问题。如果部分参数是不可识别的,那么对这些参数的估计结果将严重依赖于所选择的初始值,进而降低了模型预测结果的可信度。
除了利用动力学模型来分析全国总的感染人数,不少学者也将动力学模型与统计学方法相结合,对本次疫情的暴发地——武汉市的感染人数进行了建模研究。其中有学者[22]首先对武汉地区的感染人数进行估计,结果显示截至1月12日武汉实际病例已达到1 723例(95%置信区间:427-4 471)。该研究使用的样本量小,对于出行概率以及对海外被确诊概率的估计不符合实际情况,导致估计结果不确定性大。还有学者[23]对此进行了重要的改进,利用湖北省外城市和海外累计通报病例数,以及武汉出行至各地的概率,得到更加准确的估计结果,即截至1月29日,武汉发例数估计为3 933例(95%置信区间:3 450,4 450)。还有学者[24]对此进行了进一步优化,综合采用动力学方程和统计模型,给出了武汉市的感染人数实时估计。结果显示截至2月9日武汉发病病例数估计为56 833例(95%置信区间:55 242,58 449)。
本文力图对传染病流行规律研究中的数学和统计模型进行一个简要的总结。重点回顾了传播机制的建模方法和基础的数据来源。这些回顾对于我们科学地分析新型冠状病毒肺炎的疫情,有效地采取防控措施以及为将来建立传染病早期预警机制等方面,提供了重要的参考价值。另一方面,模型的拟合和预测算法及其实现方式也是传染病建模研究非常重要的内容。但是考虑到这些内容更加适合专业人士,所以本文对这方面没有涉及。
本文特别关注了已经公开的与新型冠状病毒肺炎疫情相关的建模研究,并对这些工作进行了对比分析。基于分析结果,笔者认为还应该在以下几个方面深入研究以优化和改进新型冠状病毒的传播机制模型:
病毒在人群中的传播不可避免地带有随机性,而前述的模型都以确定性微分方程为基础。它们可以看做对于真实的随机系统的平均场近似。这一近似在人口基数充分大且感染规模较大的情况下是完全可以接受的。但在本次疫情,即便在疫情最为严重的武汉,感染规模仍然只占其总人口的千分之一量级。因此,我们认为随机性依然在病毒的传播发展过程中起着难以被忽视的作用,在模型中加入随机性是有意义的。
笔者认为模型中应该考虑潜伏期携带者与无症状感染者的存在及其传染性,重症与轻症患者的转化,以及医学追踪与隔离过程中存在的时滞。综合考虑这些现实因素,使得模型能够更加真实地描述实际情况。
笔者认为还可以基于现有模型,引入多个城市以及其在空间/交通上的联系,刻画人口在城市间的流动规律及其带来的疾病传播,包括交通工具上疾病的传播,使得模型能够适应各种变化的实际情况。
在具体的建模过程中,需要依据病毒的传播方式来构建合适的模型。但是对于新型冠状病毒,它的传染性很强,潜伏期就具有传染性,而且具体的传播方式还没有完全掌握。这些都对准确建模提出了挑战。笔者认为,一方面可以从病毒基因数据入手,基于病毒发育树来分析感染发生的时间,从而更加准确地描述传播过程。另一方面基于临床数据的相关研究(如文献[25]等)也能够提供关于病毒传播过程,如基本再生数R0和代际间隔(Serial Interval)等要素的重要信息,这些都能够帮助建立更加准确的模型。
新型冠状病毒肺炎的疫情正在蔓延,确诊人数仍然在不断增长。我们相信通过建立准确可靠的数学和统计模型,能够正确把握疾病的流行规律,从而制定科学高效的防控措施,早日取得疫情防控战斗的胜利。