建立宁波市流感样病例(ILI)的预测模型,并对所建模型预测效果进行验证和评价。
收集2008年1月至2015年6月宁波市流感监测哨点医院ILI监测资料,对数据进行统计分析,建立ARIMA模型及ARIMA-GARCH模型对流感发病情况进行预测和评价。
2008—2014年宁波市ILI累计报告101 056例,发病率大致呈逐年下降趋势。针对ILI发病率的ARIMA模型构建中ARIMA(2,1,1)(1,1,1)12为最佳模型(BIC=6.250),白噪声残差分析得到Ljung-Box统计量Q值为6.027(P>0.05)。ARIMA-GARCH组合模型的预测效果较单一ARIMA模型理想,平均绝对误差分别为11.049和12.757。
ARIMA-GARCH模型可以模拟宁波地区流感的流行趋势,为流感防控策略的制定提供理论依据。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
流行性感冒是由流感病毒引起的一种传染性强、传播速度快的急性呼吸道传染病,也是第一个实行全球性监测的传染病[1,2]。由于流感病毒亚型较多,且容易发生抗原漂移和抗原转换,因此病毒极易发生变异,对人类健康造成极大的威胁。实施流感监测是防控流感的重要策略之一,其不仅可以预测流感的流行趋势,同时还能及时了解病毒的变异规律,为及时更新流感疫苗和科学防控提供重要的理论依据[3]。为实现流感发病形势的早期预测,已有众多模型被提出[4,5,6],不同的预测方法有各自的优点和不足,选择适当的组合方法将不同的单一预测模型组合起来可能增加系统的预测性能。
自回归移动平均(ARIMA)模型是时间序列分析中最常用的模型之一。ARIMA模型的优势在于可进行移动平均、指数平滑,特别是其预测能力较好[7],现已被成功应用到多种传染病预测及预警分析中[8,9,10]。自回归条件异方差(ARCH)模型普遍用于处理时间序列的异方差性,广义自回归条件异方差(GARCH)模型由ARCH模型发展而来,特别适用于波动性的分析和预测[11]。为了改善单一ARIMA模型的精度,本研究中对残差序列进行了分析,进一步建立了ARIMA-GARCH组合模型。本文拟通过收集宁波市2008—2015年流感监测资料,旨在掌握本地区流感的流行动态,并建立ARIMA模型及ARIMA-GARCH组合模型对流感样病例(ILI)发病情况进行分析,为评价和指导今后的流感监测和防控工作提供理论依据。
收集宁波市第一人民医院、宁海县第一医院和慈溪市人民医院3家哨点医院2008年1月至2015年6月医院门诊报告的ILI监测资料(包括病例的基本信息、发病日期和就诊日期等),2008—2015年各年的宁波市常住人口数来源于宁波市统计局。ILI指腋下体温≥38 ℃,且伴咳嗽或咽痛之一者,缺乏其他实验室确定诊断依据[12]。
ARIMA模型的建立按以下步骤进行:(1)序列的平稳化处理,ARIMA建模的前提条件是时间序列的平稳性,即要求原始序列均数和方差不随时间变化,对于非平稳序列,可以通过数据变换和差分来实现序列的平稳化;(2)模型识别,根据自相关(ACF)图、偏自相关(PACF)图进行模型的初步识别和定阶;(3)参数估计和模型诊断,参数估计采用非条件最小二乘法,选用各参数有统计学意义的预测模型,进行拟合优度检验,依据BIC准则,BIC值越小模型的拟合效果越好。对模型的残差序列进行白噪声检验,若P值大于0.05,则认为拟合的ARIMA模型是适合的。
GARCH(p,q)模型的定义为:条件方差(σt2)是条件均值方程的残差平方项的p期滞后值(εt-p2)和条件方差的q期滞后值(σt-q2)的线性组合。最常用的为GARCH(1,1)模型,其表达式为:
σt2= α0+ α1εt-12+ β1σt-12
当ARIMA模型的误差项存在ARCH效应时,则组合模型具有更高的预测精度,因此在ARIMA模型的基础上,我们进一步建立ARIMA-GARCH组合模型。
利用建立的2个模型分别对宁波市2008—2014年各月ILI发病率进行拟合。根据均方根误差、平均相对误差绝对值、平均绝对误差值的大小对模型进行评价,选出预测效果好的模型对宁波市2015年1—6月流感样病例发病情况进行预测,并与实际发病情况进行比较。
采用Excel 2010软件建立宁波市2008—2014年ILI发病人数和人口数的数据库,运用Eviews 6.0软件进行ARIMA及ARIMA-GARCH模型构建及统计分析,利用2015年1—6月ILI月发病率资料对模型拟合效果进行评价,选择拟合效果最优者进行预测。
2008—2014年宁波市3所哨点医院共报告流感样病例101 056例,ILI发病率的变化趋势见图1。2014年ILI发病率在历年中水平最低,2009年最高,且每年有2个流行高峰,分别为冬春季和夏季高峰,其中流行最高峰为2009年11月份。总体上,宁波市ILI发病率序列大致呈季节性波动,并呈逐年下降趋势。
根据原序列的时序图和ADF检验(P>0.05)判断,原序列不满足平稳序列要求,为消除长期趋势,首先对其进行一阶差分(D=1)处理,根据获得的ACF和PACF图判断,数据存在季节性,再对其进行一次季节性差分(D=1)处理,最后对转换后的序列进行ADF检验,结果(表1)有统计学意义(P<0.05),可判断差分后数据呈平稳状态。根据平稳的时间序列数据,进一步绘制ACF和PACF图(图2),通过对自相关与偏相关函数的分析,初步判断p,q,P,Q值。采用非条件最小二乘法进行估计,按照标准化BIC值最小的准则,经过反复筛选,得到最佳模型ARIMA(2,1,1)(1,1,1)12(BIC=6.250)。对该模型进行白噪声诊断,其残差序列自相关函数和偏自相关函数均在可信区间内,采用Ljung-Box检验残差白噪声,得到Ljung-Box统计量Q值为6.027,P=0.945,可认为残差序列为白噪声,说明此模型可以拟合ILI发病率序列。
变量 | t值 | P值 |
---|---|---|
ADF统计值 | -11.87509 | 0.0001 |
1%水平临界值 | -3.511262 | 0.01 |
5%水平临界值 | -2.896779 | 0.05 |
10%水平临界值 | -2.585626 | 0.1 |
为了改善ARIMA(2,1,1)(1,1,1)12模型的预测精度,本文对平稳序列的残差序列进行分析,正态性检验结果显示(图3),偏度不为0(Skewness= -0.04747),峰度大于3(Kurtosis=20.46027),并且P<0.05,说明残差序列为非正态分布,具有"厚尾"的特征,ARCH-LM检验结果进一步证明残差序列存在ARCH效应(P<0.05),因此残差序列存在异方差性。为消除序列的异方差性,在ARIMA(2,1,1)(1,1,1)12模型的基础上建立了GARCH(1,1)模型,再对ARIMA-GARCH模型进行ARCH-LM检验,相伴概率为P=0.547,说明消除了原残差序列的异方差效应。因此我们确立了ARIMA(2,1,1)(1,1,1)12-GARCH(1,1)组合模型。
注:ARIMA:自回归移动平均
根据以上构建的2个模型对2008—2014年的各月ILI发病率数据进行拟合。采用3个常用的拟合评价指标,即均方根误差(RMSE)、平均相对误差绝对值(MAPE)、平均绝对误差(MAE)对模型进行评价(表2),结果显示ARIMA(2,1,1)(1,1,1)12-GARCH(1,1)模型的预测值与实际值的拟合度较高,表明该模型的预测效果较好。最后利用ARIMA模型及ARIMA-GARCH组合模型对宁波市2015年1—6月流感样病例发病情况进行预测,并与实际发病情况进行比较(图4)。
注:ILI:流感样病例;ARIMA:自回归移动平均;GARCH:广义自回归条件异方差
模型 | RMSE | MAPE | MAE |
---|---|---|---|
ARIMA(2,1,1)(1,1,1)12 | 20.374 | 55.336 | 12.757 |
ARIMA(2,1,1)(1,1,1)12-GARCH(1,1) | 19.011 | 52.276 | 11.049 |
注:ARIMA:自回归移动平均;GARCH:广义自回归条件异方差;RMSE:均方根误差;MAPE:平均相对误差绝对值;MAE:平均绝对误差
ILI监测是症状监测,虽不能准确反应流感病毒活动度的真实情况,但可对流感的流行或大流行起到预警和提示作用[13]。宁波市流感病毒分离阳性率的高峰与ILI发病率高峰出现时间基本吻合[14],且流感病毒检出率与ILI存在相关关系,这与相关研究结果相似[15,16],所以本研究将ILI作为流感监测的敏感指标来反映流感活动的强弱,关注上述指标动态变化可以综合评价流感流行情况,作为流感大流行的重要提示[17]。
宁波市2008—2014年监测分析结果显示,2010—2014年ILI发病率变化趋势相似,峰幅波动较平稳。从ILI发病率变化趋势图可以看出宁波市ILI发病率每年有2个流行高峰,即冬春季和夏季,符合我国南方地区流感流行规律[18],而2009出现的秋季流行高峰是受甲型H1N1流感全球性大流行影响所造成的,说明新的亚型毒株出现会引起一定规模的暴发流行。2009年之后,流感的流行强度呈减弱趋势并相对平稳,与黄芳等[19]研究结果一致。虽然大流行后宁波市的流感流行强度减弱且近年呈现比较稳定的状态,但新的亚型流感病毒(如H7N9)已经给人们敲响警钟,所以仍需连续高质的进行流感监测。
由于流感发病率受某些自然和社会环境因素影响,回归方法不适合流感发病率的预测。而时间序列分析综合考虑了各种因素的影响,可以客观的描述动态数据的变化特点[20]。本研究中,宁波市ILI发病资料存在较大的波动趋势,首先利用ARIMA(2,1,1)(1,1,1)12模型对ILI时间序列数据进行拟合,然后通过分析ARIMA模型的残差序列,发现残差序列存在明显的ARCH效应。GARCH模型考虑了ILI发病率时间序列中随机扰动项的波动集群性,是处理时间序列异方差性的有效工具,模型的预测效果相对较好[11],所以我们进一步建立了ARIMA(2,1,1)(1,1,1)12-GARCH(1,1)联合模型。最后,通过用RMSE、MAE和MAPE值来检验模型预测效果,得出联合模型的预测效果优于单一ARIMA模型。本研究同时说明了应用时间序列模型预测流感发病情况的可行性,并且验证了流感哨点监测在预测流感暴发疫情中的实际作用。
本文建立的模型可以进行宁波市流感发病的预测,疾病预防控制部门可利用该模型来改善流感的防控对策,由于传染病的流行受多种因素影响,且时间序列存在随机变化趋势,所以当实际值超出预测值的置信水平时,预测模型应立即更新。