
"信息疫情(Infodemic)"是世界卫生组织在新型冠状病毒肺炎防控期间针对网络信息轰炸提出的一个新名词。信息疫情的出现提示网络流行病学建设的必要性和迫切性。
信息疫情产生的主要原因是网络空间扩大了信息传播范围和传播速度,却很难或无法把握信息传播的内容。新冠病毒肺炎疫情期间同时存在两个战场,即物理空间里人们与病毒面对面的战场和网络空间里全民的关注及信息传播的战场。
网络空间用户都是物理空间真实个体的映射,网络空间的疫情信息必然对物理空间真实的个体产生影响或伤害。随着互联网在人们工作生活中的作用越来越重要,开展针对网络空间事件对公众身心健康影响的系统性研究,将为规范网络用户行为、制定网络信息发布传播规则、提升公共卫生管理和社会治理提供科学依据。
本文以WHO定义的信息疫情为线索,探讨并提出网络流行病学潜在研究框架。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
世界卫生组织(WHO)指出,在应对"国际关注的公共卫生紧急事件"期间,大量缺乏科学依据的信息传播将干扰和误导公共卫生的有序防控,消减政府各项努力,对公共卫生和公共安全造成巨大的危害,WHO将这一现象定义为"信息疫情"(Infodemic)[1]。在2020年全民抗击新型冠状病毒肺炎初期,我国网络社交媒体/自媒体成功制造一场网络信息疫情:新冠疫情没有得到立即控制,是因为官员渎职偷懒,图谋私利;专家观点与自己理解不符,是因为专家们术业不专,学识浅薄;急需品暂时短缺,是物资匮乏,怂恿煽动民众抢购囤积物品,造成人群被动聚集。每天推送到公众眼前的信息,被数以万计的恶意或善意点击转发,撩拨刺激着公众的神经和情绪。美国近期一项调查也发现,大约50%美国民众认为有关新型冠状病毒肺炎疫情的信息"真假难辨"[2]。
信息疫情产生的主要原因是,网络空间扩大了信息的传播范围,加速信息传播速度,但很难或无法控制信息传播的内容。互联网技术的发展,尤其移动互联网支撑的社交媒体/自媒体,能够使得大量信息在全世界范围内快速、任意地传播,导致虚假信息和谣言在网络空间泛滥。2020年3月1日,我国出台实施的《网络信息内容生态治理规定》明确指出,网络信息内容服务生产者、使用者和平台不得开展网络暴力、人肉搜索、深度伪造、流量造假和操纵账号等违法活动[3]。由此可见,新型冠状病毒肺炎期间暴发信息疫情,已引发人们关注和思考网络空间事件对公众身心健康的危害[4]。
网络空间作为人们物理空间补充,网络空间事件发生有其独立性和特殊性,但网络空间的用户都是物理空间真实个体的映射,网络空间发布的不良信息必然会影响和伤害现实里的人群。因此,如何系统性认识和掌握网络空间事件特征,规范网络空间用户行为、制定网络空间信息发布传播规则,确定信息冗余度,避免信息疫情产生,降低网络空间活动对公众身心健康的危害,是公共卫生防控和社会治理亟待研究和解决的课题。对这些问题的研究和解决已超出传统流行病学范畴,进而催生了一门崭新的交叉学科—网络流行病学。
流行病学的研究对象是人群,随着人群面临主要疾病谱和健康关注重点的变化,流行病学的研究范围和目标不断充实和调整,流行病学定义也被不断发展和完善。流行病学定义经历了基于传染病防治、全部疾病(传染病和慢病)防治、疾病防治和大健康促进(如车祸、犯罪、安全和管理等)几个阶段,并产生若干流行病学分支学科[5]。谭红专等学者在其最新出版的《现代流行病学》中给出定义:现代流行病学是研究人群中的卫生相关事件或状态的分布及其影响因素,研究管理、决策与评价,以及研究如何预防疾病、促进健康、防治事故和提高效益的策略和措施的科学[5]。
传统流行病学的研究范围和目的,主要针对物理空间看得见的事件,尚未涉及网络空间事件对人类健康的影响和伤害。对照上述流行病学定义,本文认为网络流行病学可定义为:是研究与人群疾病和健康相关的网络空间事件的特征、分布及影响因素(包括网络用户行为特征、分布和影响因素,网络信息流行规律、趋势和冗余效益),研究网络空间事件与物理空间关联方法,以及研究如何优化网络信息疫情防控策略并服务于社会治理的科学。
由本文定义可见,网络流行病学的研究内容主要包括4部分:(1)刻画网络用户行为特征。根据网络用户登录的网站平台和发布信息内容,可捕捉网络用户特点和习惯,结合平台主题相关内容为网络用户画像。(2)解析网络信息传播规律和趋势。根据网络信息内容和目的,追溯信息起源、轨迹和特点,评估信息传播强度和力度。(3)连接网络空间与物理空间。寻找研究问题在网络空间和物理空间的耦合区间,确定合适的网络空间信息冗余度,评估信息疫情对公共卫生和公共安全的危害性以及对个体的伤害。(4)优选信息疫情防控策略和措施。对网络问题实施针对性干预,评估比较不同策略的干预效果,为公共卫生政策制定和社会治理提供理论参考及科学依据。
例如针对新型冠状病毒肺炎的信息疫情,可对产生重大公共健康和公共安全危害的信息进行溯源,评估信息危害度,确定信息发布者真实目的,理清从信息交流演变为信息疫情的环节,针对不同环节制定管理措施和防控政策。
网络空间是独立于物理空间的一个崭新环境,网络用户是连接两个空间的唯一桥梁。研究虚拟又真实的网络用户行为和言论对物理空间个体和公众健康影响是网络流行病学的核心任务。该定位决定了网络流行病学是一门典型的交叉学科,人才培养将以多学科交叉复合型人才为主。网络流行学建设涉及信息学、数学、计算机科学与技术、公共卫生管理、心理学和情报技术等(图1)。


综上可见,网络流行病学的专门知识是通过研究影响和危害人群疾病与健康的网络空间事件积累的、同其他相关学科既交叉又相对独立的知识体系。
除了现代流行病学研究的3个基本要素:研究对象(Participants)、干预措施(Intervention)和效应指标(Effect)。网络流行病学研究设计还要考虑如何将网络空间的研究结果与物理空间关联,即连接指标(Links)。根据研究目的,网络流行病学可对研究问题进行网络数据回顾性分析和前瞻性跟踪。例如回顾性分析新型冠状病毒肺炎防控中专家观点,也可以前瞻性跟踪这些专家发布的系列观点,观察评估其言论的科学性和可靠性。
网络流行病学研究设计遵循流行病学基本步骤:(1)通过对网络上用户行为和信息的描述性研究提出问题假设;(2)对网络用户特征和信息进行分析性研究,筛选问题的影响因素;(3)针对问题的主要影响因素进行实验性研究,确定问题产生的原因;(4)将网络空间与物理空间对接;(5)针对重要的网络问题建立网络监测,实施长期干预,完善公共卫生管理政策。网络流行病学研究设计遵循"对照"、"重复"、"随机"和"盲法"4个流行病学的基本原则,同时增加了网络空间和物理空间的"关联"。
网络流行病学的测量指标包括网络暴露时间和结局变量。在没有获得网络空间和物理空间关联之前,网络结局指标可称为疑似结局。
网络数据获取通常有以下3种方法:(1)利用网站自身提供的应用程序接口(Application Programming Interface,API)。API是网络平台管理者为用户获取平台数据提供的一种程序接口,用户通过API接口可以获取平台授权的数据。鉴于平台资源消耗,平台通常会限制每天API被调用次数。(2)针对页面信息的解析。当用户访问某个网站时,为了将所访问的信息以网页形式在浏览器呈现,信息会以某种特定格式组织为文本,通过保存和解析这些特定格式文本,即可获取解析的数据。(3)针对软件平台的屏幕内容识别。通过自动截图截取软件当前显示的界面,再利用图片内容识别技术(ORC)获取截图中的文字、图片等信息,目前该方法效率有待提高。
网络数据可分为结构化表单数据和非结构化数据,非结构化数据通常包括网络链接、文本、图像、音频和视频等。
针对结构化表单数据,可使用传统流行病学中的数据分析方法。网络数据分析的重点是非结构化数据语义解析,即从文本、图像、音频和视频中提取有意义的数据和知识,并进行结构化转化。相对结构化数据分析,非结构化数据分析方法尚在不断发展完善中,近年已开发了大量的算法工具。如Tomas Mikolov的文本分析模型Word2Vec[6]、Gary Bradski的图像处理算法库OpenCV[7]、Davis和Mermelstein的音频分析算法mfcc[8]、LeCun的卷积神经网络视频分析算法(Convolutional Neural Networks,CNN)[9]以及Matei Zaharia开发的集成数据分析平台Spark[10]等。
非结构化数据提取的知识用以刻画网络用户的行为特征,将网络用户表征为合适的关系,是分析网络上信息传播规律和趋势的关键。这些研究可引入图论、捕获再捕获、复杂系统和网络模型等分析技术。在网络空间和物理空间的关联研究中,还可能借助侦察与刑侦技术。
本文在新型冠状病毒肺炎防控期间提出建设网络流行病学,主要基于以下几个原因:首先,2019年WHO将网络成瘾定义为精神疾病,说明网络空间事件与人们的健康密切相关[11]。WHO在新型冠状病毒疫情防控期间提出"信息疫情"概念,进一步提示网络空间事件不仅会迷惑和诱骗公众,更给公众身心健康带来危害[4]。流行病学是研究人群中的卫生相关事件分布、影响因素及管理决策的科学,网络空间是物理空间的延续补充,网络空间事件与人群健康相关是流行病学研究范畴。但网络空间又独立于物理空间,网络空间事件有其自身的特征和属性,目前已有传统流行病学科无法提供针对网络事件的研究方法。第二,互联网技术带给人类生活各种便利的同时也给人们带来诸多伤害,如网络色情(图片、视频)、网络暴力(人肉、谣言)、网络犯罪(诈骗、传销)和网络成瘾(游戏、聊天)等。这些网络事件涉及公共安全、社会治理、公共健康和司法等多领域交叉问题,针对这些问题开展研究,亟待一门能够解决这些交叉问题的新学科。第三,健康医疗大数据研究为网络流行病学建设积累了交叉学科的方法和工具。实际上,谷歌通过解析互联网用户搜索信息内容、预测流感暴发和流行规律,就存在了网络流行病学的思想萌芽[12]。谷歌模型的失败是因为没有将网络空间研究与物理空间进行关联,导致依赖单纯网络数据预测的偏差累计放大,最后背离实际疫情[13]。由此可见网络流行病学研究结果必须与物理空间进行关联反馈,并根据反馈结果及时调整研究方法和研究方向。作者在前期MSM人群艾滋病防控策略范式研究中,建立了基于网络空间的MSM人群艾滋病防控模式,探索了网络空间与物理空间事件的关联,并尝试建立了基于网络空间的MSM人群管理范式[14]。
总之,本文提出网络流行病学的定义、研究思路和学科初步框架。作为一门新的交叉学科,随着相关研究的不断拓展和深入,网络流行病学的学科体系也将不断得到充实和完善。





















