
大数据将改变以往任何行业管理、分析、利用数据的方式。在医疗健康领域,健康管理是未来医学模式的发展方向。国家卫生与健康管理大数据平台最基本、最具代表性的功能之一是健康管理。对于个人,有效的健康管理可达到未病先治的目的;对于社会,有效的健康管理可有效控制群体性疾病发展、降低医疗资源损失、减少医疗费用支出、提高医疗资源利用率。尽管健康医疗大数据的应用还受到数据质量、数据缺失、数据孤岛、数据安全、数据处理技术不足等因素制约,基于国家卫生与健康管理大数据平台的健康管理仍有望在慢性非传染病防控、亚健康状态干预技术、健康状态检测与评估、传染性疾病发病规律等研究领域取得进展。笔者基于健康管理的实质和功能,阐述了国家卫生与健康管理大数据平台的建设意义。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
随着云计算、大数据、互联网+、人工智能等技术的发展,人类社会已开始进入大数据(big data)时代。大数据将改变以往任何行业管理、分析、利用数据的方式,而医疗保健是大数据应用最有可能带来革命性变革的领域之一。健康医疗大数据是国家重要的基础性战略资源,其开发和利用可为公共卫生、疾病诊疗、健康管理、医药(含器械)监管、医疗评价和监管、医学教学、医学研究、医药(含器械)研发等领域带来全新的发展与变革。因此,建设国家卫生与健康管理大数据平台(以下简称"健康医疗大数据平台" )迫在眉睫[1]。健康医疗大数据的应用将带来健康医疗模式的深刻变化,有利于激发我国医药卫生体制改革的动力和活力,提升健康医疗服务效率和质量,扩大健康医疗资源供给,满足人民群众多层次、多样化、不断增长的健康需求,对国家社会、经济的发展具有现实的带动意义和长远的战略意义。
健康管理(health management)是健康医疗大数据平台的最基本、最具代表的功能。对于个人,健康管理可随时掌握健康风险指标,并结合自身情况提出个性化改善建议,从而对健康状态进行调整与干预,真正达到未病先治的目的[2,3];对于社会,有效的健康管理可控制群体性疾病,特别是重大慢性病的发生和发展,从而降低医疗资源损失、减少医疗费用支出、提高医疗资源利用率,从根本上解决"看病贵、看病难"的问题[4,5,6,7]。
本文对基于健康医疗大数据平台健康管理模式的实质、意义、功能、问题及发展方向进行介绍与分析。
目前广泛采用的是以疾病治疗为核心的生物医学模式,"重治疗、轻预防"的观念根深蒂固,人们对自身的健康状态及疾病发展缺乏了解,只重视治疗已患之病,而忽视疾病的预防[8]。世界卫生组织研究表明,决定人体寿命的因素中,15%取决于遗传,10%为社会条件,8%为医疗条件,7%为自然环境,而自身康复因素(自体的免疫力、心理素质、生活方式等)占60%[9]。据统计,1/3的疾病可通过预防保健避免;1/3的疾病可通过早期发现得到有效控制;1/3的疾病可通过有效地信息沟通提高治疗效果[10]。因此,未来的医学模式必然从有病治病向无病保健方向发展,将药物治疗转为药物治疗与非药物治疗相结合,将单一的被动治疗转为被动治疗与主动保健相结合,形成以预防为主的健康管理模式。
健康管理是指对个体或群体的健康状况进行全面监测、分析、评估,提供健康咨询和指导,以及对健康危险因素进行干预的全过程[11](图1)。随着健康管理研究与应用的不断发展,健康管理已由最初单一的健康体检与生活方式指导,发展到基于国家或国际组织的全民健康促进战略规划的制定,以及个体或群体全面健康检测、健康风险评估与控制管理[12,13]。作为一种前瞻式的医疗模式,以健康医疗大数据平台为基础的健康管理模式可对引起疾病的各种危险因素(如遗传因素、生活习惯、生活环境等)进行归纳、分析、评价、预测,并结合个体自身情况采取物理调理、中医调理、饮食调理以及通过改善睡眠、运动和服药等措施对健康状态进行调整与干预,形成闭环管理,从而达到对疾病的预防或控制发展的目的(图2)。




随着网络技术的发展与应用,全球范围内的数据量正以前所未有的速度增长,大数据带来了数据存储、数据分析、数据应用、数据价值的重大变革。以麦肯锡为代表的国外权威研究机构对大数据的特点进行了分析,认为大数据必将为社会经济的发展带来新的机遇和挑战,指出大数据将在互联网技术、超级计算、信息安全、数字经济学、环境科学、生物医药、医疗卫生等多个领域带来前所有未有的变革[14,15]。
在医疗卫生领域,各种医疗信息系统、数字化诊疗仪器、可穿戴个人健康设备、智能健康设备等会生成海量信息,形成医疗卫生大数据流。波恩曼研究所的一项研究估计,2012年,医疗行业的各类数据占据了全世界电子数据存储空间的30%[16]。2015年,一家大型综合医院的医疗大数据年产出量就可达500+ TB/年[17],而根据医疗数据的保存要求,门诊记录保存时间不得少于15年,住院病历保存时间大约为30年。这些医疗大数据中蕴藏着大量的信息,这些隐藏的信息(知识)会改变人们的生活,或在很大程度上改变世界本身。而使用大数据分析技术对这些信息(知识)进行提取,是提高人类健康水平最快速、成本最低、最有效的途径。
健康医疗大数据是海量、高增长率和多样化的信息资产,需要具备更强的决策力、洞察力、发现力和流程优化能力的新型数据处理模式才能进行处理[18]。健康医疗大数据平台不仅可发现医疗领域中的各种问题,分析问题产生的原因;还可预测可能发生的问题,改进或避免问题的发生,从而在公共卫生、疾病管理、医学诊疗、医学教学、医药研发等领域发挥重要作用[19](图3)。因此,建设一个能够全面整合和处理我国健康与医疗相关大数据的,可覆盖全体国民的,全方位、全周期的健康医疗数据的平台——国家卫生与健康管理大数据平台十分重要[1]。该平台通过对全民健康的闭环管理,可实现医疗、医保、医药改革的"三医联动" ,对于建立重大慢病的防控体系,解决看病难与看病贵的现状,推进人口老龄化下的医养结合,提高我国卫生与健康管理的信息化水平和管理效率有着重要意义。


基于健康医疗大数据平台的健康管理模式分为3个主要层次,即感知层、数据层、服务层,分别负责数据获取、数据处理、数据应用。(图4)


感知层,即数据获取层,主要功能是健康医疗大数据的获取。健康医疗大数据主要来源包括医疗机构数据、以个人为中心(包括家庭、社区)的物联网数据、科研数据、医疗保险数据、个人生物信息等。
医疗机构数据的来源包括医院信息系统(hospital information system, HIS)、医学影像存档与通讯系统(picture archiving and communication systems, PACS)、放射信息管理系统(radioiogy information system, RIS)、临床信息系统(clinical information system, CIS)、患者床边信息系统(beside mobile information system, BMIS)、电子病历(electronic medical record, EMR)等[20]。其中,完整的电子病历记录了患者诊疗全过程的原始记录,包含患者信息、病程记录、检查结果、生理指标、医学影像、医嘱、手术记录、用药记录、护理记录等,涵盖了个人终生医疗行为与健康状态的所有信息。电子病例是以患者为中心,将患者诊断过程中产生的各种数据和长期医疗监测数据加以收集和整理并形成统一形式的记录,对于健康管理具有非常重要的价值[21]。
随着移动通信技术、移动物联网技术、健康服务技术的快速发展,健康物联网的概念被提出[22]。分析公司Gartner预计,到2020年,物联网(internet of things,IoT)中将有超过250亿台连接设备[23]。在医疗保健领域,任何具备个人健康医疗数据获取与上传功能的设备未来都将成为物联网的一部分,如智能医疗检测设备、智能医学治疗设备、智能家用健康设备、可穿戴设备、移动智能终端等,尤其是不断涌现的可穿戴设备和家用医疗设备已经可以或即将实现个体健康参数(如心率、脉率、呼吸频率、体温、热消耗量、血压、血糖、血氧、激素、体质量、体脂等)、个体生活习惯(如膳食、体力活动、吸烟、饮酒等)、健康相关的环境参数(如温度、湿度、气压、空气质量、工作与生活环境、气候环境、地理环境等)的远程采集和监测。
科研数据的来源包括:各类从事医疗相关研究的科研单位以及医疗药物与医疗器械企业的各类试验数据;心脑血管、肿瘤、老年病、儿科等临床医学数据中心的数据;基因组学、蛋白组学等国家医学大数据资源平台的数据;各类抽样性健康调查数据等。
医疗保险数据,即各类人群的商业保险、医疗保险、社会保险、新农合数据等,包括医疗保险的使用与理赔的情况,详细的就医史、用药史、手术史等。
个人生物信息主要是关于个体的生物标记数据,如血型、指纹信息、虹膜特征、视网膜特征、面部特征以及基因图谱等。
数据层的核心应该是能够融合各种健康相关信息和数据的,全方位、全周期的健康医疗数据云平台[1],其具备先进的数据处理、数据挖掘、数据分析方法,可对各类健康医疗大数据进行筛选、清洗、分类、存储和分析。
数据层的关键在于安全和性能。健康医疗数据量是呈指数级增长的,而目前大多机构的数据存储模式是内部存储(现场存储),这种存储方式虽然能够控制安全性,保证访问和运行的效率;但现场服务器网络的扩展成本高、维护困难,并且易产生数据孤岛现象。云存储正成为健康医疗大数据的主流存储方式。根据2016年的调查,美国将近90%的医疗机构正在使用基于云存储的数据处理模式,包括存储、应用和服务。云计算能提供有效的灾难恢复,具较低的成本和较容易的扩展,但其在安全性方面尚存在争论。
服务层的支撑主要包括智能诊疗装备、智能手机、健康医疗应用程序(APP)、可穿戴健康医疗器械、健康医疗设备以及分布在广义社区健康中心(如单位、学校、居民区、机场、车站、酒店等)内的健康终端。服务层的目标是未病先防、既病防变、病后防复。服务层的主要内容包括健康状态辨识与评估、健康管理与干预两部分。
(一)健康状态辨识与评估,是对健康状况进行的前瞻性、定性与定量相结合的分析,对可能发生的疾病或健康危险做出评估和预测。健康状态评估以疾病发生的危险性和疾病发生的历程作为评估的基础与终点,而不是疾病本身。通过建立个性化健康数据模型,健康医疗大数据可以给出健康风险指数,并提出个性化健康改善建议[24]。有研究表明,基于物联网技术的健康监护和预警系统可实现对个体的远程健康管理[25]。其中,利用智能传感器实时监测人体生命体征参数、运动状态、环境参数;利用网络技术将数据上传云服务器,进行存储、管理和共享;利用大数据技术对数据进行分析和处理。此外,有研究结合大数据技术和机器学习技术建立疾病预测模型,有效对阿尔茨海默病[26]、脑卒中[27]、糖尿病[28]、心脏病[29]等疾病的发生进行预测。
(二)健康管理与干预,其目的是消除或减少危及健康的因素,是健康管理的重点,主要内容包括:对个体进行持续(或定期)的健康监测和个性化健康指导;引导具有健康危险因素的人群建立健康的生活方式;引导早期慢性病患者主动远离健康危险因素,并采用适当的药物或医疗器械调整健康状况;对中晚期的慢性病患者积极治疗原发病,控制和减少并发症的发生[30]。有研究表明,通过对个体的生命体征、理化指标、用药情况、外部环境等进行监测[32],可实现多种疾病的检测和管控,如糖尿病、高血压[31]、冠心病、睡眠异常等。
美国Propeller Health公司,将实时定位芯片、传感器与哮喘吸入器进行整合,以便跟踪哮喘的发作情况(时间、地域、频次)。该公司与美国路易斯维尔市合作,通过收集并整合天气数据、空气质量数据、患者的电子病历、哮喘吸入器的使用数据,绘制了该市的哮喘急性发作分布图,确定了急性哮喘的风险因素,并对其发病规律进行了分析。
2009年,美国国会通过了经济和临床健康信息技术(health information technology for economic and clinical health, HITECH)法案,加速了电子健康记录(electronic health record, EHR)的应用与推广[33]。HER包括了个人过敏史、医疗保险信息、家族遗传病史、免疫状况、身体状况、疾病信息、服用药物清单、住院记录、做手术信息等,能够整合和分析各种结构化和非结构化的数据。目前,基于EHR的大数据预测模型正在被用于诸如充血性心力衰竭(congestive heart failure,CHF)和败血症等疾病的早期诊断。其中,CHF的诊断越早,治疗效果越好。佐治亚理工学院的一项机器学习研究表明,机器学习算法使医生从患者的HER数据中能"看到"更多的信息,从而可大幅度提高CHF的早诊率[34]。
有研究人员运用Google的ARGO模型成功构建了流感预测模型[35],该模型的数据源包括Google的搜索数据、Twitter上的社会信息等。通过分析这些数据并整合诸如旅行、贸易、气候变化等解释性变量,可为流感的发生与发展提供预测模型,用于改善治疗、协调检疫和疫苗接种。
2015年,中国高血压联盟组织的"百万血压筛查工程"项目正式启动[36]。该项目利用了互联网、大数据平台、智能血压计技术,为患者建立永久的血压健康档案,可对患者血压状况进行统计、分析和预警。项目采用中国食药局认证的智能血压计产品,可通过扫描患者身份证或健康卡确定患者身份,并将数据传输到大数据平台中的个人血压健康档案,从而保证了血压数据的准确性、唯一性、连续性。
大数据分析的前提是具备一定质量和规模的数据,而数据质量会直接影响分析结果,最终可影响预测模型的准确性,特别是在对数据准确性要求极高的医学领域,数据的准确性更加重要。健康医疗数据几乎都以片段形式出现,包括结构化、半结构化和非结构化数据。目前,我国部分医疗机构尤其是基层医疗卫生机构仍以书面形式(或电子化书面)记录信息;已推行电子病历的医疗机构中,其使用的数据系统也没有统一的标准,信息记录残缺、记录不规范时有发生,致使数据准确性差、时效性差、数据间关联性差,给健康医疗大数据的使用和管理增加了困难[37]。在一项针对眼科门诊数据的研究中发现,电子病历记录的数据中只有23.5%的数据与患者的真实临床数据相符,且当患者的病例包含3个或更多的症状时,其数据匹配性就更差[38]。
对于健康医疗大数据,数据的清洁性十分重要。数据通过清洗、搜索、处理、分析、归纳、整理,才能用于挖掘和分析,以便发现其深层的规律。数据清洗的目的是确保数据集的完整、准确、一致及相关。"脏数据(dirty data) ",如空缺数据、噪声数据、不一致数据、重复数据、不完整数据,会使大数据分析迅速脱轨。目前,大多数数据清洗过程仍为手动,但一些数据服务商已开始提供用于大型数据集的自动清洗工具,相信随着机器学习技术的快速发展,这些清洗工具会变得更加精确、易于使用。
目前,各级地方政府、各医疗机构和各类企业大多是根据自身管理、经营或发展的需要,仅收集健康医疗数据的某个环节或某个方面,造成健康医疗大数据的不全面,导致难以形成全方位、全生命周期、连续的个人健康医疗数据(个人健康医疗数据集),给健康管理的闭环实施造成障碍。此外,健康医疗大数据存在医疗数据多、健康数据少的问题,其根本原因是缺少采集和应用健康医疗数据的终端器械,如家庭用和广义社区用的数字医疗设备、智能健康产品、中医功能状态检测设备、养生保健设备等。
大部分健康医疗大数据都存储在单独的"孤岛"中[39]。医疗机构中的电子病历数据、医疗保险业的理赔数据、物联网设备采集的个人健康数据大多存储在各自独立的数据平台上。有报告显示,在医疗机构中,仅有不到3%的医院实现了医疗数据的互通。数据孤岛是现阶段制约健康医疗大数据发展的首要因素,由于缺乏统一的健康医疗大数据平台,不同的医疗机构、医疗信息平台、医疗服务平台间均存在数据孤岛现象。
近期,美国苹果公司和IBM公司达成共识,将合作建立一个大数据健康平台,使iPhone和Apple Watch用户能够共享IBM的Watson Health云健康分析服务,以期从千万用户每天生成的生物特征数据中发现医学新见解。
在大数据领域,数据的隐私性、真实性、实用性、保密性已成为广泛关注的焦点,尤其是数据分享和使用过程中的隐私保护格外重要[40]。由于健康医疗数据需要依靠互联网传输并进行存储,有很大的隐私泄露风险,如定位信息、诊断记录、病情发展、通信记录等[41]。具有恶意的网络攻击者可以从海量的隐私数据中发掘更有价值、更能产生利益的数据,并有可能产生严重的危害。目前,我国缺乏统一的健康医疗大数据信息安全标准(包括数据格式、数据权限、隐私保护、数据安全等),同时广泛使用的且相对不安全的数据传输方式、移动通信技术和无线网络技术也会带来隐私数据泄露的风险。因此,制定健康医疗大数据应用的法律、法规刻不容缓。其中,所有健康医疗数据均应包括明确的使用范围和权限,如数据的所有者可授权他人使用数据,也可随时撤回数据。
由于受基础医学、生物医学、信息科学等发展的限制,健康和医疗信息的分析仍是健康医疗大数据应用的瓶颈之一。例如,在基因层面,疾病的发现、预测和预防需要基因组学及实验技术的巨大进步;全时空、全时段健康数据的监测与收集依赖于高精度、便携式、低功耗的传感器技术,而精度高且不需要专业医疗人员操作的终端设备目前仍未大规模推广;健康数据的传输面临着互联网入口少、专用带宽窄、安全协议缺乏等问题。
此外,当今健康医疗领域生成的数据中有75%或更多是非结构化数据,其来源于数字影像设备、传感器、医生和护士的记录等。MapR、Hadoop、Converged Data Platform等软件包或算法可有效处理这类数据的非结构化特征,并承受其巨大的数据量,开启了大数据分析领域的新天地,标志着临床大数据的开发取得了长足进步[42]。
"健康强国"坚持以人为本,以社会需求为导向,把维护人民健康权益放在第一位,是我国一项基本政策[43]。国务院明确指出,要构建医疗健康管理和服务大数据应用体系[44],从政策层面为医疗健康领域的大数据发展提供了指引。建设健康医疗大数据平台符合国家健康强国的目标,符合我国健康医疗大数据应用的发展规划[45]。利用健康医疗大数据平台实现健康管理,可改变每个家庭和个人的就医方式和健康维护方式,从而提高人民的健康水平。实现少生病、不生大病,达到老死而不是病死的目的。这是最大的民生问题,也是健康医疗大数据平台的最终目标。
结合基于健康医疗大数据平台的健康管理模式的实质与功能,未来基于健康和医疗大数据的健康管理有望在以下4个方面取得突破:①建立不同地域、不同人群的身体健康评价标准与评估模型,为不同人群制定个性化防病、治病策略以及预后标准;制定精神健康和心理健康的参考标准,建立相应的评价与影响因素模型,给出更科学的心理保健建议。②应用大数据技术和数据挖掘技术对慢性非传染病(如恶性肿瘤、心脑血管病、糖尿病、精神性疾病等)的数据进行分析,寻找常见慢性疾病的发病规律与病因;进一步摸索出其内在发生、发展机制,建立慢性常见病的预测模型,开发科学的治疗方案与干预技术。③研究亚健康与疾病间的相互关系,分析各种体征参数与理化指标在亚健康辨识中的作用及权重;应用聚类分析、关联分析、时间序列、回归分析等手段研究亚健康指标之间的关联性;通过对亚健康人群的数据进行挖掘,分析导致疾病的影响因素,建立评估和预测模型,预测疾病发生危险度。④应用数据挖掘技术对传染性疾病,如结核病、艾滋病、禽流感、手足口病等开展大数据分析,找出传染性疾病的发病规律,揭示其病因,由此研究其变异规律,建立传染性疾病的预测模型。
无





















