
以新型冠状病毒肺炎(简称新冠肺炎)湿热蕴肺证为例,探讨证候的症状间关系及其对证候诊断的贡献度,为建立证候诊断依据提供方法学支持。
基于654份新冠肺炎患者的临床调查数据,以湿热蕴肺证为例,采用SPSS Modeler 14.1软件,结合关联规则与贝叶斯网络数据挖掘技术,探讨症状间关系并明确症状(群)对证候诊断的贡献度。
654份新冠肺炎临床资料中涉及湿热蕴肺证患者121例,其中出现频率>40%的症状有发热(53.72%)、咳嗽(47.93%)、舌质红(45.45%)、脉数(43.80%)、苔腻(42.15%)、苔黄(41.32%)、乏力(40.50%)和纳呆(40.50%)。关联规则分析显示,二项关联关系较强的症状群包括发热、口渴,胸闷、气促,咳嗽、痰黄等;三项关联关系较强的症状群包括咳嗽、痰黄、痰黏稠,纳呆、呕恶、头身困重,发热、口渴、乏力等。以湿热蕴肺证(是=1,否=0)为目标变量,以出现频率>15%的症状为输入变量,建立贝叶斯网络模型,得出湿热蕴肺证症状(群)概率分布表,其中发热的父节点(每个输入变量的上级节点)只有1个(湿热蕴肺证),条件概率是0.54;咳嗽的父节点有痰黄、湿热蕴肺证,表示在湿热蕴肺证中咳嗽与痰黄存在直接因果关系,且在有痰黄的条件下,咳嗽的条件概率为0.99。常见症状(群)及其对湿热蕴肺证诊断的贡献度为:发热、口渴(0.47),咳嗽、痰黄(0.49),胸闷、气促(0.46),纳呆、头身困重(0.61),苔黄腻、脉滑数(0.95)。
关联规则结合贝叶斯网络在阐释症状间关系及其对证候诊断的贡献度具有一定的可行性和客观性,为建立证候诊断依据提供了方法学支持。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
证候是由具有内在联系的症状组成的症状群总称,是对病因、病位、病性、正邪关系及病势等作出的高度概括[1]。在证候诊断过程中,除考虑单一症状对证候诊断的贡献度以外,还应考虑到有些症状组合出现时可能会明显提高其诊断的贡献度[2]。现代科技的发展和计算机的应用将为证候诊断标准的研究提供强有力的技术支持[3]。因此,在明确常见证候主要症状的前提下,进一步探讨症状间的关系及其对证候诊断的贡献度,对证候诊断依据的确立有重要意义。本课题组基于597例新型冠状病毒肺炎(简称新冠肺炎)患者的654份临床调查数据,分析新冠肺炎的10个常见证候及症状特征。本研究以新冠肺炎中常见的湿热蕴肺证为例,结合关联规则与贝叶斯网络技术,建立能确定证候的症状(群)间关系及其对证候诊断贡献度的方法,以期为实现明确证候诊断依据提供方法学支持。
收集2020年2月1日至26日河南省救治定点医院收治的597例新冠肺炎患者654份临床资料,其中湿热蕴肺证121例。
本研究符合医学伦理学标准,研究方案经河南中医药大学第一附属医院伦理委员会审核通过(审批号:2020HL-015)。
参照相关文献[6,7]中的辨证治疗要点,制定湿热蕴肺证辨证标准:发热、汗出不解,咳嗽,痰黄,气促,胸闷,口渴,口苦,或面唇紫暗,头身困重,脘痞,腹胀,纳呆或呕恶,便溏或便秘,倦怠乏力,舌质红或紫暗,苔黄腻,脉濡数或滑数。
符合新冠肺炎诊断标准的湿热蕴肺证患者。
合并严重的精神疾病、意识障碍或者处于镇静状态而无法配合完成四诊资料采集的患者。
参考相关诊疗方案,并进行多次线上专家研讨,制定"新型冠状病毒肺炎患者中医证候临床调查表"。调查表主要内容包括患者基本信息、临床症状、舌苔和脉象、诊断及分型等。以项目组研发的基于移动互联网技术的临床科研信息系统平台为主,辅以纸质版调查表进行多中心调查。调查人员均为从事临床一线工作,且参与新冠肺炎救治的高年资临床医师。每个中心单独采集资料,最后统一至项目组进行数据审核录入,建立新冠肺炎证候临床调查研究数据库。数据采集过程中具体质量控制参考已发表文献[6]。
基于新冠肺炎证候临床调查研究数据库,建立湿热蕴肺证新冠肺炎数据库。去除无关数据和容易识别的噪声数据,删去空白数据,对空缺数据和不一致数据按病例真实情况重新输入。将各症状出现情况分为两类并赋值(症状出现=1,症状未出现=0),且所有数据标准都为标志型。
应用SPSS 22.0软件收集患者的临床资料。计量资料呈正态分布以均数±标准差(
±s)表示,呈偏态分布以中位数(四分位数)〔M(QL,QU)〕表示;计数资料以例数(%)表示。
使用SPSS Modeler 14.1软件构建"数据源-类型-Apriori-网络"数据流。筛选湿热蕴肺证的症状(频率>10%)输入关联规则模型,设置最小支持度为10%,最小置信度为80%,提升度>1,指定前项中包含最大项目数为1或2。分别进行二项和三项关联分析,以挖掘关联较强的症状组合,并分析症状间的链接程度,颜色越深代表关联性越强。
使用SPSS Modeler 14.1软件构建贝叶斯网络数据挖掘模型,类型选用"标志",过滤后导入贝叶斯网络。结构类型选用"TAN模型",参数学习方法选用"对小单元格计数的贝叶斯调整",模式选用"专家",选用"包括特征选择预处理步骤",缺失值选用"仅使用完整记录",显著性水平为0.01,最大条件集为5。
贝叶斯网络是基于概率论和图论构建的一种不确定性知识表达推理模型[8,9]。贝叶斯网络是一个有向无环图,其中节点代表研究对象中的变量,有向弧代表变量间的因果关系,变量之间的关系度量用节点间的条件概率来表示。
贝叶斯公式:P(A|B)=P(A)P(B|A)/P(B)。式中,A表示诊断为湿热蕴肺证这一事件;B表示湿热蕴肺证中出现的某一症状;P(A)是诊断为湿热蕴肺证的先验概率;P(B|A)是条件概率,表示在已诊断为湿热蕴肺证的条件下症状B出现的概率;P(A|B)是后验概率,即当症状B出现时对诊断为湿热蕴肺证的先验概率加以修正后的概率。
当有3个或3个以上变量时,贝叶斯定理也是成立的[10,11]。公式:P(A|B,C)=〔P(C|A,B)P(A,B)/P(B)P(C|B)〕=〔P(A)P(B|A)P(C|A,B)〕/〔P(B)P(C|B)〕。式中,P(A|B,C)即表示在症状B、症状C同时出现时诊断为湿热蕴肺证的条件概率,在本研究中将其作为诊断贡献度。
121例新冠肺炎湿热蕴肺证患者均纳入分析,男性68例,女性53例;年龄19~87岁,中位年龄48(35,56)岁;发病时间(9.97±5.90)d;轻型1例(0.8%),普通型80例(66.1%),重型38例(31.4%),危重型2例(1.7%)。有武汉旅居史59例(48.8%),有确诊患者密切接触史72例(59.5%);出现频率>40%的症状依次为发热、咳嗽、舌质红、脉数、苔腻、苔黄、乏力和纳呆(表1)。

121例新型冠状病毒肺炎湿热蕴肺证患者出现频率> 10%的症状
121例新型冠状病毒肺炎湿热蕴肺证患者出现频率> 10%的症状
| 症状 | 频次(次) | 频率(%) | 症状 | 频次(次) | 频率(%) |
|---|---|---|---|---|---|
| 发热 | 65 | 53.72 | 痰黄 | 23 | 19.01 |
| 咳嗽 | 58 | 47.93 | 口渴 | 23 | 19.01 |
| 舌质红 | 55 | 45.45 | 气促 | 22 | 18.18 |
| 脉数 | 53 | 43.80 | 脉滑数 | 22 | 18.18 |
| 苔腻 | 51 | 42.15 | 气短 | 19 | 15.70 |
| 苔黄 | 50 | 41.32 | 便溏 | 19 | 15.70 |
| 乏力 | 49 | 40.50 | 咽干 | 18 | 14.88 |
| 纳呆 | 49 | 40.50 | 呕恶 | 18 | 14.88 |
| 痰少 | 39 | 32.23 | 大便秘结 | 18 | 14.88 |
| 脉滑 | 34 | 28.10 | 舌质紫暗 | 18 | 14.88 |
| 痰黏稠 | 29 | 23.97 | 口唇紫暗 | 18 | 14.88 |
| 苔厚 | 29 | 23.97 | 咽痛 | 17 | 14.05 |
| 胸闷 | 28 | 23.14 | 口苦 | 17 | 14.05 |
| 舌质淡 | 27 | 22.31 | 脘痞 | 17 | 14.05 |
| 痰白 | 25 | 20.66 | 苔白 | 17 | 14.05 |
| 干咳 | 25 | 20.66 | 脉濡 | 17 | 14.05 |
| 头身困重 | 24 | 19.83 | 神疲 | 14 | 11.57 |
| 苔黄腻 | 24 | 19.83 | 低热 | 13 | 10.74 |
二项关联关系较强的症状群包括发热、口渴,胸闷、气促,咳嗽、痰黄等(表2);三项关联关系较强的症状群包括咳嗽、痰黄、痰黏稠,纳呆、呕恶、头身困重,发热、口渴、乏力等(表3)。高频症状间关联规则网状图显示(图1),胸闷与气促症状的关联性最强。

新型冠状病毒肺炎湿热蕴肺证高频症状间二项关联分析
新型冠状病毒肺炎湿热蕴肺证高频症状间二项关联分析
| 后项 | 前项 | 支持度(%) | 置信度(%) | 提升度 |
|---|---|---|---|---|
| 咳嗽=1.0 | 痰黄=1.0 | 19.01 | 100.00 | 2.09 |
| 胸闷=1.0 | 气促=1.0 | 18.18 | 100.00 | 4.32 |
| 舌质红=1.0 | 舌质紫暗=1.0 | 14.88 | 100.00 | 2.20 |
| 发热=1.0 | 口渴=1.0 | 19.01 | 95.65 | 1.78 |
| 纳呆=1.0 | 呕恶=1.0 | 14.88 | 94.44 | 2.33 |
| 脉数=1.0 | 脉濡=1.0 | 14.05 | 94.12 | 2.15 |
| 纳呆=1.0 | 头身困重=1.0 | 19.83 | 91.67 | 2.26 |
| 纳呆=1.0 | 大便秘结=1.0 | 14.88 | 88.89 | 2.20 |
| 咳嗽=1.0 | 痰黏稠=1.0 | 23.97 | 86.21 | 1.80 |
| 乏力=1.0 | 口唇紫暗=1.0 | 14.88 | 83.33 | 2.06 |
| 苔黄腻=1.0 | 脉滑数=1.0 | 18.18 | 81.82 | 4.13 |

新型冠状病毒肺炎湿热蕴肺证高频症状间置信度> 90%的三项关联分析
新型冠状病毒肺炎湿热蕴肺证高频症状间置信度> 90%的三项关联分析
| 后项 | 前项 | 支持度(%) | 置信度(%) | 提升度 |
|---|---|---|---|---|
| 咳嗽=1.0 | 痰黄=1.0和痰黏稠=1.0 | 14.88 | 100.00 | 2.09 |
| 纳呆=1.0 | 呕恶=1.0和头身困重=1.0 | 11.57 | 100.00 | 2.47 |
| 发热=1.0 | 口渴=1.0和乏力=1.0 | 11.57 | 100.00 | 1.86 |
| 发热=1.0 | 口渴=1.0和纳呆=1.0 | 11.57 | 100.00 | 1.86 |
| 发热=1.0 | 口渴=1.0和舌质红=1.0 | 11.57 | 100.00 | 1.86 |
| 咳嗽=1.0 | 痰黄=1.0和痰少=1.0 | 10.74 | 100.00 | 2.09 |
| 胸闷=1.0 | 气促=1.0和乏力=1.0 | 10.74 | 100.00 | 4.32 |
| 胸闷=1.0 | 气促=1.0和纳呆=1.0 | 13.22 | 100.00 | 4.32 |
| 胸闷=1.0 | 气促=1.0和发热=1.0 | 10.74 | 100.00 | 4.32 |
| 纳呆=1.0 | 头身困重=1.0和发热=1.0 | 14.88 | 94.44 | 2.33 |
| 气促=1.0 | 胸闷=1.0和纳呆=1.0 | 14.05 | 94.12 | 5.18 |
| 咳嗽=1.0 | 痰黏稠=1.0和苔黄=1.0 | 12.40 | 93.33 | 1.95 |
| 发热=1.0 | 口渴=1.0和苔腻=1.0 | 11.57 | 92.86 | 1.73 |
| 发热=1.0 | 口渴=1.0和脉数=1.0 | 11.57 | 92.86 | 1.73 |
| 脉数=1.0 | 脉濡=1.0和脉滑=1.0 | 10.74 | 92.31 | 2.11 |
| 纳呆=1.0 | 呕恶=1.0和发热=1.0 | 10.74 | 92.31 | 2.28 |
| 痰黏稠=1.0 | 痰黄=1.0和痰少=1.0 | 10.74 | 92.31 | 3.85 |


注:节点(症状)之间形成无数个复杂的关系,将网状图设置为强链接较重,通过强弱不同的连接线表示症状间的关联程度,线型越粗代表症状之间的关联性越大

新型冠状病毒肺炎湿热蕴肺证症状(群)贝叶斯网络条件概率
新型冠状病毒肺炎湿热蕴肺证症状(群)贝叶斯网络条件概率
| 子节点 | 父节点 | 条件概率 |
|---|---|---|
| 咳嗽 | 痰黄、湿热蕴肺证 | 0.99 |
| 苔黄腻 | 脉滑数、湿热蕴肺证 | 0.81 |
| 痰黏稠 | 痰黄、湿热蕴肺证 | 0.78 |
| 气促 | 胸闷、湿热蕴肺证 | 0.78 |
| 纳呆 | 气促、湿热蕴肺证 | 0.72 |
| 脉数 | 口渴、湿热蕴肺证 | 0.61 |
| 舌质红 | 脉数、湿热蕴肺证 | 0.57 |
| 苔腻 | 脉滑、湿热蕴肺证 | 0.56 |
| 头身困重 | 纳呆、湿热蕴肺证 | 0.55 |
| 发热 | 湿热蕴肺证 | 0.54 |
| 苔黄 | 脉数、湿热蕴肺证 | 0.51 |
| 口渴 | 发热、湿热蕴肺证 | 0.50 |
| 乏力 | 头身困重、湿热蕴肺证 | 0.46 |
| 脉滑 | 脉数、湿热蕴肺证 | 0.38 |
| 脉滑数 | 纳呆、湿热蕴肺证 | 0.31 |
| 苔厚 | 苔腻、湿热蕴肺证 | 0.28 |
| 胸闷 | 咳嗽、湿热蕴肺证 | 0.19 |
| 痰黄 | 口渴、湿热蕴肺证 | 0.01 |


注:红色节点代表目标变量,是其余节点的父节点(每个输入变量的上级节点);蓝色节点代表输入变量;每个节点通过条件概率与其父节点相关;如2个节点间有箭头连接,说明两者间有因果联系
以湿热蕴肺证(是=1,否=0)为目标变量,以出现频率>15%的症状为输入变量,建立贝叶斯网络模型,得出湿热蕴肺证症状(群)概率分布表。其中,发热的父节点(每个输入变量的上级节点)只有1个(湿热蕴肺证),条件概率是0.54;咳嗽的父节点有痰黄、湿热蕴肺证,表示湿热蕴肺证中咳嗽与痰黄存在直接因果关系,且在有痰黄的条件下,咳嗽的条件概率为0.99。
将同时满足以下条件的症状组合作为新冠肺炎湿热蕴肺证常见症状(群):①关联规则中支持度>10%、置信度>80%及提升度>1的二项关联组合;②贝叶斯网络条件概率≥0.5的症状组合。最终得出5组常见症状(群):发热、口渴,咳嗽、痰黄,胸闷、气促,纳呆、头身困重,苔黄腻、脉滑数。经贝叶斯公式推导得出每组症状(群)出现时发生湿热蕴肺证的条件概率,作为对湿热蕴肺证诊断的贡献度,其中苔黄腻和脉滑数的贡献度最高,为0.95;胸闷和气促的贡献度最低,为0.46(表5)。

新型冠状病毒肺炎湿热蕴肺证症状(群)对证候诊断的贡献度
新型冠状病毒肺炎湿热蕴肺证症状(群)对证候诊断的贡献度
| 症状(群) | 证候 | 贡献度 |
|---|---|---|
| 苔黄腻、脉滑数 | 湿热蕴肺证 | 0.95 |
| 纳呆、头身困重 | 湿热蕴肺证 | 0.61 |
| 咳嗽、痰黄 | 湿热蕴肺证 | 0.49 |
| 发热、口渴 | 湿热蕴肺证 | 0.47 |
| 胸闷、气促 | 湿热蕴肺证 | 0.46 |
中医证候规范化研究对发展中医理论和提高临床诊治水平有极其重要的意义。每个证候都有其特异性的症状,可以是一个或几个症状或者几个有关症状形成的症状群。以往研究多针对单一症状或症状间的关系,缺乏症状或症状(群)对证候诊断贡献度的进一步研究[12,13,14]。相关症状间、症状群之间的关系及其对诊断的贡献度如何确定、各证候症状群形成的依据及其对证候诊断的贡献大小如何等尚需建立适宜方法解决[15]。新冠肺炎已成为国际公认的严重危害人类健康的重大公共卫生事件[16,17]。中医药在治疗新冠肺炎方面存在一定优势[18,19,20]。本研究以新冠肺炎湿热蕴肺证为例,探讨湿热蕴肺证症状的关系及各个症状(群)对该证候诊断的贡献度,为证候诊断依据的建立提供适宜方法。
数据挖掘技术重视症状间的相互作用并充分考虑到中医证候复杂性的特点,在中医证候研究中扮演着越来越重要的角色。近年来,关联规则[21,22,23,24,25]和贝叶斯网络[26,27,28,29]在中医证候研究中得到了一定程度的应用。关联规则是处理相关关系中最为常用和成熟的方法之一[13],通常使用支持度、置信度和提升度来衡量关联规则[30,31],若支持度太低,表明症状群出现机会很少,缺乏特异性;置信度太低,表明症状群的可信度差;提升度则是指前项对后项的影响程度。贝叶斯网络包括有向无环网络图和条件概率表。网络中的每个节点表示1个变量,即1个症状,各症状之间的弧表示二者存在直接因果关系,条件概率表可以定量表示这些因果关系的强度。贝叶斯网络具有双向推理的特点[32],对于2个以上的变量,可通过贝叶斯公式推导出它们同时存在时证候发生的条件概率。关联规则仅用于探讨症状间的关联程度,无法判别其对证候诊断的贡献度;贝叶斯网络仅考虑两两属性间的关联性,忽略了其他关联性。单一数据挖掘技术的运用尚不能全面解决症状间关系及其对证候诊断贡献度的问题。因此,本研究结合上述两种数据挖掘技术,依据关联规则强弱程度及贝叶斯网络的因果关系,筛选出新冠肺炎湿热蕴肺证常见症状(群),并通过条件概率得出症状(群)对证候诊断的贡献度。
本研究通过在关联规则中设定最小规则支持度为10%,最小规则置信度为80%,提升度>1,得出新冠肺炎湿热蕴肺证二项关联关系较强的症状(群)包括发热、口渴,胸闷、气促,咳嗽、痰黄等。在贝叶斯网络中通过节点之间的弧确定症状之间的联系,将同时符合关联规则强关联组合和贝叶斯网络直接因果关系(条件概率≥0.5)的症状组合设定为湿热蕴肺证的常见症状(群),如咳嗽和痰黄支持度为19.01%、置信度为100%、提升度为2.09,且在贝叶斯网络中二者存在直接因果关系(条件概率为0.99)。通过贝叶斯公式推导得出咳嗽和痰黄对湿热蕴肺证诊断的贡献度为0.49。据此,初步形成新冠肺炎湿热蕴肺证诊断依据:发热、口渴,咳嗽、痰黄,胸闷、气促,纳呆、头身困重,苔黄腻、脉滑数,诊断贡献度依次为0.47、0.49、0.46、0.61、0.95。该初步诊断依据有待专家形成共识并进行临床验证。
本研究尚存在一定不足:贝叶斯网络可显示两两属性间的关联性,但不能显示属性之间可能存在2个以上症状的关联性,如湿热蕴肺证中咳嗽和痰黄、纳呆和头身困重为常见症状(群),关联规则中咳嗽、痰黄和痰黏稠,纳呆、呕恶和头身困重两组症状为强关联组合,但无法计算出这两个症状组合对该证候诊断的贡献度。因此,是否将"咳嗽、痰黄、痰黏稠"以及"纳呆、头身困重、呕恶"作为新冠肺炎湿热蕴肺证的诊断依据更为合理,尚有待研究。
所有作者均声明不存在利益冲突





















