
基于分子网络分析广西壮族自治区(广西)HIV传播热点和跨地区传播特征,为优化艾滋病精准防控策略提供证据。
整合1997-2020年采集的5 996条广西HIV pol区序列和165 534条公开发表的非广西HIV pol区序列,使用HIV-TRACE工具以0.5%成对基因距离阈值构建分子网络。
进入广西HIV传播热点分子网络的序列比例为31.5%(1 886/5 996)。在HIV跨地区传播分子网络中,省内连接占51.6%(2 613/5 062),国内连接占48.0%(2 430/5 062),国际连接占0.4%(19/5 062)。与广西跨地区连接的主要地区为广东省(49.5%,1 212/2 449)、北京市(17.5%,430/2 449)、上海市(6.9%,168/2 449)、四川省(5.7%,140/2 449)、云南省(4.2%,102/2 449)、陕西省(3.8%,93/2 449)、浙江省(2.8%,69/2 449)、海南省(2.0%,49/2 449)、安徽省(1.5%,37/2 449)和江苏省(1.3%,33/2 449),其余地区与广西跨地区连接比例均<1.0%。进入广西HIV传播热点分子网络风险较高的影响因素包括≥50岁(相比于25~49岁,aOR=1.68,95%CI:1.46~1.95)、男性(相比于女性,aOR=1.21,95%CI:1.05~1.40)、未婚(相比于已婚,aOR=1.18,95%CI:1.00~1.39)、高中及以上文化程度(相比于初中及以下,aOR=1.21,95%CI:1.04~1.42)和男男性传播(相比于异性性传播,aOR=1.77,95%CI:1.48~2.12)。跨地区连接风险较高的影响因素包括男性(相比于女性:aOR=1.74,95%CI:1.13~2.75),高中及以上文化程度(相比于初中及以下,aOR=1.96,95%CI:1.43~2.69)、自由职业/待业/退休(相比于农民,aOR=1.50,95%CI:1.07~2.11)、男男性传播(相比于异性性传播,aOR=3.28,95%CI:2.30~4.72)。
广西存在HIV传播热点,广西与国内地区组成复杂的跨地区传播网络。后续研究应针对分子网络分析推断的高风险人群开展社会网络调查,及时识别隐匿传播链,减少HIV二代传播。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
人口流动是促进HIV传播的重要因素[1],我国跨省流动的HIV感染者数量逐年增加[2]。有研究报道,HIV可能通过暗娼和注射吸毒者经中国云南省和越南北部传入我国广西壮族自治区(广西)[3]。2006年,异性性传播超过注射吸毒传播成为广西主要的HIV传播途径,男男性传播比例也快速增加[4]。目前,广西HIV感染者数量和病死率均位居全国前列。虽然精准干预和源头治理是减少HIV二代传播的关键,但快捷的交通和便利的社交软件导致高风险人群的社交圈越来越隐匿,驱动HIV快速传播的热点和关键人群难以被及时发现[5]。近年来,分子网络广泛应用于推断跨时空和人群的传播关系[6]。本研究尽可能地收集HIV pol区序列,构建分子网络,推断传播热点和关键人群,为开展深入的社会网络调查和制订精准干预策略提供依据。
1. 资料来源:
(1)HIV pol区序列:①广西CDC于1997- 2020年开展的HIV分子流行病学调查;②洛斯阿拉莫斯实验室HIV数据库(LANL HIV database,https://www.hiv.lanl.gov/)中发表的全球HIV pol区序列。纳入标准:①位于HIV HXB2CG标准参考毒株(Accession:K03455)相对位置2 253~3 554 nt;②长度≥1 000 nt;③混合碱基比例<5%;④有采样时间和采样地点。排除标准:①LANL HIV database标注“存在疑问”(problematic);②1例HIV感染者存在多条不同时间点检测的序列时,保留最早的一条;③可疑污染序列。最终获得5 996条广西序列和165 534条非广西序列。
(2)流行病学资料:①现场调查;②中国疾病预防控制信息系统艾滋病防治基本信息系统。
2. 构建分子网络:从LANL HIV database下载HIV主要亚型参考株序列,与样本序列合并。使用MAFFT 7软件自动比对序列并使用BioEdit 7.1.9软件检查和微调。使用IQ-Tree 1.6.12软件拟合GTR+G模型以最大似然法构建系统进化树。使用FigTree 1.4.3软件分析分子簇和校验值,若样本序列与参考株序列聚集成簇且校验值≥85.0%,判断样本序列与参考株序列亚型一致。使用HIV-TRACE工具以Tamura-Nei 93模型计算成对基因距离(GD)。以0.5% 作为GD阈值,首先使用广西序列构建广西分子网络,推断近期出现的快速传播关系[7]。然后从165 534条非广西序列中筛选出与广西序列GD<0.5%者作为背景序列,加入广西序列中,构建HIV跨地区传播分子网络。
3. 相关定义:将HIV跨地区传播分子网络中广西序列间的连接定义为省内连接,背景序列与广西序列的连接定义为跨地区连接。根据2条序列只能产生1条连接,但1条序列可与另外2条序列生2条连接的原则计算连接数。广西外某地区与广西的连接比例为该地区与广西的累积连接数除以广西外全部地区与广西的合计连接数。连接单位用边数表示。
4. 统计学分析:采用logistic回归模型用于分析进入广西分子网络和跨地区连接的影响因素。为避免缺失值导致回归系数的95%CI过大,首先借助R 4.0.3“mice”包拟合链式方程多重插补[8],再对插补后的数据集进行敏感性分析,保证插补前后各自变量的分布差异无统计学意义。以P<0.05为差异有统计学意义。
1. 基本特征:获得5 996条广西HIV pol区序列,每条序列代表1名HIV感染者。敏感性分析显示插补前后各自变量的分布差异无统计学意义。多重插补后,研究对象以25~49岁(50.3%)、男性(72.0%)、已婚(46.0%)、初中及以下文化程度(70.6%)、农民(50.9%)和异性性传播(70.2%)为主(表1)。CRF01_AE为广西主要的HIV亚型(3 104,51.8%)、其他为CRF07_BC(1 221,20.4%)、CRF08_BC(979,16.3%)、独特重组型(442,7.3%)、CRF55_01B(221,3.7%)和B型(25,0.4%)和C型(4,0.1%)。进入广西HIV传播热点分子网络的序列比例为31.5%(1 886/5 996)。

多重插补前后的研究对象基本特征及进入广西壮族自治区HIV传播热点分子网络的比例
多重插补前后的研究对象基本特征及进入广西壮族自治区HIV传播热点分子网络的比例
| 变量 | 多重插补前 | 多重插补后 | χ2值 | P值 | 插补前入网数a | 插补后入网数b |
|---|---|---|---|---|---|---|
| 年龄组(岁) | 1.35 | 0.510 | ||||
15~ | 673(13.0) | 820(13.7) | 261(38.8) | 308(37.6) | ||
25~ | 2 596(50.2) | 3 017(50.3) | 723(27.9) | 838(27.8) | ||
≥50 | 1 901(36.8) | 2 159(36.0) | 635(33.4) | 740(34.3) | ||
| 性别 | 0.73 | 0.400 | ||||
男 | 3 931(71.3) | 4 320(72.0) | 1 365(34.7) | 1 463(33.9) | ||
女 | 1 580(28.7) | 1 676(28.0) | 430(25.5) | 423(25.2) | ||
| 婚姻状况 | 0.30 | 0.860 | ||||
未婚 | 1 901(37.1) | 2 254(37.6) | 669(35.2) | 786(34.9) | ||
已婚 | 2 379(46.4) | 2 758(46.0) | 715(30.1) | 817(29.6) | ||
离异/丧偶 | 844(16.5) | 984(16.4) | 236(28.0) | 283(28.8) | ||
| 文化程度 | 0.19 | 0.660 | ||||
初中及以下 | 3 560(71.0) | 4 233(70.6) | 998(28.0) | 1 190(28.1) | ||
高中及以上 | 1 456(29.0) | 1 763(29.4) | 2 562(40.0) | 696(39.5) | ||
| 职业c | 2.54 | 0.280 | ||||
学生 | 165(3.8) | 165(2.8) | 68(41.2) | 68(41.2) | ||
农民 | 2 272(51.9) | 3 051(50.9) | 2 272(28.4) | 889(29.1) | ||
自由职业/待业/退休 | 1 100(25.1) | 1 586(26.4) | 321(29.2) | 506(31.9) | ||
个体/企事业单位职员 | 843(19.2) | 1 194(19.9) | 292(34.6) | 423(35.4) | ||
| 传播途径 | 0.01 | 0.990 | ||||
异性性传播 | 3 981(70.3) | 4 207(70.2) | 1 162(29.2) | 1 229(29.2) | ||
男男性传播 | 1 152(20.3) | 1 224(20.4) | 540(46.9) | 560(45.8) | ||
注射吸毒传播 | 533(9.4) | 565(9.4) | 533(16.7) | 97(17.2) | ||
| 采样时段 | - | - | ||||
1997-2009年 | 202(3.4) | 202(3.4) | 41(20.3) | - | ||
2010-2014年 | 846(14.1) | 846(14.1) | 258(30.5) | - | ||
2015-2017年 | 2 666(44.5) | 2 666(44.5) | 824(30.9) | - | ||
2018-2020年 | 2 282(38.0) | 2 282(38.0) | 763(33.4) | - | ||
| 采样地区 | - | - | ||||
南宁市 | 3 410(56.9) | 3 410(56.9) | 1 258(36.9) | - | ||
东北部城市群d | 1 494(24.9) | 1 494(24.9) | 373(25.0) | - | ||
西南部城市群e | 1 092(18.2) | 1 092(18.2) | 255(23.4) | - |
注:括号外数据为个数,括号内数据为比例(%);a分母为多重插补前个数;b分母为多重插补后个数;c学生采用学生证确定身份,不进行数据插补;d 8个城市(柳州市、桂林市、河池市、来宾市、贺州市、梧州市、贵港市和玉林市);e 5个城市(百色市、崇左市、防城港市、北海市和钦州市);-:未做χ2检验
2. 分子网络结构特征:广西HIV传播热点分子网络由1 886条广西序列组成,共形成531个分子簇,包含序列的M(Q1,Q3)为2(2,3)条。最大的分子簇由76条CRF07_BC序列组成,分别来自南宁市(66,86.9%),梧州市(4,5.3%),柳州市(2,2.6%),桂林市、玉林市、百色市、贺州市(各1,分别占1.3%)。在165 534条非广西序列中,共有1 020条序列与广西序列GD<0.5%。加入这些序列后,进入HIV跨地区传播分子网络的广西序列增加至2 009条,分子簇增加至595个,包含序列M(Q1,Q3)为2(2,3)条。最大的分子簇由694条CRF07_BC序列组成,分别来自我国的广东省(262,37.8%)、广西(124,17.9%)、北京市(123,17.7%)、上海市(60,8.6%)、四川省(30,4.3%)、陕西省(21,3.0%)、云南省(16,2.3%)、安徽省(11,1.6%)、江苏省(10,1.5%)、重庆市(8,1.2%)、浙江省(8,1.2%)、河北省(4,0.6%)、辽宁省(4,0.6%)、河南省(3,0.4%)、新疆维吾尔自治区(2,0.3%)、贵州省(1,0.1%)、香港特别行政区(1,0.1%)和山东省(1,0.1%),日本(3,0.4%)和巴西(2,0.3%)。
3. 跨地区连接特征:在HIV跨地区传播分子网络中,合计连接数为5 062条边,省内连接占51.6%(2 613/5 062)、国内连接占48.0%(2 430/5 062),国际连接占0.4%(19/5 062)。
与广西跨地区连接的主要省份为广东省(49.5%)、北京市(17.5%)、上海市(6.9%)、四川省(5.7%)、云南省(4.2%)、陕西省(3.8%)、浙江省(2.8%)、海南省(2.0%)、安徽省(1.5%)、江苏省(1.3%),其余地区与广西连接比例均<1.0%。仅4个国家与我国广西连接:越南(0.3%)、巴西(0.2%)、日本(0.2%)和美国(0.1%)(表2)。

HIV跨地区传播分子网络中1 020条背景序列采样时间和地区分布及各地区与广西壮族自治区的连接数
HIV跨地区传播分子网络中1 020条背景序列采样时间和地区分布及各地区与广西壮族自治区的连接数
| 采样地 | 采样年份(条) | 与广西壮族自治区连接数(%) | ||||
|---|---|---|---|---|---|---|
| 1997-2009年 | 2010-2014年 | 2015-2017年 | 2018-2020年 | 合计(%) | ||
| 中国广东省 | 162 | 246 | 40 | 3 | 451(44.2) | 1 212(49.5) |
| 中国北京市 | 21 | 157 | 58 | 0 | 236(23.1) | 430(17.5) |
| 中国上海市 | 17 | 58 | 1 | 0 | 76(7.5) | 168(6.9) |
| 中国四川省 | 30 | 10 | 4 | 0 | 44(4.3) | 140(5.7) |
| 中国云南省 | 13 | 20 | 4 | 0 | 37(3.6) | 102(4.2) |
| 中国陕西省 | 5 | 20 | 0 | 1 | 26(2.5) | 93(3.8) |
| 中国浙江省 | 11 | 10 | 0 | 0 | 21(2.0) | 69(2.8) |
| 中国海南省 | 25 | 0 | 0 | 0 | 25(2.5) | 49(2.0) |
| 中国安徽省 | 0 | 11 | 2 | 8 | 21(2.0) | 37(1.5) |
| 中国江苏省 | 1 | 3 | 13 | 2 | 19(1.9) | 33(1.3) |
| 中国辽宁省 | 3 | 3 | 0 | 0 | 6(0.6) | 18(0.7) |
| 中国河北省 | 0 | 6 | 1 | 0 | 7(0.7) | 16(0.7) |
| 中国河南省 | 7 | 2 | 0 | 3 | 12(1.2) | 14(0.6) |
| 中国重庆市 | 0 | 7 | 0 | 1 | 8(0.8) | 12(0.5) |
| 中国福建省 | 3 | 0 | 0 | 0 | 3(0.3) | 8(0.3) |
| 中国新疆维吾尔自治区 | 0 | 3 | 0 | 0 | 3(0.3) | 8(0.3) |
| 中国香港地区 | 1 | 3 | 0 | 0 | 4(0.4) | 7(0.3) |
| 中国贵州省 | 1 | 0 | 0 | 0 | 1(0.1) | 6(0.2) |
| 中国湖南省 | 0 | 3 | 0 | 0 | 3(0.3) | 4(0.2) |
| 中国山东省 | 1 | 1 | 0 | 0 | 2(0.2) | 3(0.1) |
| 中国湖北省 | 1 | 0 | 0 | 0 | 1(0.1) | 1(0.1) |
| 越南 | 6 | 1 | 1 | 0 | 8(0.8) | 8(0.3) |
| 巴西 | 0 | 0 | 1 | 1 | 2(0.2) | 5(0.2) |
| 日本 | 0 | 1 | 2 | 0 | 3(0.3) | 4(0.2) |
| 美国 | 0 | 1 | 0 | 0 | 1(0.1) | 2(0.1) |
| 合计 | 308 | 566 | 127 | 19 | 1 020(100.0) | 2 449(100.0) |
4. 进入广西HIV传播热点分子网络和跨地区连接的影响因素:进入广西HIV传播热点分子网络风险较高的影响因素包括≥50岁(相比于25~49岁,aOR=1.68,95%CI:1.46~1.95)、男性(相比于女性,aOR=1.21,95%CI:1.05~1.40)、未婚(相比于已婚,aOR=1.18,95%CI:1.00~1.39)、高中及以上文化程度(相比于初中及以下,aOR=1.21,95%CI:1.04~1.42)和男男性传播(相比于异性性传播,aOR=1.77,95%CI:1.48~2.12)。跨地区连接风险较高的影响因素包括男性(相比于女性:aOR=1.74,95%CI:1.13~2.75),高中及以上文化程度(相比于初中及以下,aOR=1.96,95%CI:1.43~2.69)、自由职业/待业/退休(相比于农民,aOR=1.50,95%CI:1.07~2.11)、男男性传播(相比于异性性传播,aOR=3.28,95%CI:2.30~4.72)。见表3。

进入广西HIV传播热点分子网络和跨地区连接的影响因素logistic回归模型分析
进入广西HIV传播热点分子网络和跨地区连接的影响因素logistic回归模型分析
| 变 量 | 进入广西分子网络 | 跨地区连接 | ||
|---|---|---|---|---|
| aOR值(95%CI) | P值 | aOR值(95%CI) | P值 | |
| 年龄组(岁) | ||||
15~ | 1.10(0.90~1.33) | 0.359 | 0.79(0.56~1.10) | 0.172 |
25~ | 1.00 | 1.00 | ||
≥50 | 1.68(1.46~1.95) | <0.001 | 0.76(0.51~1.12) | 0.169 |
| 性别 | ||||
男 | 1.21(1.05~1.40) | 0.009 | 1.74(1.13~2.75) | 0.013 |
女 | 1.00 | 1.00 | ||
| 婚姻状况 | ||||
未婚 | 1.18(1.00~1.39) | 0.045 | 1.04(0.73~1.48) | 0.842 |
已婚 | 1.00 | 1.00 | ||
离异/丧偶 | 0.94(0.79~1.10) | 0.433 | 1.00(0.63~1.55) | 0.997 |
| 文化程度 | ||||
初中及以下 | 1.00 | 1.00 | ||
高中及以上 | 1.21(1.04~1.42) | 0.014 | 1.96(1.43~2.69) | <0.001 |
| 职业 | ||||
学生 | 0.84(0.58~1.22) | 0.356 | 1.31(0.66~2.47) | 0.423 |
农民 | 1.00 | 1.00 | ||
自由职业/待业/退休 | 1.08(0.93~1.25) | 0.313 | 1.50(1.07~2.11) | 0.019 |
个体/企事业单位职员 | 1.02(0.87~1.21) | 0.782 | 1.43(1.00~2.05) | 0.052 |
| 传播途径 | ||||
异性性传播 | 1.00 | 1.00 | ||
男男性传播 | 1.77(1.48~2.12) | <0.001 | 3.28(2.30~4.72) | <0.001 |
注射吸毒传播 | 0.60(0.46~0.78) | <0.001 | 1.02(0.59~1.70) | 0.950 |
| 采样年时段 | ||||
1997-2009年 | 0.58(0.39~0.84) | 0.005 | 1.46(0.85~2.43) | 0.156 |
2010-2014年 | 1.00 | 1.00 | ||
2015-2017年 | 0.87(0.73~1.05) | 0.139 | 0.47(0.34~0.67) | <0.001 |
2018-2020年 | 0.88(0.73~1.07) | 0.202 | 0.18(0.12~0.27) | <0.001 |
| 采样地区 | ||||
南宁市 | 1.00 | 1.00 | ||
东北部城市群a | 0.70(0.60~0.82) | <0.001 | 1.22(0.88~1.69) | 0.228 |
西南部城市群b | 0.71(0.60~0.85) | <0.001 | 1.27(0.82~1.92) | 0.272 |
注:a 8个城市(柳州市、桂林市、河池市、来宾市、贺州市、梧州市、贵港市和玉林市);b 5个城市(百色市、崇左市、防城港市、北海市和钦州市)
本研究收集了广西HIV pol区序列及其相应的流行病学信息,并纳入已发表的全球序列,较全面地推断广西HIV传播热点和跨地区传播特征。根据HIV的突变速率,使用GD阈值为1.5%、1.0%和0.5%构建HIV分子网络可分别推断7~9年、4~6年和2~3年的传播关系。1.5%GD阈值适合于使用小样本寻找潜在传染源[9],0.5%GD阈值适合于在较全面的样本中推断近期出现的快速传播簇[7]。我国推荐使用0.5%GD阈值预警HIV快速传播。全国层面的研究表明,0.5%GD阈值能准确识别跨省分子网络中的关键分子簇[10]。另外,我国HIV流行重组型数量繁多[11],重组易产生独特重组型。0.5%GD阈值有利于避免错误连接[12]。
本研究发现,CRF01_AE为广西主要的HIV亚型。先前的研究认为,CRF01_AE于1990年代从泰国、越南等地区传入我国[13, 14]。且东南亚国家与我国广西交流密切,可能与广西HIV传播热点密切关联。在本研究中,国际连接仅占0.4%。由于本研究从公共数据库检索到的境外序列有限,加上使用0.5%GD阈值构建分子网络,在一定程度上低估了长期的跨境传播风险。但近期在我国广西和越南北部开展现场调查和采集序列构建系统进化树的研究显示,两地仅异性性传播和注射吸毒传播人群存在少量传播关系[15]。目前,异性性传播为广西HIV的主要传播途径,且广西各市间以及广西与国内地区交通更便捷。Li等[16]使用贝叶斯离散地理学分析的研究显示,在2012-2013年使用BED捕获酶联免疫法检测发现的229名新近感染者中,93%感染的HIV来源于本地流行毒株。这表明近期快速传播的热点位于广西境内。多因素分析显示,≥50岁、男性、高中及以上文化程度和男男性传播进入广西HIV传播热点分子网络的风险较高。近年来的HIV疫情报告显示,上述人群新报告比例呈上升趋势[4],他们是防控HIV本地传播的重点人群。
在HIV跨地区传播分子网络中,与广西连接的3个主要地区分别是广东省、北京市和上海市。多因素分析结果显示,相比于进入广西HIV传播热点分子网络,男性(aOR值为1.21比1.74)、高中及以上文化程度(aOR值为1.21比1.96)和男男性传播(aOR值为1.77比3.28)的跨地区连接风险较大。虽然分子网络能推断传播关系,却无法判断个体感染方向。先前全国层面的分析显示,HIV感染者首次随访后从广东省流出的比例高于其他地区,且广西是广东省的主要流出地[17]。另外,男性、文化程度较高、男男性传播人群较易发生跨省流动[17]。Chen等[18]对广西220例男男性传播人群开展的贝叶斯离散地理学分析结果显示,76.8%感染来源于本地流行毒株,7.7%来源于广东省,2.7%来源于上海市。本研究还发现,自由职业/待业/退休人群跨地区连接的风险是农民的1.50倍。由于跨地区流动的HIV感染者接受随访、CD4+T淋巴细胞检测、抗病毒治疗和实现病毒抑制的比例均低于非流动HIV感染者[17,19],建议加强该人群及其同伴的HIV检测和抗病毒治疗关怀协调机制。
本研究存在局限性。依据HIV进化亲缘性构建分子网络推断的结果可能与真实世界存在偏差。乌干达拉卡伊区开展的随访研究通过分析流动人口HIV感染率和地区特征推断传播热点[1]。我国基于首次和后续随访数据推断HIV感染者跨省流动特征[18]。因此,精准推断传播热点和传播特征需要上述两种来源数据的分析结果相互验证。
综上所述,广西存在HIV传播热点,与国内地区组成复杂的跨地区传播网络。后续研究应针对分子网络分析推断的高风险人群开展社会网络调查,及时识别隐匿传播链,减少HIV二代传播。
所有作者声明无利益冲突





















