
通过对已报道的A族链球菌(GAS)全基因组数据进行梳理和生物信息学分析,从基因组大数据中提取前噬菌体信息,并对其在基因组中的存在状态及部分前噬菌体的基因组成进行分析,了解GAS种群内前噬菌体分布特点。
回顾性研究。收集下载GenBank数据库中截至2020年5月发布的GAS基因组组装序列,整理菌株重要背景信息建立本地化基因组数据库。利用生物信息学软件构建GAS全基因组系统发生树,进行核心基因组分析,并对基因组中潜在的前噬菌体及其完整性进行预测,获得前噬菌体分布特征。统计数据库中基因型种类、核心基因数量及前噬菌体的数量、长度和携带率。
建立了包含2 529株GAS基因组序列的数据库,涵盖140种血清型(emm基因型)。分离地点主要包括东亚、欧洲、美洲、大洋洲19个国家和地区。分离菌株疾病背景主要分为侵袭性感染、非侵袭性感染和免疫继发症3类;共鉴定出1 005个核心基因,这些基因在95%以上菌株中均存在;对其中1 798条序列分析发现,有1 366条序列存在1个或以上完整的前噬菌体,携带率为76.0%。每株菌携带完整前噬菌体的数量范围为0~6个,长度范围为32.8~62.6 kb,主要分布在30~40 kb。中国菌株近些年优势克隆中存在的前噬菌体主要为phiHKUssa、phiHKUvir和phiHKU488,主要携带speC、spd1和ssa 3种毒力基因。
前噬菌体在GAS基因组中分布广泛,可能在其种群优势克隆演变和扩张过程中发挥重要作用,进而重塑特定emm基因型内部种群结构。GAS基因组数据库的建立为GAS病原监测提供了重要数据支撑。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
A族链球菌(Group A Streptococcus,GAS)可引起人类多种感染,从症状较轻的咽炎、脓疱病,到高致死率的坏死性筋膜炎、链球菌中毒性休克综合征等[1,2],在全球范围内具有较高疾病负担[3,4,5,6,7]。猩红热是我国法定乙类传染病,目前无疫苗可用。
GAS常可在托幼机构、学校等集体单位引起发热聚集性疫情。随着全球新型冠状病毒感染防控策略的调整,A族链球菌病呈现快速回升态势。2022年底,欧洲多国暴发猩红热和侵袭性GAS感染,再度引起全球关注[8,9,10,11,12]。A族链球菌病的暴发流行与病原体变异、宿主、环境因素有关,其中病原体变异起主要作用。自20世纪80年代起,欧美侵袭性GAS暴发与新出现的变异克隆M1T1有关;英国2014年猩红热暴发主要与新出现的M1UK克隆有关[13,14];中国2011年猩红热暴发主要与M12毒力和耐药克隆有关[15,16]。基因组流行病学监测是发现流行克隆演变的重要手段。过去10年间国际公共数据库中已积累了大量GAS基因组数据,其中也包括多个中国基因组序列[15,16,17,18],为全球监测提供了重要支持。近年来尽管我国GAS相关监测技术和监测网络已得到快速发展,但整体尚缺乏系统性基因组流行病学数据。因此,建立本地化GAS基因组数据库对于我国A族链球菌病监测和暴发溯源具有重要意义。本研究拟对公共数据库中的GAS基因组数据进行系统性整理和生物信息学分析,构建本地化GAS基因组数据库,并对我国菌株中携带重要毒力基因的噬菌体元件进行分析和梳理,为我国GAS病原学监测提供支撑。
生物信息学分析。以美国国家生物信息中心(National Center for Biological Information in the United States,NCBI)的Genome数据库为目标库,检索、下载GAS基因组组装数据。检索时间截至2020年5月。通过数据库登记信息和文献检索确定每条基因组组装结果背景信息,包括菌株名称、GenBank数据库组装序列号(GenBank assembly accession)、是否为完成图、分离时间、分离地点、宿主疾病等。根据基因组长度对数据质量进行初步质控,去除总碱基数<1.7 Mb(或>2.2 Mb)、contig(测序组装片段)过多的低质量数据。
提取菌株emm基因型信息。利用SNIPPY软件获得GAS核心基因组单核苷酸多态性(single nucleotide polymorphism,SNPs),利用Gubbins软件去除重组区域和移动元件所在区域的SNPs。基于去重组的核心基因组SNPs,利用FastTree构建进化树。利用Roary软件进行核心基因分析。
利用PHAST软件(http://phast.wishartlab.com)对1 798条GAS基因组中存在的前噬菌体成分进行预测,根据该软件得分标准判断为基因组中存在完整噬菌体(得分>90)、疑似噬菌体(得分为70~90)或不完整噬菌体(得分<70)。对于软件分析结果给出的可能噬菌体(possible phage),进一步检索、保留带有PHAGE_Strept的结果,以提升预测结果的严谨度和准确度。统计GAS基因组中存在的前噬菌体数量和完整度。提取基因组中预测出的前噬菌体序列并进行基因比对,确定噬菌体基因组结构组成,将不同M型菌株携带的主要前噬菌体类型在核心基因组系统发生树中进行标记。
获得来自公开数据库的代表性数据2 718条,分离时间跨度为1952年至2019年。这些数据涵盖了GAS重要的全球流行血清型如M1型、M3型、M12型,及局部地区流行血清型如M5、M6、M18、M49、M60、M63、M89、M95等。共覆盖140种血清型(emm基因型)。地域来源包括东亚、欧洲、美洲、大洋洲的19个国家和地区(图1)。经序列质控过滤后总计纳入2 529条基因组序列。序列相关菌株分离地点主要为澳大利亚、美国、肯尼亚、斐济、新西兰、中国、英国(图2)(仅显示基因组数量≥25的国家)。菌株所致感染类型主要包括侵袭性感染、非侵袭性感染和免疫继发症。侵袭性感染中主要包括肺炎、坏死性筋膜炎、脓疱病等。非侵袭性感染主要为咽炎和猩红热。免疫继发症主要为急性链球菌感染后肾小球肾炎和风湿热(表1)。





A族链球菌基因组数据库菌株的主要疾病背景
Main disease background of strains in the Group A Streptococcus genome database
A族链球菌基因组数据库菌株的主要疾病背景
Main disease background of strains in the Group A Streptococcus genome database
| 感染类型 | 疾病 |
|---|---|
| 侵袭性感染 | 肺炎 |
| 坏死性筋膜炎 | |
| 菌血症 | |
| 败血症 | |
| 脓疱病 | |
| 脑膜炎 | |
| 非侵袭性感染 | 咽炎 |
| 猩红热 | |
| 免疫继发症 | 急性链球菌感染后肾小球肾炎 |
| 风湿热 |
针对以上数据建立的本地化GAS基因组数据库,以M1型侵袭性感染菌株MGAS5005为参考菌株通过对2 529株国内外菌株分析,共获得核心基因组SNPs(cgSNP)94 703个,利用这些位点能够准确区分不同血清型GAS及不同克隆群结构,从而实现对GAS测序菌株进行快速emm基因分型,且可以有效区分国内流行克隆和欧洲流行克隆(图3)。共鉴定出1 005个核心基因,这些基因在95%以上菌株中均存在,标记为coregen95;其中662个基因在99%以上的菌株中均存在,标记为coregene99(图4)。


注:红色谱系为emm12型,绿色谱系为emm1型,蓝色谱系为emm75型,紫色为emm28型,青色为emm3型;SNP:单核苷酸多态性 Lineage in red represent emm12 genotype,lineage in green represent emm1 genotype,lineage in blue represent emm75 genotype,lineage in purple represent emm28 genotype and lineage in cyan represent emm3 genotype;SNP:single nucleotide polymorphism


共统计1 798条基因组序列中前噬菌体分布情况,有1 366条序列存在1个或以上完整的前噬菌体,完整前噬菌体序列数量范围为0~6个,长度范围32.8~62.6 kb。共鉴定出2 518条完整前噬菌体序列,其中1条长度在30 kb以下,2 440条长度30~40 kb,64条长度40~50 kb,11条50~60 kb,60 kb以上的仅有2条,长度为62.6 kb、65.2 kb。506条基因组中存在疑似噬菌体序列,长度范围19.7~43.2 kb,其中482条长度30~40 kb。共鉴定出1 167条不完整噬菌体序列(图5)。中国流行的M12型和M1型菌株携带多种类型的前噬菌体,主要为phiHKUssa、phiHKUvir和phiHKU488,M12优势克隆谱系中主要携带phiHKUssa和phiHKUvir,M1克隆谱系中主要携带phiHKU488。所携带的毒力基因主要是与猩红热发病密切相关的speC、spd1和ssa(图6、图7)。






据既往报道,我国GAS病以猩红热和咽扁桃体炎为主。2011年至2019年猩红热一直处于较高流行水平,2020年新型冠状病毒暴发后,因采取严格防控措施,全国猩红热发病率下降约80%,3年来的低水平流行使猩红热的群体免疫处于较低水平[19]。随着2023年初新型冠状病毒感染防控政策的调整,我国学校和托幼机构儿童、青少年群体面临较高的猩红热和咽扁桃体炎的流行风险。2022年底欧洲猩红热和侵袭性GAS感染的暴发,已为全球重新重视GAS病的防控敲响警钟。在当前全球无GAS可用疫苗的背景下,防控的关键是快速鉴定引起暴发流行的基因型和克隆型,一方面,有赖于建立和完善覆盖全国的病原学主动监测网络,另一方面,建立完善的本地化GAS基因组数据库,形成基因型和克隆型的快速鉴定流程也至关重要。我国GAS病原学研究始于20世纪90年代,目前已积累了大量菌株emm基因型(M血清型)分布特征相关数据,为我国GAS分子流行病学研究提供了重要支撑[20,21,22]。一项为期8年(2011年至2018年)对北京地区的猩红热监测,分析了2 484株GAS的M血清型分布,结果显示M12型菌株导致我国2011年猩红热暴发,8年内呈现M12和M1为主的交替流行模式[20]。本研究建立的本地化GAS基因组数据库已覆盖了目前全球流行的全部重要基因型,相关菌株背景覆盖地域广泛,涉及GAS病的病种类型也较为全面,可提供较完善的病原学监测数据基础。本研究所建立的cgSNP方法是目前GAS暴发溯源调查最重要的方法,比脉冲场凝胶电泳(pulsed field gel electrophoresis,PFGE)、emm基因分型、核心基因组多位点序列分型(core genome multilocus sequence typing,cgMLST)等分型方法具有显著优势,可一次性完成对菌株基因型、克隆型的精准鉴定。
近几十年全球范围内出现的GAS病复燃或暴发,已有多项研究提示与携带毒力因子如致热外毒素的前噬菌体播散有关。例如欧美流行的M1T1克隆,带有3个重要前噬菌体,分别编码3种毒素:链球菌致热外毒素A2(Streptococcal pyrogenic exotoxin A2,SpeA2)、链球菌DNA酶2(Streptococcal DNase2,SdaD2)和链球菌DNA酶3(Streptococcal DNase3,Spd3)[19];中国2011年猩红热暴发流行的M12克隆带有编码链球菌超抗原(Streptococcal superantigen,SSA)、链球菌致热外毒素C(Streptococcal pyrogenic exotoxin C,SpeC)、Spd1的前噬菌体[15,16]。近些年全球高度关注的M1UK于2014年由英国首次报道,之后M1UK作为一个新的M1型变异克隆开始大范围传播,在欧美多国均有发现[23,24]。澳大利亚最新研究显示M1UK已快速替代M1T1克隆,造成严重GAS感染病例增加。已有26%的澳大利亚M1UK菌株获得了噬菌体编码的超抗原SSA和SpeC及Spd1,这些毒素在亚洲流行的M1T1和M12分离株中也广泛存在[25]。可见噬菌体介导的细菌毒力因子水平转移可增加细菌菌株多样性并改变其进化,若毒素表达水平升高可使其迅速成为优势克隆。本研究初步分析了GAS目前的基因组数据中前噬菌体的分布情况,发现在现有数据库中绝大部分测序菌株均带有1个以上的前噬菌体,分布十分广泛,在所分析的1 798条基因组序列中,有1 366条序列存在1个或以上完整的前噬菌体,这些移动元件可能具有在不同菌株、不同基因型之间较高的传播的能力。少部分菌株带有5~6个完整的前噬菌体,这些菌株可能更易受噬菌体侵染而进入溶源状态,具有更高的基因组变异度。我国菌株中主要存在phiHKUssa、phiHKUvir和phiHKU488三种前噬菌体,在M12型和M1型优势克隆中分布广泛。中国菌株携带的主要前噬菌体基因组成与国际流行的其他序列存在较大差异,提示存在不同的传播及致病机制,需进一步研究。本研究对前噬菌体的预测存在一定局限性,因数据库中大部分是基因组草图,而不是完成图,如果前噬菌体位于不同contig,可能给前噬菌体的鉴定带来一定偏差。另外还需要对噬菌体中毒力基因分布和构成进一步分析。
本研究对基因组数据递交国家的统计也提示我国尚需扩大GAS基因组数据量,特别是缺乏重要历史菌株的基因组序列,未来尚需疾控与临床多部门深度协作,使得监测数据库更为完善。另外,当前国际公共数据库测序数据更新速度快,且有很多是以原始测序数据包形式递交到序列读取存档(sequence read archive,SRA),并未组装,对这部分序列的组装非常耗时耗力,因此本研究暂未纳入这些数据,未来可逐步推进完善。
GAS优势克隆的产生和扩散常与多种因素有关,常体现在基因组中多种类型的变异,并非仅局限于前噬菌体播散机制。例如由毒力或毒力调控基因的点突变可使毒力基因表达水平升高,形成优势克隆;整合接合元件(integrative conjugative elements,ICE)等耐药相关元件的传播可造成耐药克隆播散[26,27,28],因篇幅所限,本研究无法将这些基因组变异一一纳入分析,但同样是未来需高度关注、监测的病原学变化特点。对可能由新产生的克隆引起的GAS暴发流行应从多角度分析基因组变异特点。
综上所述,本研究初步建立了可用于我国GAS病原学监测的本地化基因组数据库,对数据库基因组中存在的噬菌体成分的初步分析提示GAS存在丰富的前噬菌体谱库,在特定emm基因型中优势克隆的产生、进化和扩散过程中发挥重要作用。
所有作者均声明不存在利益冲突





















