
应用生物信息学方法基于基因表达(gene expression omnibus,GEO)数据库芯片数据进行数据挖掘,探寻子宫内膜异位症发病的关键基因及信号通路。
从GEO数据库中查询并下载子宫内膜异位症(物种为人类)基因表达谱芯片数据,使用R软件进行差异基因的统计学分析,并对筛选出的差异基因进行验证、基因本体论(gene ontology,GO)及京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)富集分析,然后进行蛋白相互作用网络分析;最后应用Cytoscape软件进行信号通路可视化。
从GEO数据库中获得了GSE7305芯片数据集,共筛选出1 537个差异基因,其中表达上调的基因为870个,表达下调为667个。GO富集分析显示差异基因主要富集于细胞质膜、细胞黏附、蛋白质同源二聚化活性等方面;KEGG富集分析显示差异基因主要富集于PI3K-Akt信号通路、补体信号通路以及细胞黏附等12条信号通路。收集2019年1月至2020年12月首都医科大学附属北京妇产医院住院手术的子宫内膜异位症患者40例,在位子宫内膜组织在手术切除后立即置于组织液中固定,石蜡包埋,并应用免疫组化验证C7的表达情况,结果与芯片一致。
子宫内膜异位症的发病是众多基因及信号通路相互作用的结果,补体C7可能依赖补体信号通路促进子宫内膜异位症的发生发展。
本刊版权归人民卫生出版社有限公司所有。任何机构或个人欲转发本刊图文,请与本刊联系。凡未经授权而转载、摘编本刊文章者,本刊将保留追究其法律责任的权利。
子宫内膜异位症(endometriosis,EM)是一种以功能性子宫内膜种植于子宫外并周期性增殖为特征的慢性疾病,卵巢和盆腔腹膜是子宫内膜异位组织最常见的种植部位。尽管EM在普通人群中的确切发病率尚不清楚,但它在育龄妇女中发病率高达10%[1,2]。EM主要临床症状为疼痛,主要包括盆腔疼痛、不孕、痛经和性交困难,其发生发展与遗传、免疫、激素、环境因素以及它们之间复杂的相互作用密切相关,但其确切发病机制并不清楚[3]。因此,筛选EM发病的关键基因及通路对其诊断及治疗具有重要意义。生物信息学是由多学科交叉产生的学科,是以计算机为工具对生物信息进行储存、检索和分析的科学。近年来,运用生物信息学方法在分子水平上进行数据挖掘,为研究各种疾病的分子机制提供了新的思路。本研究通过收集基因表达(gene expression omnibus,GEO)数据库中EM的芯片数据,对EM发生发展的相关基因进行挖掘,并进行生物信息学分析,以期为其发生发展与早期诊断治疗提供新的方向。
本研究以"endometriosis"作为关键词在GEO数据库中检索与EM相关的基因表达谱数据集。最终选取由Hever等[3]提供的GSE7305,其标本分为两组,包括在位子宫内膜:GSM175776-GSM175785,异位子宫内膜:GSM17766-GSM175775。
应用R软件对差异表达基因进行筛选,筛选标准为logFoldChange(差异倍数的对数)=1、P=0.05。
应用R软件对筛选出的差异基因进行基因本体论(gene ontology,GO)及京都基因与基因组百科全书(Kyoto encyclopedia of genes and genomes,KEGG)富集分析,并对相关基因进行GO与KEGG注释。同时,我们将筛选出的差异基因输入STRING数据库进行分析,找出差异基因对应蛋白之间的可能相互作用关系,并构建相互作用网络结构图(protein-protein interaction,PPI)。最后,我们应用Cytoscape将富集的通路进行可视化。研究中应用的R软件包主要有:GEOquery、resh-ape2、DESeq2、limma、Affy、ggplot2、pheatmap、topGo、Rgraphviz、pathview、clusterPro-filer、org.Hs.eg.db、enrichplot、Cytoscape3.7.2。
采用SP法检测在位子宫内膜(对照组)及异位子宫内膜组织中C7的表达情况。严格按照说明书进行操作,用PBS代替一抗作空白对照。C7一抗(Ab121711)稀释浓度为1∶200,二抗稀释浓度为1∶1 000,以细胞质或细胞核呈棕黄色或棕褐色为阳性。兔抗人C7单克隆抗体、羊抗兔二抗、BCA检测试剂盒、免疫组化SP试剂盒及DAB显色试剂盒可溯源。
在筛选差异基因之前,先对芯片数据进行背景矫正及标准化处理(图1)。


然后应用Affy包中稳固多阵列平均算法(robust multiarray average algorithm,RMA)在R软件中分析GSE7305芯片中原始探针数据(CEL文件),相同基因多个探针测量表达值的均值即为该基因的表达值。
对GSE7305进行分析筛选,相对于对照组(在位子宫内膜),异位子宫内膜样本中可筛选出1 537个差异基因,其中表达上调的基因为870个,表达下调为667个。筛选该数据集中差异表达水平超过4倍且P<0.01的基因为后续研究对象,并对差异基因的分布绘制火山图(图2)。我们列举了差异表达最明显的前20个基因(表达上调基因为C7、CLDN11、CSTA、LINC-01116、PTGIS、SERPINE2、DPYSL3、SCN7A、ITPR1、ZFPM2、KCNT2、GATA6、CFHR1、FIBIN、CHL1、TCF21、DIRAS3、DLK1、CFH、ARX,表达下调的基因为TWIST2、ESRP1、HOXB6、MARVELD2、PRSS8、AI093572、GRHL2、RAB25、HO-OK1、STX18、CHMP4C、MSX1、DLX5、KIAA13-24、FOXA2、CLDN3、DLX6、HOXA11、AI635756、PPM1H),并且进一步对差异表达前100基因进行聚类分析(图3),探索不同差异基因的潜在共同特征。


注:红色为上调;绿色为下调;黑色为无统计学意义差异基因。


在对差异基因进行GO功能富集分析后发现,筛选出的差异基因在细胞组分(cellular component,CC)方面主要富集于细胞质膜、胞外外泌体、质膜的组成成分等;在生物学过程(biological process,BP)方面主要集中于RNA聚合酶Ⅱ启动子转录的负调控、细胞黏附、细胞分裂等;而在分子功能(molecular function,MF)方面,筛选出的差异基因主要富集于蛋白质同源二聚化活性、序列特异性的DNA结合结构域以及肝素结合等(图4)。


对差异基因进行KEGG信号通路富集分析,结果显示筛选出来的差异基因参与的主要信号通路富集于PI3K-Akt信号通路、补体信号通路以及细胞黏附信号通路等,以上结果表明在EM的发生发展过程中有复杂多样的信号通路参与调控(图5)。


应用Cytoscape软件对差异基因富集信号通路进行可视化分析。结果发现筛选出的差异基因富集的信号通路网络庞大,结构复杂,通路之间存在多种交叉因子(图6)。以上结果表明这些通路之间可相互影响,在EM发病过程中发挥着极其复杂的作用。


应用免疫组化验证C7在异位子宫内膜组织中的表达情况,结果显示C7在异位子宫内膜及在位子宫内膜组织中均有表达。在异位子宫内膜组织中的表达量明显高于在位子宫内膜组织(图7),结果与数据挖掘得到的结果相一致。


注:异位子宫内膜(A)及在位子宫内膜组织(B)中C7的表达情况,棕色代表C7在异位子宫内膜及子宫内膜组织中表达位置,颜色的深浅代表其表达水平,对照组(C)中未见明显C7表达。
子宫内膜异位症是一种炎症性疾病,多见于育龄女性,它由异常部位的子宫内膜样组织播散、生长或化生引起,其特点是腺体和间质对局部、内源性和外源性激素刺激有功能性反应,主要临床症状为盆腔疼痛、不孕、痛经和性交困难[4,5,6,7]。异位的子宫内膜多见于盆腔腹膜和器官(卵巢、输卵管、阑尾、盲肠、乙状结肠、直肠、子宫韧带、直肠阴道隔和膀胱),也可种植于盆腔以外的组织脏器(肚脐、外阴、剖腹手术瘢痕、阑尾和肺等)[8,9]。
关于EM的发病机制理论很多,其中以20世纪初Sampson[10]提出的经血逆流种植学说为主导理论,由于月经期子宫内膜组织的逆流,机械转移进展到盆腔,经过黏附、侵袭和血管形成,从而发展为子宫内膜异位症。然而,这一理论并不能完全解释疾病的发病机制,因此,后续研究对EM的病理生理提出了多种假说,如体腔化生、细胞免疫改变、转移、遗传基础、环境基础以及特定基因与环境相互作用的多因素遗传模式等,但是关于EM确切发病机制仍不清楚[11]。本研究基于GEO数据库,应用多种生物信息学分析方法,探索EM发病过程中发生差异表达的基因,初步探究这些差异基因的作用及功能,为后续基础及临床研究提供新的依据。
EM的发病过程涉及了众多基因的表达异常。通过对包含EM的GSE7305数据集进行分析筛选,本研究结果显示有1 537个差异表达基因。通过对这些差异基因进行GO及KEGG富集分析显示,差异基因的功能主要集中在细胞质膜、胞外外泌体、质膜的组成成分等;在生物学过程方面主要集中于RNA聚合酶Ⅱ启动子转录的负调控、细胞黏附、细胞分裂等;在分子功能方面,筛选出的差异基因主要富集于蛋白质同源二聚化活性、序列特异性的DNA结合结构域以及肝素结合等;而在信号通路方面,这些基因主要富集于补体信号通路、PI3K-Akt信号通路以及细胞黏附信号通路等。
在筛选出的差异基因中,补体C7在异位子宫内膜中的表达显著高于在位子宫内膜。随后,本研究通过免疫组化验证,补体C7在异位子宫内膜及在位子宫内膜组织中均有表达,但是,在异位子宫内膜组织中的表达量明显高于在位子宫内膜组织,这与芯片结果表达一致。补体系统由50多种蛋白质组成,包括可溶性激活前体成分、调节因子和细胞表面受体。补体系统在标记非自身(病原体)、改变的自身(凋亡/坏死细胞和蛋白质聚集体)和转化的自身(肿瘤细胞)方面非常有效,可导致靶细胞/病原体的裂解,调理和随后通过补体受体增强免疫系统吞噬细胞的摄取,并产生炎症介质。此外,补体系统还可以调节适应性免疫反应,并充当先天免疫和适应性免疫之间的纽带[12,13]。补体系统可通过3种主要途径激活:经典途径、凝集素途径和替代途径,一旦激活补体途径,在形成活性酶复合物时会聚,最终形成膜攻击复合物(membrane attack complex,MAC),插入靶膜导致细胞裂解。除了溶解活性外,补体还诱导免疫反应的其他重要效应功能,包括调理、吞噬和溶解病原体;清除凋亡细胞、细胞碎片和免疫复合物,以及诱导促炎症作用和充当先天免疫与适应性免疫之间的联系[14,15,16]。炎症是EM发病机制中的一个关键过程,炎症细胞如中性粒细胞和巨噬细胞参与炎症,而后者与雌激素相关,这表明EM发病过程免疫过程可能存在异常反应现象[17],而国外一些研究中,补体途径在EM的早期阶段对疾病的发生发展产生影响已经被证实[18,19,20]。因此,虽然免疫浸润和持续的炎症环境助长了EM的发生发展,但最大的病理机制可能来自异常的免疫反应补体激活,免疫失调是促成这种病理状态的一个主要因素。
综上所述,本研究基于GEO数据库对子EM芯片数据进行生物信息学挖掘,筛选出在EM发病过程中差异表达的基因及相关信号通路。我们发现补体C7及补体信号通路可能在EM的发生发展过程中起着重要的作用,对于临床诊治EM具有潜在的应用价值。但是,目前尚不能明确差异基因补体C7在子宫内膜异位症发病机制中是否存在始动作用,在后续研究中,我们将进行体外细胞实验和动物实验,通过调控C7在细胞中的表达(上调及下调),检测细胞的黏附、侵袭及增殖能力的改变,从而验证其在子宫内膜异位症发病中的作用及机制。同时,我们发现生物信息学工具对于EM的发病机制、疗效评价及预后预测等方面具有巨大的应用价值,若与后续分子生物学领域的研究相结合,可以为EM的诊疗提供新的思路与理论基础。





















