
采用基因表达汇编(GEO)数据库中转录组数据筛选和分析滤泡性淋巴瘤的关键基因。
通过GEO数据库收集转录组数据集GSE32018和GSE55267。使用R软件行差异分析,筛选差异表达基因,FunRich 3.13软件分析共同差异基因,Cytoscape 3.7.2软件进行滤泡性淋巴瘤相关生物过程和通路分析,筛选与滤泡性淋巴瘤相关的潜在基因,通过分析Oncomine数据库的临床数据进行生存分析,验证所筛选的差异基因。
通过对GSE32018和GSE55267数据集的差异分析,确定141个上调基因和199个下调基因,其中筛选出12个关键基因,即CXCL8、KRT19、CYCS、CDKN3、SFN、RRM2、FN1、APOE、CXCL12、VWF、GATA3、TIMP1,其中CYCS、CXCL8和CXCL12与患者早期生存率的关联最为明显。CXCL12过表达和CYCS低表达与患者不良预后相关;CXCL8在淋巴瘤组织中表达下降,但生存分析中其相对高表达患者出现总生存期缩短的现象,可能与滤泡性淋巴瘤早期发展相关。筛选出GO、KEGG及Reactome通路,分别为GO:0001892、KEGG:04115、R-HSA:2559582、GO:0060968、R-HSA:6785807、GO:0043627、GO:0001936、GO:0043062。
筛选出的基因CYCS、CXCL8和CXCL12可能为滤泡性淋巴瘤的治疗研究提供更有效的生物标志物。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
滤泡性淋巴瘤(FL)是非霍奇金淋巴瘤(NHL)最常见的类型之一,在欧美地区占NHL的20%~30%,在亚洲地区发病率较低,不足NHL的10%[1]。虽然FL临床表现为惰性,但绝大多数患者很难治愈。其病理诊断表现为滤泡中心细胞和中心母细胞的增生,多为滤泡样结节状生长。FL在临床和遗传学方面具有异质性。我们采用生物信息学方法,通过分析基因表达汇编(GEO)数据库公共数据集中FL基因芯片数据集,筛选出FL患者异常表达的基因,探索与FL相关的生物过程和生物通路,寻找FL潜在的生物标志物和分子靶标。
两组基因表达谱数据集包括GSE32018和GSE55267,数据集均从NCBI-GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)获得。GSE32018数据集平台为GPL6480Agilent-014850 Whole Human Genome Microarray 4x44K G4112F(Probe Name version),GSE55267数据集平台为GPL570[HG-U133_Plus_2] Affymetrix Human Genome U133 Plus 2.0 Array。GSE32018数据集包括6例正常反应性扁桃体样本和23例FL患者新鲜冷冻淋巴结样本。GSE55267数据集包括4例正常反应性扁桃体纯化的生发中心细胞和63例FL患者淋巴结活检组织。
所得数据集矩阵均使用R3.5.1软件读取处理。所得数据集在分组后均使用limma3.38.3软件包的normalize Between Arrays函数校正。利用limma 3.38.3软件包对两组数据集分别进行显著差异表达基因筛选,筛选阈值为P<0.01且| log2倍数变化|>1。所得差异表达基因使用ggplot2作图展示。比较两组显著差异表达的基因集合,通过FunRich 3.1.3软件选取两数据集中差异表达基因的交集。
通过Cytoscape 3.7软件cytohubba插件的12种算法筛选关键基因。并使用STRING数据库(https://string-db.org/)对差异表达基因进行蛋白质网络分析。
采用Cytoscape 3.7.2软件clueGO程序对所确定差异表达基因进行基因本体(GO)、KEGG通路以及Reactome通路富集分析,选取P<0.05作为显著富集相关的阈值。通过对富集通路的分组,网络筛选每组最显著的生物通路。
通过Oncomine数据库(https://www.oncomine.org)的"Follicular Lymphoma"项的Dave Lymphoma数据获取FL患者的临床信息,采用GraphPad Prism 8软件绘制Kaplan-Meier生存曲线,并行log-rank检验。
分析GSE32018和GSE55267两个芯片数据,得到141个上调基因和199个下调基因(图1)。


通过Cytoscape软件cytohubba插件每种算法选取得分最高的10个基因为关键基因(表1)。各差异表达基因蛋白质网络见图2。


注:节点的面积随连通度减小而缩小,节点颜色随连通度减小由红色转变为绿色

通过cytohubba插件的12种算法筛选滤泡性淋巴瘤排名前10位关键基因的结果
通过cytohubba插件的12种算法筛选滤泡性淋巴瘤排名前10位关键基因的结果
| 计算方法 | 关键基因 | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| Betweenness | FN1 | CXCL8 | CYCS | KRT19 | VWF | THY1 | GATA3 | APOE | SFN | PI3 |
| BottleNeck | FN1 | CXCL8 | CYCS | KRT19 | THY1 | APOE | CDKN3 | S100A7 | SERPINB5 | LCN2 |
| Closeness | FN1 | CXCL8 | THY1 | CXCL12 | CYCS | KRT19 | TIMP1 | APOE | VWF | C3 |
| Degree | FN1 | CXCL8 | CXCL12 | TIMP1 | MAD2L1 | THY1 | C3 | KRT19 | KRT5 | CDKN3 |
| EPC | FN1 | CXCL8 | CXCL12 | C3 | TIMP1 | THY1 | CCL20 | APOE | KRT14 | FSTL1 |
| MNC | FN1 | CXCL8 | CXCL12 | TIMP1 | THY1 | C3 | KRT5 | MAD2L1 | CHEK1 | KRT19 |
| Radiality | FN1 | CXCL8 | CYCS | THY1 | PI3 | APOE | CXCL12 | VWF | HSPD1 | GATA3 |
| Stress | FN1 | CXCL8 | KRT19 | CYCS | SFN | PI3 | THY1 | GATA3 | S100A7 | VWF |
| MCC | MAD2L1 | PBK | KIAA0101 | ZWINT | NCAPG | RRM2 | HMMR | OIP5 | CDKN3 | NUF2 |
| DMNC | MND1 | FANCI | HMGB2 | HMMR | ZWINT | NCAPG | PBK | RRM2 | KIAA0101 | KRT24 |
| EcCentricity | SCD | CYCS | APOE | CXCL8 | FN1 | LPL | GATA3 | HSPD1 | HTRA1 | PI3 |
| ClusteringCoefficient | CEACAM7 | MND1 | TMEM30B | APOC1 | RSPO3 | WTAP | FZD5 | IL32 | IFI27 | ZBTB32 |
将141个上调基因和199个下调基因分别输入clueGO插件,分别得到69个和47个富集通路。将筛选的关键基因与筛选的富集生物通路联合分析,得到FL相关关键基因、生物过程和通路(表2、表3)。筛选出12个关键基因,即CXCL8、KRT19、CYCS、CDKN3、SFN、RRM2、FN1、APOE、CXCL12、VWF、GATA3、TIMP1,其中CYCS、CXCL8和CXCL12与患者早期生存率的关联最为明显。CXCL12过表达和CYCS低表达与患者不良预后相关;CXCL8在淋巴瘤组织中表达下降,但生存分析中其相对高表达患者出现总生存期缩短的现象,可能与滤泡性淋巴瘤早期发展相关。

滤泡性淋巴瘤GSE32018和GSE55267数据集中上调基因相关的核心生物过程及通路
滤泡性淋巴瘤GSE32018和GSE55267数据集中上调基因相关的核心生物过程及通路
| 基因序列号 | 生物学功能 | 分级P值 | 分组P值 | 相关基因 |
|---|---|---|---|---|
| R - HSA:6785807 | 白细胞介素4和白细胞介素13信号转导 | 0.001 | 0.001 | COL1A2、FN1a、GATA3a、IL6R、TIMP1a |
| GO:0043627 | 雌激素反应 | 0.001 | 0.001 | FSTL1、GATA3a、GATA6、TIMP1a、TNFRSF11B |
| GO:0001936 | 内皮细胞增殖的调节 | <0.01 | <0.01 | ACVRL1、APOEa、CDH11、CXCL12a、DYSF、NR2F2、SULF1、VEGFC |
| GO:0043062 | 细胞外组织结构 | <0.01 | <0.01 | A2M、APOC1、 APOEa、CETP、COL12A1、COL1A2、COL4A1、COL4A2、COL6A3、CST3、CYP1B1、FN1a、HTRA1、LPL、MYH11、SMOC2、SULF1、TIMP1a、TNC、TNFRSF11B、 VWFa |
注:a关键基因

滤泡性淋巴瘤GSE32018和GSE55267数据集中下调基因相关的核心生物过程及通路
滤泡性淋巴瘤GSE32018和GSE55267数据集中下调基因相关的核心生物过程及通路
| 基因序列号 | 生物学功能 | 分级P值 | 分组P值 | 相关基因 |
|---|---|---|---|---|
| GO:0001892 | 胚胎胎盘发育 | <0.01 | <0.01 | CDKN3a、E2F8、FZD5、GJB5、HERPUD1、JUNB、KRT19a |
| KEGG:04115 | p53信号通路 | 0.001 | 0.001 | CHEK1、 CYCSa、RRM2a、SERPINB5、 SFNa |
| R-HSA:2559582 | 衰老相关分泌表型(SASP) | 0.004 | 0.004 | CDKN2B、CXCL8a、HIST1H3A、HIST1H4L、IL1A |
| GO:0060968 | 基因沉默的调控 | <0.01 | 0.001 | AICDA、CD69、CDKN3a、EIF4E、HIST1H3A、HIST1H4L、NDC1、RNASE7 |
注:a关键基因
Oncomine数据库"Follicular Lymphoma"项的Dave Lymphoma数据包含191例FL患者的生存信息,去除无效数据及偏离的异常数据,按关键基因的表达高低分组,分析患者3年生存情况,结果显示CYCS、CXCL8和CXCL12三个基因不同表达水平的患者间总生存差异有统计学意义(P值分别为0.027、0.029、0.029)(图3)。


随着现代医疗技术和生物技术的发展,越来越多的基础和临床研究致力于发现FL的潜在机制,为FL的诊断和治疗提供了更多可能。但目前大多数研究主要集中在单基因事件上。Ma等[2]通过生物信息学分析鉴定CXCR4为多形性成胶质细胞瘤的潜在生物标志物,并发现CXCR4低表达可能提示患者的总生存较好。
本研究整合不同时期和不同国家的两个FL转录组基因芯片数据集,利用生物信息学方法全面分析,确定了340个重叠的差异表达基因,包括141个上调基因和199个下调基因。通路富集分析及蛋白质网络分析表明,差异表达基因主要参与GO:0001892、KEGG:04115、R-HSA:2559582、GO:0060968、R-HSA:6785807、GO:0043627、GO:0001936、GO:0043062过程的调控,为FL发生、发展的分子机制研究提供了新见解,并确定了其可能是FL潜在治疗或诊断靶点的关键基因。我们还使用Oncomine数据库的临床数据对这些基因进行了验证,筛选出12个关键基因,即CXCL8、KRT19、CYCS、CDKN3、SFN、RRM2、FN1、APOE、CXCL12、VWF、GATA3、TIMP1,其中CYCS、CXCL8和CXCL12与患者早期总生存的关联最为明显。
CXCL12基因编码的蛋白属于α趋化因子家族成员,是G蛋白偶联受体的配体,在许多不同的细胞功能中发挥作用,包括胚胎发生、免疫监视、炎症反应、组织稳态以及肿瘤生长和转移。相关研究发现CXCL12可增强淋巴瘤细胞的运动能力[3,4,5],认为CXCL12基因可作为FL潜在的治疗靶标[6]。CYCS基因编码一种血红蛋白,它是线粒体电子传递链的重要组成部分。目前对CYCS的研究多集中在与血小板减少相关的疾病中,尚鲜见CYCS在FL中作用的报道。我们的研究表明,CYCS作为p53信号通路的组成基因,可能与FL有关。FL组织中CYCS的表达低于正常组织,并且CYCS低表达的患者预后不良,有可能是FL潜在的生物标志物。CXCL8基因编码的蛋白质是CXC趋化因子家族的成员,是炎症反应的主要介质,与CXCL8相关的疾病包括黑色素瘤和成年人呼吸窘迫综合征。CXCL8作为一种重要的多功能细胞因子,以自分泌或旁分泌方式调节肿瘤的增殖、侵袭和迁移[7],与弥漫大B细胞淋巴瘤的进展有关[8]。我们在分析GEO芯片数据集和临床数据时发现,CXCL8在淋巴瘤组织中表达下降,但生存分析时其高表达患者却出现总生存期缩短的现象,表明可能与该基因在FL早期表达相关,而其在FL发展过程中变化不明显。
由于FL为惰性淋巴瘤,患者中位总生存时间可以达到8~10年,总生存时间个体差异很大,并且随着疾病的发展以及多种治疗手段的介入,基因与FL的关系会因多种因素的影响而无法正确表现出来。研究表明早期FL具有独特的分子和遗传学特征[9],不同时期FL的基因表达存在差异[10]。所以在生存分析部分,我们去除了偏离较大的异常数据,将观察时间限制在3年,以便更有效地发现与FL形成相关的基因。单一的生物标志物或途径不足以解释肿瘤的发生机制,致癌作用有着复杂的分子机制[11,12]。我们从差异表达基因中鉴定出CYCS、CXCL8和CXCL12三个基因。生存分析发现CXCL12过表达和CYCS低表达与FL的不良预后相关;CXCL8在淋巴瘤组织中表达下降,而生存分析中其相对高表达患者出现总生存期缩短的现象,可能与FL早期发展相关。这种多基因组合的分析可能为FL的研究提供更有效的生物标志物。
所有作者均声明不存在利益冲突





















