
我国医疗数据的存储大部分实现了电子化,但尚未建立统一的信息化和结构化模式,而肿瘤临床数据的规范收集、分析整理,是提高肿瘤诊断和治疗水平的重要基础。因此,迫切需要建立一个胃癌专病数据库平台,整合数据资源,进而提高对胃癌的诊疗水平。本研究通过本中心建立的胃癌专病数据库,采用自然语言处理技术结构化临床病理信息,分析解放军总医院第一医学中心普通外科近20年胃癌患者的人口经济学指标,以期了解胃癌外科人群的临床病理特征、分期构成和预后状况。
采用回顾性队列研究的方法。回顾性纳入2000—2019年期间接受手术治疗的胃癌患者病例资料,按照国际抗癌联盟和美国癌症联合会(UICC/AJCC)第8版胃癌TNM分期指南,将结构化的胃癌临床病理资料重新评估判读。对2010—2016年期间患者的随访资料采用Kaplan-Meier法描述患者的生存情况,运用Log-rank检验比较不同手术方式及不同病理分期组间的生存率差异。
本研究共纳入13 492例胃癌患者的临床资料。全组男女比例为3.25∶1.00,其中男性10 320例,平均发病年龄59.68岁,发病年龄20年来基本稳定;女性3 172例,平均发病年龄55.93岁,发病年龄呈逐年增加的趋势,平均每年增加0.17岁。患者的平均住院时间呈逐年递减趋势,其中2019年为13.87 d;平均住院费用呈逐年增长趋势,其中2017年达到峰值8.36万,2019年为7.54万。经自然语言识别和纳入排除标准筛选,获得7 218例结构化临床病理信息。分析近5年3 626例患者的临床病理特征,肿瘤直径为(4.44±2.61) cm,淋巴结清扫数为(24.30±13.29)枚,不同手术方式所占比例分别为:开腹手术1 398例(38.55%),腹腔镜手术1 856例(51.19%),机器人手术372例(10.26%)。术后病理分期:ⅠA期658例(18.15%),ⅠB期318例(8.77%),ⅡA期559例(15.42%),ⅡB期543例(14.98%),ⅢA期632例(17.43%),ⅢB期612例(16.88%),ⅢC期276例(7.61%),Ⅳ期28例(0.77%)。获得完整随访资料的患者3 431例,1、3、5年总体生存率分别为82%、69%和60%。腹腔镜手术和开放手术患者的1、3、5年生存率分别为83%、70%、64%和81%、67%、56%,差异无统计学意义(P=0.109)。不同TNM分期胃癌患者的5年生存率分别为:ⅠA期88%、ⅠB期77%、ⅡA期70%、ⅡB期62%、ⅢA期44%、ⅢB期32%、ⅢC期22%、Ⅳ期17%。
本研究为进一步研究多中心胃癌的综合诊疗模式和提高我国胃癌综合治疗的疗效提供了基础数据。
版权归中华医学会所有。
未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。
除非特别声明,本刊刊出的所有文章不代表中华医学会和本刊编委会的观点。
胃癌是全世界范围内最常见的恶性肿瘤之一,其死亡率一直高居癌症的第三位[1]。我国是胃癌高发地区,且进展期胃癌占比高,严重威胁着人民的健康[2,3]。探寻胃癌的发病机制并提高诊断治疗水平一直为临床研究的热点。胃癌相关机制的研究和临床诊疗的研究都离不开临床数据资料的支持[4]。专病数据库的建设是提供规范化专科数据的重要来源[5]。目前,我国医疗数据的存储大部分实现了电子化,但尚未建立统一的信息化和结构化模式[6]。所谓非结构化病历,具体指由无结构的人类自然语言构成的、无法用于统计分析的病历,我们形象地称之为"脏病历";目前,全球大量基于人工智能技术的辅助诊疗系统开发团队均不同程度地受到"脏病历"的掣肘,就我国病历可用性而言,现状仍不容乐观[7,8]。自然语言处理(natural language processing,NLP)技术是运用人工智能通用算法,把自然语言转化为可用于编码分析的结构化形式,该技术的出现和发展,促进了大数据时代医疗数据的信息化[9,10]。解放军总医院第一医学中心普通外科前期建设完成了与医院信息系统、实验信息系统、临床信息系统和电子病历系统对接的胃癌专病数据库,实现了自动化采集和实时更新,该数据库由解放军总医院普通外科和医疗大数据应用技术国家工程实验室共同建设[11]。本研究纳入分析了近20年胃癌患者的人口经济学指标,并通过NLP技术实现了部分病历的结构化,总结了单中心胃癌外科人群的临床病理特征、分期构成和预后现状,为胃癌临床诊疗策略制定和科研分析提供数据支撑。
本研究采用回顾性队列研究的方法。病例资料来源于解放军总医院第一医学中心(原中国人民解放军总医院)普通外科胃癌专病数据库。
依据国际疾病分类编码,数据库1992—2019年间共计有20 811例患者第一诊断为胃恶性肿瘤,筛选出2000—2019年近20年的病例资料18 774例,其中在本中心普通外科接受手术治疗的患者共13 492例。通过运用NLP技术,完成了对经临床病理信息进行结构化处理的胃癌病例8 676例(64.30%)。排除原位癌(Tis)和分期不明确(Tx、Nx、Mx)的病例1 458例,最终有7 218例胃癌患者纳入临床病理信息分析。本研究符合《赫尔辛基宣言》的精神。
电子病历结构化是人工智能应用于医疗领域的核心技术之一[12]。本研究运用NLP技术,将传统病历中非结构的描述性和诊断性信息,通过词法分析、句法分析以及语义技术,转化为可用于查询、统计、分析的结构化病历数据。NLP技术是人工智能通用算法应用的重要组成部分。病历自然语言理解核心部分使用了医学知识图谱分析器(Medical Knowledge Graph Based Parser,MKG-Parser)策略,其核心在浅层句法分析、篇章分析与结构化抽取模型中均引入了基于知识图谱的快速匹配、推理机制[13]。计算机通过使用机器学习方法,基于训练语料和抽取规则,训练出模型,自动学习模式,并处理新的病历,实现病历的结构化。
按照国际抗癌联盟和美国癌症联合会(Union for International Cancer Control/American Joint Committee on Cancer, UICC/AJCC)第8版胃癌TNM分期指南,将结构化的胃癌临床病理资料重新评估判读,确定胃癌病理分期。简述如下:T分期分为6个亚组:T1a、T1b、T2、T3、T4a、T4b;N分期分为5个亚组:N0、N1、N2、N3a、N3b;M分期分为2个亚组:M0和M1;病理总分期分为8个亚组:ⅠA、ⅠB、ⅡA、ⅡB、ⅢA、ⅢB、ⅢC和Ⅳ[14]。
为获得至少3年以上的生存时间,本研究按照胃癌术后规范化随访策略[15],采用门诊复查登记、电话、短信、微信公众号推送等方式,对2010—2016年期间3 973例患者进行了术后随访,其中3 431例(86.36%)完成随访,随访终点为总生存期(overall survival,OS),随访截止日期为2019年12月。
数据分析采用Packages R (http://www.R-project.org,The R Foundation)和Empower States (http://www. empowerstates. com,X & Y Solutions,Inc,Boston,MA)软件,绘图采用GraphPad Prism 8软件(GraphPad Software,San Diego,CA)制作。连续性变量用
±s表示,差异比较采用方差分析检验;分类变量用例(%)表示,差异比较采用χ2检验。趋势检验采用线性回归方程检验并绘制趋势线,生存分析采用Kaplan-Meier法,不同组间的生存率差异比较采用Log-rank检验。P<0.05表示差异有统计学意义。
纳入2000—2019年在本中心普通外科接受手术治疗的13 492例胃癌患者的人口经济学资料。其中男性10 320例,女性3 172例,男女比例为3.25∶1.00,患者总体数量呈逐年增加趋势,见图1。进一步分析患者的年龄分布,男性发病年龄为(59.68±11.47)岁,基本稳定;女性发病年龄(55.93±9.83)岁,呈逐年增加趋势。绘制胃癌患者年龄分布的趋势线,女性患者的平均发病年龄每年增加0.17岁,胃癌患者的年龄随时间变趋势见图2。经手术治疗的胃癌患者平均住院时间呈逐年递减趋势,其中2019年为(13.87±0.78) d;经手术治疗的胃癌患者的住院费用呈逐年增长趋势,其中2017年达到峰值(8.36±0.41)万,2019年为(7.54±0.39)万,见图3。






通过运用NLP技术和纳入排除标准筛选获得7 218例胃癌手术患者的临床病理信息。将患者按照住院时间即2000—2009年、2010—2014年和2015—2019年分为3组,不同组间患者的临床病理特征变化趋势见表1。除性别比例和肿瘤M分期外(均P>0.05),本组不同时段的胃癌患者临床病理特征分布差异具有统计学意义(均P<0.05)。

7 218例胃癌手术患者不同时间段临床病理资料的比较
7 218例胃癌手术患者不同时间段临床病理资料的比较
| 临床病理信息 | 2000—2009年(979例) | 2010—2014年(2 613例) | 2015—2019年(3 626例) | 统计值 | P值 | |
|---|---|---|---|---|---|---|
年龄(岁, ±s) | 59.05±11.73 | 58.92±11.66 | 59.85±11.15 | F=6.75 | 0.001 | |
| 性别[例(%)] | χ2=3.79 | 0.150 | ||||
| 男 | 773(78.96) | 1 989(76.12) | 2 760(76.12) | |||
| 女 | 206(21.04) | 624(23.88) | 866(23.88) | |||
| 手术方式[例(%)] | χ2=1 579.76 | <0.001 | ||||
| 开腹手术 | 970(99.08) | 1 961(75.05) | 1 398(38.55) | |||
| 腹腔镜手术 | 9(0.92) | 576(22.04) | 1 856(51.19) | |||
| 机器人手术 | 0 | 76(2.91) | 372(10.26) | |||
| 手术切除类型[例(%)] | χ2=56.26 | <0.001 | ||||
| 近端胃 | 306(31.26) | 697(26.67) | 772(21.29) | |||
| 远端胃 | 376(38.41) | 974(37.28) | 1 519(41.89) | |||
| 全胃 | 297(30.34) | 942(36.05) | 1 335(36.82) | |||
肿瘤直径(cm, ±s) | 4.90±2.92 | 4.79±2.85 | 4.44±2.61 | F=19.68 | <0.001 | |
| 阳性淋巴结数目[枚,M(范围)] | 2(0~5) | 1(0~6) | 1(0~7) | H=32.19 | <0.001 | |
送检淋巴结总数(枚, ±s) | 11.39±7.72 | 18.52±11.14 | 24.30±13.29 | F=580.73 | <0.001 | |
| 肿瘤T分期[例(%)] | χ2=155.22 | <0.001 | ||||
| T1a | 24(2.45) | 139(5.32) | 218(6.01) | |||
| T1b | 155(15.83) | 482(18.45) | 669(18.45) | |||
| T2 | 96(9.81) | 313(11.98) | 455(12.55) | |||
| T3 | 342(34.93) | 902(34.52) | 1 534(42.31) | |||
| T4a | 320(32.69) | 689(26.37) | 683(18.84) | |||
| T4b | 42(4.29) | 88(3.37) | 67(1.85) | |||
| 肿瘤N分期[例(%)] | χ2=59.47 | <0.001 | ||||
| N0 | 360(36.77) | 993(38.00) | 1 445(39.85) | |||
| N1 | 198(20.22) | 477(18.25) | 584(16.11) | |||
| N2 | 224(22.88) | 492(18.83) | 620(17.10) | |||
| N3a | 166(16.96) | 432(16.53) | 675(18.62) | |||
| N3b | 31(3.17) | 219(8.38) | 302(8.33) | |||
| 肿瘤M分期[例(%)] | χ2=2.33 | 0.309 | ||||
| M0 | 972(99.28) | 2 584(98.89) | 3 598(99.23) | |||
| M1 | 7(0.72) | 29(1.11) | 28(0.77) | |||
| 肿瘤TNM分期a[例(%)] | χ2=294.18 | <0.001 | ||||
| ⅠA | 133(13.59) | 416(15.92) | 658(18.15) | |||
| ⅠB | 79(8.07) | 257(9.84) | 318(8.77) | |||
| ⅡA | 41(4.19) | 200(7.65) | 559(15.42) | |||
| ⅡB | 173(17.67) | 444(16.99) | 543(14.98) | |||
| ⅢA | 339(34.63) | 664(25.41) | 632(17.43) | |||
| ⅢB | 173(17.67) | 394(15.08) | 612(16.88) | |||
| ⅢC | 34(3.47) | 209(8.00) | 276(7.61) | |||
| Ⅳ | 7(0.72) | 29(1.11) | 28(0.77) | |||
住院时间(d, ±s) | 20.08±11.97 | 19.31±10.41 | 17.36±10.17 | F=212.71 | <0.001 | |
住院费用(万元, ±s) | 4.69±2.92 | 7.47±2.94 | 8.08±3.52 | F=741.22 | <0.001 | |
注:a采用第8版国际抗癌联盟和美国癌症联合会(UICC/AJCC)TNM分期
2010—2016年间,3 431例获得随访患者的1、3、5年生存率分别为82%、69%和60%;腹腔镜手术和开腹手术患者的1、3、5年生存率分别为83%、70%、64%和81%、67%、56%,两组患者差异无统计学意义(P=0.109),见图4。不同TNM分期的胃癌患者的5年生存率分别为:ⅠA期88%、ⅠB期77%、ⅡA期70%、ⅡB期62%、ⅢA期44%、ⅢB期32%、ⅢC期22%、Ⅳ期17%,差异有统计学意义(P<0.001),见图5。




本研究基于单中心胃癌专病数据库的胃癌外科临床病理信息分析,描述了近20年胃癌患者的人口经济学特征,分析了胃癌就诊人数、性别比例和发病年龄的变化趋势,并进一步对结构化的临床病理数据和相对完善的随访数据进行分析,总结了单中心胃癌外科人群的临床病理特征、分期构成和预后情况,为今后进一步进行多中心中国胃癌的综合诊疗模式研究总结、提高我国胃癌综合治疗疗效,提供了基础数据。
随着互联网、物联网和人工智能技术的飞速发展,医疗数据也进入了"大数据"时代[16]。肿瘤临床数据的规范收集、分析整理,是提高肿瘤诊断和治疗水平的重要基础。在全世界范围内,胃癌多发生于中国、日本和韩国等国家[2]。由于我国人口基数大,胃癌患者的规模位于全世界之首,全球约有一半的胃癌患者在中国[17]。因此,迫切需要建立一个胃癌专病数据库平台,整合数据资源,以期提高对胃癌的诊疗水平。
目前,国内已有多个团队聚焦于胃癌数据的收集和整理,但由于各个医院的独立运营,数据存储规范不一致,多中心的数据融合仍任重而道远。北京肿瘤医院季加孚团队所牵头的中国胃肠肿瘤外科联盟,一直致力于全国多中心的胃癌诊疗数据的收集和分析,在一定程度上反映了我国胃癌诊疗现状[18,19]。成都华西医院胡建昆团队所牵头的中国西部胃癌协作组建立的多中心胃癌登记数据库也在建设中,并支持开展多中心的临床研究[20]。本中心也一直潜心于胃癌专病数据库的建设,从而发挥病例数量的优势,积极与国内同行交流胃癌外科治疗临床分析[21]。
在我国医疗行业长期发展过程中,医院普遍缺乏统一规范的临床结构化病历模型,大部分医院目前均面临病历格式为非结构化病历的难题。NLP技术是人工智能通用算法应用的重要组成部分,电子病历结构化是人工智能应用于医疗领域的核心技术之一[22]。将非结构的人类自然语言,通过词法分析、句法分析以及语义技术,转化为可用于查询、统计、分析的结构化病历数据,是NLP技术的核心功能[9,10]。
本研究通过NLP技术,完成了胃癌数据的批量识别、加工和处理。通过分析胃癌分期的构成比,显示近5年Ⅲ期胃癌的患者比例为41.92%,这与国内报道50.1%的比例相当[23]。而日本和韩国统计的胃癌数据显示,其胃癌的诊断以早期胃癌为主,其中T1期比例分别为65.1%和40.0%,N0期比例分别为72.0%和53.0%[24]。进展期胃癌比例高仍是我们面临的挑战,规范的胃镜筛查具有重要意义。淋巴结清扫范围和清扫个数是标准胃癌根治术(D2)的重要指标[25]。既往多个研究发现,淋巴结清扫数量与胃癌患者的预后密切相关[26,27]。自2010年第7版胃癌指南开始,国内外专家共识推荐,胃癌淋巴结清扫个数不少于16枚;规范化的淋巴结清扫送检,对提高胃癌患者的远期预后具有重要价值[28,29]。本研究总结发现,胃癌病例平均送检淋巴结个数呈逐年增加的趋势,其中近5年(2015—2019年)的病例平均送检淋巴结个数为24.30枚。国内李国新教授牵头的CLASS01研究纳入了1 039例进展期远端胃癌患者,结果显示,腹腔镜组和开腹组3年总生存率分别为81.3%和85.2%,两组患者生存差异无统计学意义[30]。本研究通过回顾性的数据分析发现,腹腔镜手术和开放手术患者的1、3、5年生存率分别为83%、70%、64%和81%、67%、56%,两组患者的生存差异也无统计学意义。
综上所述,本研究完成了单中心胃癌专病数据库建设,该数据库实现了专病数据库与医院信息系统数据的实时对接、批量匹配和结构化处理,初步建立了具有一定规模的、有规范治疗记录的胃癌专病队列。通过分享本中心胃癌专病数据库的建设经验和初步的数据分析结果,为今后进一步研究多中心胃癌的综合诊疗模式、提高我国胃癌综合治疗疗效,提供了基础数据。
所有作者均声明不存在利益冲突

±s)
±s)
±s)
±s)
±s)



















