山东大学齐鲁医院 山东省济南市 250012
【摘要】目的:筛选出胃癌患者预后相关的囊泡介导转运相关基因(VMTRGs),构建风险评分预后模型并评估预后模型的准确性,探究该模型在免疫与药敏等方面的作用。方法:从TCGA数据库获取胃癌患者的测序数据及临床病理参数,从GSEA官网获取VMTRGs并进行差异表达分析,使用单因素Cox及多因素Cox回归分析筛选出预后相关的VMTRGs并构建风险评分预后模型及列线图,将TCGA胃癌患者随机分组及使用外部独立数据库GSE84437验证模型的预测效果。对风险评分预后模型进行肿瘤突变负荷、药物敏感性相关分析。结果:构建了由4个VMTRGs(F5、APOA1、CD36、SPARC)构成的风险评分预后模型,通过验证显示该预后模型有良好的预测能力且是胃癌患者预后的独立预测因子,其构建的列线图也有良好的预测能力。风险评分高、低风险组在肿瘤突变负荷、药物敏感性分析方面存在差异。结论:构建了一个由4个基因构成的胃癌预后风险模型,作为现有TNM分期的补充,能够预测胃癌患者预后、免疫治疗效果及药物敏感性,指导患者的个体化治疗。
【关键词】囊泡介导转运相关基因;胃癌;预后模型
胃癌(Gastric cancer,GC)是世界上最常见的恶性肿瘤之一,且早期胃癌症状隐匿且缺乏特异性,大多数患者一经发现就处于晚期,总体5年生存率不足40%[1-2]。寻找到更可靠的生物标志物来准确预测患者预后并发掘潜在治疗靶点对胃癌患者具有重要意义。囊泡介导的转运在细胞内物质交换与细胞间信息传递起着及其重要的作用。囊泡转运功能障碍可导致多种疾病的发生,许多研究证明囊泡介导转运相关基因(Vesicle-mediated transport-related genes,VMTRGs)的异常表达与多种肿瘤的发生和发展关系密切,如KIF18B通过调节上皮-间质转化来促进胃癌的进展[3]。本研究基于公共数据库中胃癌样本的测序信息及临床资料,构建基于VMTRGs的胃癌预后模型并验证其预测效能。同时,进一步分析预后模型与肿瘤突变负荷、免疫相关、药物敏感性的关系。
1 材料与方法
1.1 样本资料的获取
从TCGA网站(https://portal.gdc.cancer.gov)下载胃癌(STAD)样本的的测序数据及临床信息作为训练集。获得412例肿瘤测序数据,36例正常组织测序数据。从GEO数据库网站(https://www.ncbi.nlm.nih.gov/geo)中获取GSE84437数据集的测序信息及临床资料。为保证数据完整性,减少围手术期并发症对患者预后的影响,剔除缺少生存时间及生存时间小于30天的样本,共获得TCGA胃癌样本396例,GEO胃癌样本431例。
1.2 囊泡介导转运相关基因的获取与筛选
从GSEA网站(https://www.gsea-msigdb.org/gsea/index.jsp)中REACTOME_VESICLE_MEDIATED_TRANSPORT基因集获取724个VMTRGs。使用GSEA软件对VMTRGs在肿瘤样本与正常组织样本间进行富集分析。并筛选出TCGA中胃癌样本与正常组织样本差异表达的VMTRGs,以FDR<0.05和|log2FC|>1作为筛选标准。
1.3 囊泡介导转运相关基因预后模型的构建
基于TCGA数据库中的测序数据及临床数据,进行单因素Cox回归分析,筛选出与胃癌预后相关的VMTRGs(P<0.01)。多因素Cox回归分析(p<0.05)确定胃癌患者预后相关的关键基因并构建预后模型。通过以下公式计算每个样本的风险评分(risk score):
风险评分(risk score)=……………………(1-1)
coef表示系数,X表示基因表达水平。
1.4 预后模型的评估及验证
将TCGA胃癌样本随机分为无临床性状差异的2组,按照风险评分公式计算TCGA随机分组及GSE84437的胃癌患者的风险评分,以风险评分中位数作为临界值将患者分为高风险组和低风险组。绘制K-M曲线及1、3、5年ROC曲线,评估预测模型是否适用于内部随机分组队列及外部验证队列。使用单因素与多因素独立预后分析探讨VMTRGs预后模型在预测GC生存期的预后独立性。
1.5 绘制预后模型列线图
基于多因素Cox回归分析的结果构建了年龄、性别、病理分级、肿瘤分期、T、N、M、风险评分的列线图。绘制1、3、5年的校准曲线来评估列线图的准确性。
1.6 预后模型的肿瘤突变负荷、药物敏感性相关分析
从TCGA网站下载TCGA-STAD数据集的单核苷酸突变数据,分析高、低风险组之间的肿瘤突变负荷(Tumor Mutational Burden,TMB)差异。使用在线数据库肿瘤免疫功能障碍和排斥(Tumor Immune Dysfunction And Exclusion
,TIDE)网站(http://tide.dfci.harvard.edu)对所有样本进行打分,对高、低风险组之间的TIDE进行差异分析。使用R包“oncoPredict”[4]对GC高、低风险组患者进行化疗药物的敏感性检测。
1.7 统计分析
Strawberry Perl软件(版本v5.30.0)用于数据处理,R软件(版本 4.3.2)用于分析和绘制本研究中的所有数据。SPSS软件(版本SPSS25)用于生成随机数。本研究的基因测序信息均经log2转化处理。所有统计p值都是双向结果,p<0.05被认为具有统计学意义(*P<0.05, **P<0.01, ***P<0.001)。
2 结果
2.1 胃癌临床数据
从TCGA及GEO数据库下载胃癌患者临床信息,剔除缺少生存时间及生存时间小于30天的样本,对其进行过滤筛选后纳入分析。其中TCGA数据库396例数据,GEO数据库431例数据。胃癌患者的临床病理参数见表1。
表1 胃癌患者的临床病理特征
临床特征 | TCGA | GEO | |
年龄 | ≤65 | 184 | 282 |
>65 | 209 | 149 | |
未知 | 3 | 0 | |
性别 | 男 | 260 | 294 |
女 | 136 | 137 | |
生存状态 | 存活 | 237 | 224 |
死亡 | 159 | 207 | |
Grade | G1 | 10 | 未知 |
G2 | 139 | 未知 | |
G3 | 238 | 未知 | |
未知 | 9 | 未知 | |
Stage | I | 50 | 未知 |
II | 125 | 未知 | |
III | 167 | 未知 | |
IV | 38 | 未知 | |
未知 | 16 | 未知 | |
T | T1 | 18 | 11 |
T2 | 86 | 38 | |
T3 | 184 | 92 | |
T4 | 103 | 290 | |
未知 | 5 | 0 | |
N | N0 | 118 | 80 |
N1 | 110 | 187 | |
N2 | 77 | 132 | |
N3 | 80 | 32 | |
未知 | 11 | 0 | |
M | M0 | 357 | 未知 |
M1 | 25 | 未知 | |
未知 | 14 | 未知 |
2.2 囊泡介导转运相关基因在胃癌与正常样本中的富集分析及差异表达
我们从TCGA数据库获取412例肿瘤测序数据,36例正常组织测序数据。从REACTOME_VESICLE_MEDIATED_TRANSPORT基因集获取724个VMTRGs。使用GSEA软件(GSEA_4.3.3版本)对VMTRGs在肿瘤样本与正常组织样本间进行富集分析并绘图(图1A)。结果提示VMTRGs在肿瘤组织中表达存在上调趋势。筛选出胃癌肿瘤样本与正常组织样本间差异表达的198个VMTRGs,其中54个基因在肿瘤组织中表达下调,144个基因在肿瘤组织中表达上调。绘制差异表达囊泡介导转运相关基因热图(图1B)。
(A)GSEA富集分析 (B)差异表达分析
图1 囊泡介导转运相关基因的富集分析及差异表达
2.3构建囊泡介导转运相关基因在胃癌中的预后风险评分模型
为筛选出胃癌患者预后相关的VMTRGs,基于TCGA-STAD数据库的临床数据及差异表达基因的测序数据,单因素Cox回归分析(p<0.01)筛选出7个预后相关VMTRGs(DAB2、TUBB4A、F5、HP、APOA1、CD36、SPARC),并绘制森林图(图2)。通过多因素Cox回归(p<0.05)进一步缩小建模范围,最终确定了4个关键基因(F5、APOA1、CD36、SPARC)(表2)。从表2可知,4个关键基因的风险系数均大于0,提示关键基因的的表达水平与胃癌患者的预后都呈负相关。
图2 预后相关差异表达基因森林图
表2 多因素Cox分析结果
基因名 | 风险系数 | HR | HR.95L | HR.95H | p值 |
F5 | 0.11758753 | 1.124780078 | 1.025461052 | 1.233718453 | 0.01266634 |
APOA1 | 0.071112817 | 1.073702351 | 1.013819996 | 1.13712172 | 0.015151849 |
CD36 | 0.156968001 | 1.169958175 | 1.005356164 | 1.361509663 | 0.042456806 |
SPARC | 0.159586779 | 1.173026051 | 1.00562212 | 1.368297385 | 0.042221974 |
采用此4个关键基因构建预后风险评分模型,风险评分公式为:
预后风险评分=(0.11758753×F5基因表达量)+(0.071112817×APOA1基因表达量)+(0.156968001×CD36基因表达量)+(0.159586779×SPARC基因表达量)。
使用预后风险评分公式计算TCGA-STAD中胃癌患者的风险评分,根据风险评分中位值将患者分为高风险组(n=185)和低风险组(n=185)。Kaplan-Meier生存曲线显示TCGA-STAD高、低风险组生存期上存在显著差异(图3A,p<0.001),高风险组患者OS低于低风险组患者。ROC曲线显示1、3、5年的曲线下面积分别为0.624、0.689、0.773(图3B),且预测效果优于临床特征的预测效果(图4C)。
(B)风险评分的ROC曲线 (C)风险评分和其他临床变量的ROC曲线
图3 风险评分预后模型
2.4 预后模型的评估及验证
首先进行TCGA内部随机分组验证。使用SPSS随机数将
TCGA数据库370有临床信息的肿瘤样本随机分为2组,两个组之间临床数据无统计学差异(p>0.05)(表3)。
表3 随机分组的临床病理特征
变量 | 总集 | 分组1 | 分组2 | P值 | |
Age | <=65 | 172(46.49%) | 93(50.27%) | 79(42.7%) | 0.1899 |
>65 | 195(52.7%) | 91(49.19%) | 104(56.22%) | ||
unknow | 3(0.81%) | 1(0.54%) | 2(1.08%) | ||
Gender | FEMALE | 128(34.59%) | 72(38.92%) | 56(30.27%) | 0.1011 |
MALE | 242(65.41%) | 113(61.08%) | 129(69.73%) | ||
G1 | 10(2.7%) | 5(2.7%) | 5(2.7%) | 0.8993 | |
G2 | 130(35.14%) | 62(33.51%) | 68(36.76%) | ||
G3 | 221(59.73%) | 111(60%) | 110(59.46%) | ||
unknow | 9(2.43%) | 7(3.78%) | 2(1.08%) | ||
Stage | Stage I | 49(13.24%) | 23(12.43%) | 26(14.05%) | 0.1893 |
Stage II | 118(31.89%) | 67(36.22%) | 51(27.57%) | ||
Stage III | 154(41.62%) | 75(40.54%) | 79(42.7%) | ||
Stage IV | 35(9.46%) | 13(7.03%) | 22(11.89%) | ||
unknow | 14(3.78%) | 7(3.78%) | 7(3.78%) | ||
T | T1 | 17(4.59%) | 8(4.32%) | 9(4.86%) | 0.5309 |
T2 | 81(21.89%) | 42(22.7%) | 39(21.08%) | ||
T3 | 168(45.41%) | 89(48.11%) | 79(42.7%) | ||
T4 | 100(27.03%) | 44(23.78%) | 56(30.27%) | ||
unknow | 4(1.08%) | 2(1.08%) | 2(1.08%) | ||
M | M0 | 334(90.27%) | 166(89.73%) | 168(90.81%) | 1 |
M1 | 23(6.22%) | 11(5.95%) | 12(6.49%) | ||
unknow | 13(3.51%) | 8(4.32%) | 5(2.7%) | ||
N | N0 | 111(30%) | 55(29.73%) | 56(30.27%) | 0.9236 |
N1 | 101(27.3%) | 53(28.65%) | 48(25.95%) | ||
N2 | 71(19.19%) | 36(19.46%) | 35(18.92%) | ||
N3 | 76(20.54%) | 36(19.46%) | 40(21.62%) | ||
unknow | 11(2.97%) | 5(2.7%) | 6(3.24%) |
使用该预后模型风险评分的中位数将样本分为高风险组与低风险组。Kaplan-Meier生存曲线显示两个分组中高、低风险组生存期均存在差异(图4A、B),高风险组患者OS低于低风险组患者。分组1的1、3、5年ROC曲线的AUC值为0.644、0.681、0.739,分组2的1、3、5年ROC曲线的AUC值为0.601、0.712、0.828(图4C、D)。
(A)分组1的Kaplan-Meier生存曲线 (B)分组2的Kaplan-Meier生存曲线
(C)分组1的ROC曲线 (D)分组2的ROC曲线
图4 随机分组的生存曲线及ROC曲线
为进一步验证VMTRGs胃癌预后风险模型的可靠性,使用外部独立数据库GSE84437进行验证。根据模型公式计算出胃癌患者的风险评分,以风险评分中位数作为临界值将患者分为高风险组和低风险组。K-M曲线(图5A)显示高低风险组生存存在差异(p=0.046),高风险组患者OS低于低风险组患者。1、3、5年ROC曲线中AUC分别为0.516、0.563、0.591(图5B)。
(A)高、低风险组的Kaplan-Meier生存曲线 (B)风险评分的ROC曲线
图5 GEO组风险评分预后模型
2.5 预后模型的独立预后分析
为进一步探讨该预后模型及临床病理特征是否为预测胃癌患者生存期的独立因素。分别对TCGA-STAD训练组和GSE84437测试组的预后风险模型和临床病理特征进行单因素Cox回归分析及多因素Cox回归分析。结果提示预后风险模型在训练组及外部验证组均为胃癌患者预后的独立预测因子(图7)。
(A)训练组预后影响因素的单因素Cox (B)训练组预后影响因素的多因素Cox
(C)测试组预后影响因素的单因素Cox (D)测试组预后影响因素的多因素Cox
图6 筛选胃癌患者预后的独立危险因素
2.6 预后模型列线图的构建
为进一步准确预测胃癌患者的预后,构建了年龄、性别、病理分级、疾病分期、TNM分期、风险评分模型的列线图(图7A)。校准曲线体现了列线图良好的的稳定性(图7B)。
(A)预测TCGA-STAD患者生存期的列线图 (B)列线图的校准图
图7 预测胃癌患者预后的列线图及其校准图
2.7 肿瘤突变负荷分析
对 TCGA 数据中的
SNV数据处理获得每个样本的TMB值和发生基因突变的样本数。为此我们绘制高低风险组的TMB值差异的小提琴图(图8A),结果显示高风险组的TMB均值更小。对高、低TMB组进行生存分析(图8B、C),生存曲线提示低TMB组预后较高TMB组差。使用在线数据库肿瘤免疫功能障碍和排斥(TIDE)网站对所有样本进行打分,对高、低风险组之间的TIDE进行差异分析并绘制小提琴图(图8D),结果显示高风险组TIDE均值更高(p<0.01)。
(A)高、低风险组TMB差异图 (B)高、低TMB组生存曲线
(C)高、低TMB组结合高、低风险组生存曲线(D)高、低风险组TIDE小提琴图
图8 高、低风险组肿瘤突变负荷分析及TIDE差异
2.8 药物敏感性分析
使用R包“oncoPredict”对GC高、低风险组患者进行化疗药物的敏感性检测(图10),筛选出多个高、低风险组存在敏感性差异的化疗药物和敏感性较高的化疗药物。其中目前指南中推荐的胃癌常见化疗药物顺铂(p<0.001)、奥沙利铂(p<0.001)、紫杉醇(p<0.001)、表阿霉素(p<0.001)、多西他赛(p<0.001)高风险组药物敏感性均低于低风险组,提示高风险组化疗效果弱于低风险组。
图9药物敏感性分析
3 讨论
本研究从TCGA数据库获得胃癌样本和正常组织样本的测序信息,对VMTRGs在肿瘤样本和正常组织间进行GSEA富集分析,结果显示VMTRGs在肿瘤组织中表达存在上调趋势,接着我们筛选出肿瘤样本和正常组织间差异表达的基因,共198个,其中54个基因在肿瘤组织中表达下调,144个基因在肿瘤组织中表达上调,这提示VMTRGs的差异表达可能和肿瘤的发生有潜在的联系。
接下来本研究使用单因素Cox回归及多因素Cox回归分析VMTRGs与胃癌患者预后的关系并使用多因素Cox回归分析构建了4-VMTRGs风险评分预后模型,此4个基因分别是F5、APOA1、CD36和SPARC。其中APOA1、CD36在肿瘤组织中表达下调,F5、SPARC在肿瘤组织中表达上调。生存分析显示此4个关键基因与胃癌患者的OS呈负相关。F5(凝血因子V)是一种蛋白质编码基因。Liu Y等人的研究提示F5基因在胃癌肿瘤组织中表达上调且F5基因的高表达和胃癌患者的较差生存期相关[5]。APOA1基因编码载脂蛋白A-1,该蛋白参与胆固醇从组织到肝脏的逆向运输,促进胆固醇从组织外排,并作为卵磷脂胆固醇酰基转移酶(LCAT)的辅助因子[6]。有研究表明,肾透明细胞癌样本中的APOA1表达水平明显低于正常肾样本,肾透明细胞癌患者APOA1的高表达与患者较差的OS有关[7],Borgquist S等人研究发现载脂蛋白A-1的水平与患肺癌风险成反比[8],这些研究均与本研究中APOA1基因在肿瘤组织中表达下调且肿瘤患者APOA1高表达与其较差预后相关的结果相符。CD36编码的蛋白是血小板表面的第四大糖蛋白,参与多种粘附过程,既往研究发现其可结合长链脂肪酸并促进其转运到细胞内,从而参与肌肉脂质利用、脂肪能量储存和肠道脂肪吸收[9]。Pan J等人的研究发现CD36通过AKT/GSK-3β/β-catenin信号通路诱导胃癌的转移[10]。Jiang M等人研究发现脂肪酸可通过上调O-GlcNAcylation水平,增加 NF-κB-mediated的CD36表达,从而促进胃癌细胞的转移潜能[11]。SPARC基因编码一种富含半胱氨酸的酸性基质相关蛋白,参与细胞外基质的合成和促进细胞形状的变化。Zhao ZS等人的研究表明SPARC的高表达和胃癌的淋巴结转移及远处转移有关[12]。且Yin J等人的研究发现SPARC的下调抑制了人胃癌细胞的侵袭和生长[13]。结合既往的研究资料,F5、APOA1、CD36和SPARC这四个关键基因的高表达均与肿瘤患者的较差预后相关,这与本研究中对每个关键基因的表达与胃癌患者的预后呈负相关相符,也表明构建模型的四个关键基因与胃癌患者的预后联系密切。
此风险评分预后模型在训练组、内部随机分组中AUC均大于0.6,提示预测模型的预测效果良好,且预测模型的预测效果优于临床病理特征的预测效果。但在外部独立队列GSE84437中ROC的1、3、5年AUC值仅有0.516、0.563、0.591,说明该预测模型风险评分与GSE84437患者的预后呈负相关但预测效果一般。单因素及多因素独立预后分析结果显示在TCGA及GSE84437的胃癌患者中,该预后模型均可独立于其他因素来预测患者的生存期。我们结合临床病理特征及风险评分构建了列线图,列线图的校准曲线显示该列线图有良好的预测效果。
本研究对高、低风险组的肿瘤突变负荷(TMB)进行差异分析,结果显示低风险组TMB均值高于高风险组均值,高
TMB组患者的预后优于低风险组患者。既往研究显示各种癌组织中,肿瘤突变负荷越高,患者接受免疫检查点抑制剂后的整体生存率越高[14]。这与本研究的结果相符合。本研究还通过肿瘤免疫功能障碍和排斥(TIDE)网站对样本打分后探索了高、低风险组之间TIDE的差异,结果显示高风险组TIDE均值高于低风险组,提示高风险组更易发生免疫逃逸,其免疫治疗效果更差。
药物的敏感性分析筛选出多个高、低风险组存在敏感性差异的化疗药物和敏感性较高的化疗药物。其中目前指南中推荐的胃癌常见化疗药物顺铂(p<0.001)、奥沙利铂(p<0.001)、紫杉醇(p<0.001)、表阿霉素(p<0.001)、多西他赛(p<0.001)敏感性均存在显著差异,高风险组药物敏感性均低于低风险组,提示这些药物在高风险组的化疗效果弱于低风险组。且结果提示喜树碱、长春花碱、多西他赛、紫杉醇、表阿霉素、Eg5_9814、长春新碱、Docetaxel.1、长春瑞滨在胃癌中药物敏感性较好。
然而,本研究存在一定的局限性。首先,本研究使用的数据是TCGA数据库和GEO数据库中的回顾性研究数据,并不具有前瞻性。该预后风险模型在训练集及内部随机分组验证中预测效果良好,在外部独立数据库中验证生存曲线存在差异且有统计学意义,但预测效果一般。本研究需要使用相关的临床样本分别在mRNA和蛋白质水平验证本研究的发现。
参考文献
[1]Sung H, Ferlay J, Siegel RL, et al. Global Cancer Statistics 2020: GLOBOCAN Estimates of Incidence and Mortality Worldwide for 36 Cancers in 185 Countries. CA Cancer J Clin. 2021;71(3):209-249.
[2]Thrift AP, El-Serag HB. Burden of Gastric Cancer.Clin Gastroenterol Hepatol. 2020;18(3):534-542.
[3]Ishikawa A, Yasumatsu R, Fukui T, et al. Kinesin family member B18 is related to gastric mucin phenotype and contributes to gastric cancer progression by regulating epithelial-mesenchymal transition.Oncology.
[4]Maeser D, Gruener RF, Huang RS. oncoPredict: an R package for predicting in vivo or cancer patient drug response and biomarkers from cell line screening data.Brief Bioinform. 2021;22(6):bbab260.
[5]Liu Y, Liao XW, Qin YZ, Mo XW, Luo SS. Identification ofF5as a Prognostic Biomarker in Patients with Gastric Cancer.Biomed Res Int. 2020;2020:9280841.
[6]Akerlöf E, Jörnvall H, Slotte H, Pousette A. Identification of apolipoprotein A1 and immunoglobulin as components of a serum complex that mediates activation of human sperm motility.Biochemistry. 1991;30(37):8986-8990.
[7]Zeng W, Xiong G, Hua L, Hu Y, Guo X, Peng X. APOA1 mRNA and protein in kidney renal clear cell carcinoma correlate with the disease outcome.Sci Rep. 2022;12(1):12406.
[8]Borgquist S, Butt T, Almgren P, et al. Apolipoproteins, lipids and risk of cancer.Int J Cancer. 2016;138(11):2648-2656.
[9]Smith J, Su X, El-Maghrabi R, Stahl PD, Abumrad NA. Opposite regulation of CD36 ubiquitination by fatty acids and insulin: effects on fatty acid uptake.
J Biol Chem. 2008;283(20):13578-13585.
[10]Pan J, Fan Z, Wang Z, et al. CD36 mediates palmitate acid-induced metastasis of gastric cancer via AKT/GSK-3β/β-catenin pathway.J Exp Clin Cancer Res. 2019;38(1):52.
[11]Jiang M, Wu N, Xu B, et al. Fatty acid-induced CD36 expression via O-GlcNAcylation drives gastric cancer metastasis.Theranostics. 2019;9(18):5359-5373.
[12]Zhao ZS, Wang YY, Chu YQ, Ye ZY, Tao HQ. SPARC is associated with gastric cancer progression and poor survival of patients.Clin Cancer Res. 2010;16(1):260-268.
[13]Yin J, Chen G, Liu Y, et al. Downregulation of SPARC expression decreases gastric cancer cellular invasion and survival.J Exp Clin Cancer Res. 2010;29(1):59.
[14]Samstein RM, Lee CH, Shoushtari AN, et al. Tumor mutational load predicts survival after immunotherapy across multiple cancer types.Nat Genet. 2019;51(2):202-206.
作者简介:蒋昭晨,1999年1月,男,汉族,山东泗水人,硕士研究生,研究方向:消化道肿瘤的诊疗。