用户登录转化医学是什么？

【Nature子刊】军事医学科学院伯晓晨团队开发新一代深度学习框架，可预测癌症基因模块

首页 » 《转》译 2024-07-19 转化医学网赞(2)

导读	在本研究中，团队开发了CGMega，这是一个可解释的基于图注意力的深度学习框架，用于执行癌症基因模块解剖。

2024年7月17日，军事医学科学院伯晓晨团队在期刊《Nature Communications》上发表了题为“CGMega: explainable graph neural network framework with attention mechanisms for cancer gene module dissection”的研究论文。研究结果表明，CGMega可用于剖析癌症基因模块，并为癌症发展和异质性，提供高阶机制和见解。

https://www.nature.com/articles/s41467-024-50426-6

研究背景

活细胞的复杂功能，是通过许多基因和基因产物的协同活动进行的。细胞的大部分活动，被组织成基因模块：一组共同调节，以响应不同条件的基因。主动驱动模块可以触发癌症的标志，并赋予癌细胞适应性优势。癌症基因模块的阐明，可以大大加深科学界对癌症发展的理解，并为最佳治疗方法的设计，提供信息。

自高通量测序技术发展以来，基因模块检测方法，一直是大型基因药典生物学解释的基石。目前使用的方法，主要有两个缺点。（1）最近的染色体构象捕获技术，揭示了三维（3D）基因组结构，并证明了其在建立基因-基因关系方面的关键作用。（2）基因模块表现出高阶网络特征，高阶相互作用，调控生物系统中的复杂功能。现行大多数共表达聚类或基于相关性的方法，都无法将重要的组学特征，分配给模块基因。

图神经网络（GNN）是测量图结构数据（如生物网络）的有力方法，并成功对PPI、Hi-C数据，以及跨蜂窝网络发现基因模块，进行建模。GNN能够处理不同的Hi-C表示，即将基因属性作为节点特征，或将基因之间的关系，作为图边。团队已经证明GNN及其解释技术，是剖析基因组相互作用之间高阶关系的有力工具。

在本研究中，团队提出了一个新框架（CGMega），用于剖析具有可解释图注意力的癌症基因模块。团队将CGMega应用于乳腺癌细胞系和急性髓系白血病（AML）患者，并揭示了癌症基因模块中基因之间的高阶关系。CGMega共同利用了最近GAT在多组学数据上的出现，并获得了对癌症基因模块层次结构的基本发现和理解。

研究进展

CGMega在癌症基因预测中有效

CGMega基于癌症基因的准确预测，鉴定了基因模块，因此，团队测试了CGMega在MCF7细胞系上癌症基因预测的性能。MCF7细胞系是一种具有高置信度多组学数据的人乳腺癌细胞系。CGMega实现了0.9140AUPRC和0.9630的受试者工作特征曲线下面积（AUROC）。为了证明CGMega在癌症基因预测任务中的进展，团队将CGMega与各种方法进行了比较，包括通用模型GCN、GAT、MLP、SVM，以及为癌症基因分类设计的特定模型，包括MTGCN42、EMOGI25和 MODIG43。通过计算AUPRC、AUROC、准确度（ACC）和F1分数，CGMega在这四个指标上的表现，优于所有其他方法。

团队采用了CGMega的两步法。在初始阶段，CGMega在MCF7细胞系上进行了预训练，使其能够掌握癌症基因中普遍存在的基本模式和特征。在预训练之后，团队对其他癌症进行了微调，使CGMega能够适应和微调其学习的表征，以适应这些罕见癌症的特定环境。

为了评估迁移学习的性能，团队使用K562细胞系上的所有标记基因（597个阳性和1,839个阴性）对非预训练的CGMega（从头开始训练）和预训练的CGMega进行了测试。随着标记基因数量的减少，非预训练的CGMega的性能急剧下降，而预训练的CGMega继续保持高性能。此外，Hi-C特征在预测方面表现出强大的改进，特别是当标记的基因小于200时。团队比较了CGMega与其他方法中小样本迁移学习的性能，预训练的CGMega具有最高值。

CGMega利用15维基因特征，包括10维组学特征和5维浓缩Hi-C特征，这些特征源自Hi-C数据的降维。团队观察到，组学和Hi-C特征，都对模型预测做出了贡献。此外，具有5维浓缩Hi-C特征的CGMega，不如具有10维组学特征的CGMega，表明结构特征可能对组学特征的质量具有补偿作用。

CGMega在癌症基因预测任务中的表现。

CGMega为多组学数据整合提供新策略

CGMega的卓越表现，得益于多组学信息的有效整合，包括基因组、表观基因组、PPI，尤其是3D基因组架构。Hi-C是目前用于研究3D基因组组织的最广泛使用的检测方法。然而，将Hi-C数据与其他组学数据一起测量，通常受到其噪声、稀疏性和可变分辨率的限制。为了在癌症基因预测任务中获得最佳性能，团队测试了具有不同Hi-C数据嵌入的集成方法。

通过系统地比较不同的集成方法与Hi-C数据嵌入，团队发现，在癌症基因预测任务中，使用Hi-C潜在特征作为基因特征，优于直接测量Hi-C数据作为基因相互作用。SVD是一种有效的降维方法，用于将Hi-C数据与其他组学数据相结合。

人乳腺癌细胞系中具有多组学特征的基因模块

CGMega基于与模型无关的神经网络解释方法，检测基因模块。团队将CGMega应用于人类乳腺癌MCF7细胞系，并检查了358个已知癌症基因的模块。这些癌症基因并非随机分散在基因模块中，它们往往位于同一模块中。在这些基因模块中，TP53的富集程度最高，参与了139个癌症基因模块，其次是ESR1（63个参与）和AKT1（61个参与）。除了这些众所周知的癌症基因外，团队还观察到另外12个高度参与模块的基因，例如XPO1、NCOR2和PPM1A。团队还研究了基因模块的图形指标的结构特征，包括传递性、聚类系数、度中心性和介介中心性。癌症基因模块的拓扑结构，明显优于非癌症基因模块（P< 2.47e-5，配对t检验）。

除了基因模块的拓扑结构之外，团队还研究了特征重要性得分。CGMega利用15维多组学特征作为输入，并为每个特征，生成重要性分数。团队从TCGA项目中，收集了乳腺癌的RNA-seq数据，并鉴定了差异表达基因。DEGs的比例，在簇-3中最高。根据CGMega预测，Hi-C与其他活性调控元件一起，对这些基因具有共同作用。

基于特征重要性得分，团队提出代表性特征（RFs），作为重要性得分排名靠前的特征。团队重点关注BRCA1和BRCA2的基因模块，这是乳腺癌中最常见的基因。团队观察到，它们的基因模块之间的拓扑差异。简而言之，BRCA1是一种在DDR的多个阶段起作用的多效性DNA损伤反应（DDR）蛋白，也被发现与另外20个基因广泛相关。相比之下，BRCA2作为同源重组（HR）核心机制的介质，通过直接介导HR修复的重要基因ROCK2，与其他基因连接。基于TCGA项目的基因表达数据，团队发现，ROCK2在乳腺肿瘤供体中，与BRCA2表达呈正相关，而在正常乳腺组织中，没有这种相关性。BRCA2和ROCK2在乳腺癌中的共表达，表明BRCA2抑制剂在肿瘤发生中的联合作用，这可能指导BRCA2抑制剂对肿瘤细胞的作用增强。研究结果表明，BRCA2和ROCK2抑制剂联合治疗24小时后抑制MCF7肿瘤细胞，比单独使用BRCA2抑制剂更有效。这是一种增强BRCA2抑制剂敏感性的潜在策略。此外，SNV是BRCA1和BRCA2的RF。团队还观察到一个由BRCA1基因模块和BRCA2基因模块通过TP53、SMAD3和XPO1三个共享基因组合的高阶基因模块。综上所述，这些适应症，意味着CGMega能够检测具有多组学特征的可解释和高阶基因模块。

乳腺癌细胞系中的基因模块。

研究结论

CGMega与其他方法的主要区别在于：（1）与现有方法相比，CGMega在捕获3D基因组结构方面，具有先进的能力，这已被广泛证明，是癌症研究的新视角。（2）CGMega使用GNNExplainer40，解释癌症基因预测的促成因素。（3）CGMega显示了不同癌症之间的知识可转移性。研究结果证明了，CGMega在不同癌症类型上的可转移性，这是本研究的一个重要方面。

除了CGMega的这些优点外，团队还对Hi-C数据与其他组学数据的整合方法，进行了全面评估，并证明了：（1）图结构在整合多组学信息方面是先进的，特别是对于分子信号和基因关系组合；（2）使用SVD将Hi-C数据编码为基因特征，优于将Hi-C数据作为基因连锁进行测量。

CGMega在乳腺癌细胞系和AML患者中的应用，有助于发现：（1）癌症基因模块广泛且组织良好，包括以癌症基因为中心的模式和非癌症基因中心模式；（2）癌症基因（已知的癌症基因和预测的癌症基因）往往富集在一个模块中，表明癌症基因在肿瘤发生中，具有复杂的相互作用；（3）除了这些众所周知的癌症基因外，还有一些枢纽基因位于癌症基因模块的中心，或存在于数十个癌症基因模块中。此外，CGMega在乳腺细胞系（AUPRC = 0.9140）和AML患者（平均AUPRC=0.8528）中的良好表现表明：（1） CGMega对细胞系和供体样本，以及实体瘤和液体肿瘤研究均表现出疗效；（2）CGMega对于缺少分子特征的输入是灵活的。这表明，团队的框架可能适用于其他类似的任务。

参考资料：

1.Segal, E. et al. Module networks: identifying regulatory modules and their condition-specific regulators from gene expression data. Nat. Genet. 34, 166–176 (2003).

2.Kamimoto, K. et al. Dissecting cell identity via network inference and in silico gene perturbation. Nature 614, 742–751 (2023).