【Nature子刊】亚洲排名第一大学研究出可精确预测肿瘤纯度的PUREE新方法
导读 | 肿瘤是由恶性和非恶性细胞组成的复杂肿块。肿瘤纯度(样本中癌细胞的比例)的变化既会干扰综合分析,也使肿瘤异质性研究变得可行。来自新加坡国立大学的研究团队开发了PUREE方法,能够利用弱监督学习方法从肿瘤基因表达谱中推断肿瘤纯度。 |
4月11日,新加坡国立大学研究团队在《Nature Communications biology》上发表了名为“PUREE: accurate pan-cancer tumor purity estimation from gene expression data”的文章。研究团队称可从基因表达数据中精确预估泛癌的肿瘤纯度。
https://www.nature.com/articles/s42003-023-04764-8
研究背景
01
癌性肿瘤是恶性和非恶性细胞的复杂混合物,塑造了肿瘤微环境(TME)。恶性细胞和非恶性成分(包括间质细胞、上皮细胞和浸润性免疫细胞)的组成和相对比例可能在不同的肿瘤中显示出很大的差异。肿瘤微环境的组成也与疾病分期和治疗反应相关。恶性癌细胞在肿瘤团块中的比例(在本文中称为肿瘤纯度)也会影响基因组分析,这些对预测治疗结果和选择接受免疫治疗的患者至关重要。
传统而言,病理学家通过苏木精-伊红(he)染色法对组织切片中的细胞核进行检查来估计癌细胞的比例。然而这些估计值可能不精确。不同的病理学家评估同一样本时估计值也有明显差异。
估计肿瘤纯度的最新计算方法是基于DNA测序数据,其中体细胞DNA突变、拷贝数改变(cna)或DNA甲基化模式的等位基因频率变异可用于推断恶性细胞比例。尽管基础统计学模型和输入数据存在差异,但基于基因组学的纯度估计方法已被证明对肿瘤纯度产生一致的估计值。
研究团队的目标是开发一种准确、无参考的方法通过肿瘤基因表达谱来预测肿瘤纯度。研究团队利用来自7864个肿瘤和20种实体癌类型的基因表达数据,结合对基于基因组学的肿瘤纯度估算,训练了一个机器学习模型。
PUREE方法能够在肿瘤基因表达谱和七个关于肺癌、结直肠癌、子宫癌、副神经节瘤癌、以及睾丸癌的外部验证资料中以较高的相关性和较低的均方根误差(RMSE)稳定预测肿瘤纯度值。
研究方法
02
研究团队创建了一个训练数据集,其中包含癌症基因组图谱(TCGA)中20种实体癌类型的7864个肿瘤的匹配基因组和基因表达谱。这种方法能够在不同的实体癌类型中推广,并且与来自肿瘤DNA数据的正交纯度估计显示出高度一致性(图1a)。通过采用弱监督学习策略来训练模型,可以从匹配的基因表达谱预测肿瘤纯度标签。对基因表达谱进位数转换,提供对不同基因表达数据集和平台。
团队还研究了一系列机器学习方法的性能,考虑到预测有界连续肿瘤纯度值的回归任务,还检验了线性和非线性机器学习架构。通过比较,简单的线性回归模型仅使用有限的基因表达特征集即可达到最佳准确度。因此,团队使用线性回归和弱监督学习策略开发PUREE,从而能够从实体肿瘤基因表达谱准确估计肿瘤纯度(图1b)。
https://www.nature.com/articles/s42003-023-04764-8
癌症基因组图谱(TCGA)训练数据集中的癌症类型和纯度范围十分不不平衡(图2a,为了减少这种不平衡对模型训练的影响,团队采用了两步特征选择策略(Methods)。简言之,第一步包括选择在较低和较高纯度范围内预测肿瘤纯度的特征。第二步进一步过滤了这一特征集,以识别整个纯度范围内最具预测性的基因,得到158个特征。
团队还使用单细胞RNA-seq数据对PUREE模型中的158个基因特征进行了正交分析和验证。通过使用来自头颈部癌症(共5902个细胞,2539个细胞归为恶性)和黑色素瘤(共4513个细胞,3256个细胞归为恶性)中已获得的scRNA-seq数据,并计算具有正负性纯度表达相关性的基因表达平均细胞z-评分。
研究意义
03
PUREE的训练样本来自7864个实体瘤样本的基因表达数据和基因组相同的预估纯度,对于预测不同实体肿瘤类型的纯度具有较高的准确性,并拓展到从未遇见的肿瘤类型和肿瘤样本。通过全面的基准测试,PUREE的表现要优于现有的基于转录组的纯度估计方法。
总体而言,PUREE是一种高度准确和通用方法,可从大量肿瘤基因表达数据估计肿瘤纯度和检测肿瘤异质性,并作为基于基因组学的方法的补充或用于缺乏基因组数据情况下的方法。(转化医学网360zhyx.com)
参考资料:
https://www.nature.com/articles/s42003-023-04764-8
注:本文旨在介绍医学研究进展,不能作为治疗方案参考。如需获得健康指导,请至正规医院就诊。
还没有人评论,赶快抢个沙发