《Nature子刊》深度学习模型为无创早期癌症诊断注入新动力
导读 | 在这项研究中,团队提出了基于Transformer的读数级甲基化模式分类模型MethylBERT。 |
2025年1月16日,德国癌症研究中心(DKFZ)Pavlo Lutsik教授团队在期刊《Nature Communications》上发表了题为“MethylBERT enables read-level DNA methylation pattern identification and tumour deconvolution using a Transformer-based model”的研究论文。研究结果表明,MethylBERT的表现优于现有的解卷积方法,无论甲基化模式的复杂程度、读取长度和读取覆盖率如何,都表现出很高的准确性。此外,团队还展示了它在细胞类型解卷积以及使用液体活检样本进行非侵入性早期癌症诊断方面的适用性。MethylBERT代表了读数级甲基组分析的重大进步,能准确估计肿瘤纯度。
https://www.nature.com/articles/s41467-025-55920-z
深度学习与DNA甲基化
01
DNAm可通过测序方法进行分析,如全基因组亚硫酸氢盐测序(WGBS)或还原表征亚硫酸氢盐测序、无扩增长读数测序,以及基于亚硫酸氢盐的微阵列方法。基于测序的数据在循环肿瘤DNA(ctDNA)分析中更为重要,有助于对癌症患者进行无创早期诊断、预后判断和治疗反应监测。
团队提出了MethylBERT,一种基于变压器双向编码器表征(BERT)的深度学习方法,用于读数级甲基化模式识别和肿瘤纯度估计。MethylBERT使用改进的BERT模型来编码读数级甲基化组,并将序列读数分类为肿瘤或正常细胞类型。
团队对MethylBERT进行了全面评估,结果表明,MethylBERT在读数级甲基化模式分类和肿瘤纯度估计方面优于其他方法。团队建议将MethylBERT用于基于ctDNA分析和细胞类型解旋的癌症早期诊断。
MethylBERT能准确检测癌症患者液体活检样本中的罕见肿瘤信号
02
MethylBERT的中位绝对误差低于其他方法。所有方法都能估算出与实况值成正比的肿瘤纯度,只有DISMIR除外,它还应用了自己选定的区域,但MethylBERT显示这两个值之间的相关性最高,P值小于0.01。因此,与目前可用的方法相比,团队证明MethylBERT对ctDNA分析具有足够的灵敏度。
作为对真实ctDNA样本的应用,团队使用了从14名健康供体和40名结肠直肠癌(CRC)患者中收集的5个不同分期的靶向BS-seq数据。估计的肿瘤纯度在健康供体和晚于I期的肿瘤患者之间存在显著差异。这意味着MethylBERT可用于某些早期(II-III期)CRC患者的ctDNA肿瘤诊断。健康供体和各期CRC患者的肿瘤含量估计中位值存在明显差异。
估算血浆无细胞DNA中的肿瘤部分。
总结
03
1. 在不同情况模拟读数级甲基化模式的基准测试中,MethylBERT无论甲基化模式复杂程度、读数长度和读数覆盖率如何,均表现最佳,能准确进行读数分类和肿瘤纯度估计,其基准测试结果还深入分析了BERT预训练和模型训练过程中估计后验概率的动态变化。
2. MethylBERT可将大量样本解构为多种细胞类型,并利用血浆样本区分早期癌症患者与健康捐献者,作为细胞类型解卷积模型及在早期癌症检测中具有适用性。
3. MethylBERT与读数级甲基化数据来源无关,既适用于实体瘤组织和血浆样本,也可用于非癌症的大体甲基组,与之前只关注特定样本类型的方法不同。
4. 未来MethylBERT有不同的扩展方向,目前正在研究计算效率更高、减少参数数量的版本,对长读数测序数据应用尤为重要,其有望处理作为读数级序列一部分的不同甲基化模式,助力长读数中肿瘤特异性甲基化模式的准确稳健分析,将成为癌症研究和肿瘤学领域的重要工具,扩大各类DNAm测序数据的可用性。
参考资料:
1.Guo, M., Peng, Y., Gao, A., Du, C. & Herman, J. G. Epigenetic heterogeneity in cancer. Biomark. Res. 7, 23 (2019).
2.Zhao, L., Wu, X., Zheng, J. & Dong, D. DNA methylome profiling of circulating tumor cells in lung cancer at single base-pair resolution. Oncogene 40, 1884–1895 (2021).
还没有人评论,赶快抢个沙发