《Science》从免疫细胞到智能诊断:B细胞和T细胞受体序列的机器学习应用
导读 | Zaslavsky等人开发了一个名为Mal-ID(免疫学诊断机器学习)的框架,用于解读人体血液样本中B和T细胞受体(BCR和TCR)的可变序列。 |
2025年2月21日,美国斯坦福大学的研究团队在期刊《Science》上发表了题为“Disease diagnostics using machine learning of B cell and T cell receptor sequences”的研究论文。
https://www.science.org/doi/10.1126/science.adp2407#tab-contributors
Zaslavsky等人开发了一个框架Mal-ID(用于免疫诊断的机器学习),用于解释人类血液样本中B细胞和T细胞受体(BCR和TCR)的可变序列。在训练过程中,研究人员在健康个体和患病个体之间比较了BCRs和TCRs序列特征的6种表示,以了解共性,并将这些特征组合在一个模型中以预测疾病状态。这种方法能够区分对照组、患有不同自身免疫性疾病或病毒感染的个体,以及接种流感疫苗的个体。
01
研究背景
B细胞受体 (BCR) 和T细胞受体 (TCR) 使这些免疫细胞能够识别病原体上的特定抗原并做出反应,有时还能识别身体自身的组织。编码BCR和TCR的基因是在单个细胞的发育过程中通过基因组中片段的随机重组产生的,具有作为与免疫系统活动相关的多样化序列生物标志物的潜力。BCR和TCR群体在暴露于病原体、接种疫苗后,以及自身免疫性疾病中对自身抗原的反应发生变化,反映了免疫反应期间B细胞和T细胞的克隆扩增和选择。对BCR和TCR基因进行测序和解释,可以为多种疾病的同步评估提供单一的诊断测试。
使用免疫受体测序,从血液到疾病分类。
02
研究结果
Mal-ID能准确识别542名COVID-19、HIV、狼疮、1型糖尿病、近期接种流感疫苗者和健康对照者血液样本中的免疫状态,在未用于训练的数据上,接收者操作特征曲线下的多类面积(AUROC)达到0.986。结合B细胞和T细胞受体数据的特征可获得最高的分类性能,但即使仅使用BCR序列,研究人员仍然获得了很高的分类性能(在扩大的队列中,增加了51个仅有BCR数据的个体,其AUROC为0.959)。
尽管该模型经过训练可以对多个异质类别进行分类,但它也可以专门用于检测特定病症。在专门用于区分狼疮患者与其他患者和健康对照组时,分类器的灵敏度达到了93%,特异性达到了90%。与目前的检测方法相比,这种性能表明BCR和TCR序列分析具有检测临床相关信号的潜力。
与来自健康供体的序列相比,该模型为来自外部数据库的与SARS-CoV-2结合的BCR序列赋予了更高的COVID-19关联分数。研究人员还验证了批次效应和人口统计学因素(如年龄、性别和血统)不会对疾病分类性能造成影响,而且该模型在其他实验室的外部数据集上进行测试时表现良好。
03
总结
这项初步研究表明,免疫受体测序数据可以区分一系列疾病状态并提取生物学见解,而无需事先了解抗原特异性受体模式。随着进一步的验证和扩展,Mal-ID可能会产生利用免疫受体群中包含的大量信息进行医学诊断的临床工具。
还没有人评论,赶快抢个沙发