推荐活动

【Nature子刊】新AI算法:深入清理并重建高质量的scRNA-Seq数据!

首页 » 《转》译 2022-04-09 转化医学网 赞(3)
分享: 
导读
单细胞RNA测序(scRNA-Seq)正被广泛应用于生物医学研究,并产生了巨大的数据量和多样性。原始数据包含多种类型的噪声和技术伪影,需要彻底清理。近期研究设计并开发了AutoClass模型,以最大化去噪和信号保留。AutoClass在多种类型的scRNA-Seq数据分析中优于最先进的方法,并且稳健。

正如询问单个人的健康情况将提供量身定制的、个性化的信息,不可能从规模大民意调查中收集一样,单个细胞的基因组或转录组可以提供比测序整批细胞更多关于其在生命系统中的位置的信息。但是直到最近几年,还不存在获得如此高分辨率的基因组数据的技术——直到今天,还没有一种可靠的方法来确保该数据的高质量和有用性。

来自北卡罗来纳大学夏洛特分校的研究人员,由Weijun Luo博士和Brouwer博士领导,开发出一种人工智能算法来“清理”嘈杂的单细胞RNA测序(scRNA-Seq)数据。这项研究“A universal deep neural network for in-depth cleaning of single-cell RNA-Seq data”于2022年4月7日发表在《Nature Communications》上。

https://www.nature.com/articles/s41467-022-29576-y

从确定与镰状细胞性贫血和乳腺癌相关的特定基因到在正在进行的COVID-19大流行中创建mRNA疫苗,科学家们一直在寻找基因组来解锁20世纪90年代人类基因组计划以来的生命秘密。技术已经从那些将成千上万个细胞组合在一起解密组成遗传信息的数以百万计的碱基对的早期跨越,2009年研究人员创建了scRNA-Seq,现在广泛应用于生物医学研究,它只对活生物体的单个细胞中的转录组或基因组的表达部分进行测序。

不幸的是,scRNA-Seq数据非常嘈杂,有很多错误和质量问题。对单个细胞而不是许多细胞进行测序会导致频繁的“缺失”——数据中的基因缺失。单个细胞就像单个人一样,可能会有自己的健康问题,或者在其生命周期中处于尴尬的阶段——它可能刚刚分裂,或者正在走向细胞死亡的路上,这会在scRNA-Seq数据中产生更多的错误或技术变异。除了单细胞特异性问题,基因组分析通常还会出现测序错误的“正常”问题。所有这些错误都需要从数据中“清理”出来,然后才能使用或解释,这就是新AI算法出现的切入点。

该算法称为AutoClass,是对现有统计方法的进一步改进。大多数现有方法假设错误将遵循某些预定义的分布,或错误发生的可能性有多大,以及错误可能有多大。现有的方法往往无法完全清理数据来揭示生物信号,甚至可能因为它们对数据分布的假设不当而增加新的误差。相反,AutoClass不做任何分布假设;因此,它可以有效地校正大范围的噪声或技术变化。

AutoClass是一种基于特殊深度神经网络的AI算法,旨在最大限度地去除噪声和保留信号。”Luo博士说,“AI教自己通过看到足够的数据来区分数据中的信号和噪声。通常它看到的数据越多,表现就越好。”

在研究中,Luo博士和他的团队证明了AutoClass可以重建高质量的scRNA-Seq数据,并在多个方面增强下游分析。此外,AutoClass是稳健的,在各种scRNA-Seq数据类型和条件下表现良好。

AutoClass是高效和可扩展的,可以很好地处理各种样本大小和特征大小的数据,即使在普通的PC或笔记本电脑中也能平稳运行。AutoClass是开源的,可在线获取。(转化医学网360zhyx.com)

参考资料:

https://phys.org/news/2022-04-team-universal-ai-algorithm-in-depth.html

注:本文旨在介绍医学研究进展,不能作为治疗方案参考。如需获得健康指导,请至正规医院就诊。

评论:
评 论
共有 0 条评论

    还没有人评论,赶快抢个沙发