推荐活动

【Nature子刊】新的基因组组装算法——提高完整人类基因组组装能力!

首页 » 《转》译 2022-03-14 转化医学网 赞(2)
分享: 
导读
一种新的基因组组装算法——La Jolla Assembler(LJA)以一种全自动的方式完全重建了人类基因组中几乎一半的染色体,提高了完整人类基因组组装的能力,降低了错误率。与其他使用HiFi测序技术的组装算法相比,误差减少了5倍。这种方法的准确性将有助于人类基因组复杂和研究不足的区域的大量群体研究。

加州大学圣地亚哥分校计算机科学与工程系的研究人员领导的一个国际团队表明,一种新的基因组组装算法,称为La Jolla Assembler(LJA)极大地改善了大规模基因组重建,即DNA片段被排列成完整基因组的过程,这是基因组测序的一个必要方面。

此外,LJA显著降低了错误率,并提高了完整人类基因组组装的能力。这将使进行大规模人群研究变得更容易,其中数千或数百万人进行测序,并比较他们的基因组,以便更好地了解导致疾病的遗传因素。该研究近期发表在《Nature Biotechnology》杂志上,题为“Multiplex de Bruijn graphs enable genome assembly from long, high-fidelity reads”。

论文的资深作者、Ronald R. Taylor计算机科学杰出教授Pavel Pevzner说:“我们使用LJA以一种全自动的方式完全重建了人类基因组中几乎一半的染色体。与其他使用HiFi测序技术的组装算法相比,这将组装误差减少了5倍。这种方法的准确性将带来重要的好处,特别是对于人类基因组复杂和研究不足的区域的大量群体研究,如着丝粒或抗体生成位点。

基因组组装算法是基于较短序列集合重建基因组的计算工具。多年来,研究人员几乎完全依靠短读技术,短读技术产生的读段高达300个核苷酸。这些提供了至关重要的基因组信息,但在基因组序列中留下了缺口——许多在生物医学的重要区域。因此,二十年前完成的人类基因组计划留下了成千上万的未组装区域——可能具有临床和科学意义的未探索DNA。

论文第一作者、计算机科学与工程系博士后研究员Anton Bankevich说:“这种不完整的人类基因组组装在20年前引发了生物学和医学的革命。然而,缺失的基因组片段可能蕴藏了更多的秘密。”

最近,科学家们开始采用HiFi 测序技术(超过10000个核苷酸),这帮助他们对完整的人类和其他基因组进行测序。去年从端粒到端粒(Telomere-to-teltelomere,T2T)联盟完成的第一个完整的人类基因组,是一个重要的里程碑。然而,这一壮举需要大量工作,几乎不可能扩展到数以百计,更不用说数以百万计的基因组。

为了使过程自动化,提高速度和准确性,Pevzner的团队采用了一种名为de Bruijn graph的计算方法,帮助他们将数以百万计的序列组装成完整的基因组。这最初是由荷兰数学家Nicolaas de Bruijn发明的一种晦涩的数学方法,这种技术已经成为测序主力,将一个基因组建模为一个连接各个城市(基因组短片段)的复杂的公路网,找到了在使用每条道路的同时穿越网络的方法。从某种意义上说,这是历史在重演。20多年前,Pevzner及其同事利用de Bruijn graph来理解短读。

加州大学圣地亚哥分校生物信息学和系统生物学计划研究生,论文共同作者Andrey Bzikadze说:“尽管看起来简单地将这种20年的技术应用于HiFi 测序技术将会带来极好的人类基因组组装,但当面对构建人类基因组的极其复杂的de Bruijn graph时,所有之前开发的算法想法都会瓦解。重用旧的方法需要大量的计算机内存,使它们无法实现。”

LJA解决了这一问题,减少了数据占用以及组装误差。它为在大规模人群研究中提高速度和准确性奠定了基础,其中科学家将需要组装数以百万计的基因组来鉴定健康或致病的基因序列。

Pevzner说:“组装单个基因组不足以推动生物学发现,正是通过比较不同的基因组,科学家才能了解它们的功能和与疾病的关联。这就是为什么我们需要扩大基因组组装工作的规模,并创建出与T2T人类基因组产生相同质量的基因组组装但可以自动完成的算法。”(转化医学网360zhyx.com)

参考资料:

https://phys.org/news/2022-03-highly-accurate-algorithm-scales-ability.html

注:本文旨在介绍医学研究进展,不能作为治疗方案参考。如需获得健康指导,请至正规医院就诊。

评论:
评 论
共有 0 条评论

    还没有人评论,赶快抢个沙发