二倍体人类基因组的首次全面分析
导读 | 2003年人类基因组测序的完成可谓生命科学史上的一个里程碑。然而,这个项目并非没有缺陷。最终组装好的序列,也就是人们所说的参考基因组,是由单倍体序列组成,但是人类基因组却是二倍体的。 |
2003年人类基因组测序的完成可谓生命科学史上的一个里程碑。然而,这个项目并非没有缺陷。最终组装好的序列,也就是人们所说的参考基因组,是由单倍体序列组成,但是人类基因组却是二倍体的。
近日,美国的一组研究人员首次对二倍体的人类基因组进行了全面分析,并将其结果发表在《Nature Methods》上。这项工作由西奈山伊坎研究所领导,对DNA样品直接进行人类全基因组测序,而无需将DNA克隆到细菌中。
这项工作涉及到两种技术:Pacific Biosciences的SMRT测序仪,以及BioNano开发的Irys仪器。PacBio用户之前证明,SMRT测序无需参考基因组的指导,也能实现人类全基因组的组装,这要归功于它的读长能够跨越结构上复杂的区域。同时,结合Irys的数据,研究人员能够将基因组组装成更大的片段。Irys不能以单碱基分辨率读取DNA,但在DNA分子上添加荧光标记,从而提供了大的结构元件的排列信息。
这两种技术都能产生长距离的序列信息。PacBio测序的读长达到10,000 bp或以上,而Irys也能产生数十万个碱基的光学图谱。过去,为了让这么长一段序列保持完整,需要将DNA克隆到粘粒或BAC中。不过,这个过程费时费力,还可能引入偏向。
这篇文章的通讯作者,伊坎研究所的Ali Bashir表示:“目前还没有开展这类分析的方案。”尽管Bashir的团队使用公开的组装算法来处理PacBio的数据,并使用BioNano的算法来创建Irys基因组图谱,但融合这两种类型的数据需要自定义的脚本。
他们的研究产生了更长的连续DNA序列。PacBio数据将基因组分成20,000多个contig,而N50长度在900 kb,而Irys光学图谱也大约长了五倍。这些片段的结合产生了仅有200个scaffold的全基因组,而N50长度接近30 Mb,最长的scaffold达到80 Mb。这些数字标志着它们所产生的基因组是有史以来最连贯组装的基因组之一。
由于PacBio和BioNano技术都直接处理天然DNA,而不是PCR所产生的DNA拷贝,故新的基因组组装几乎是通过单分子分析而构建的。
复杂的结构变异
这个项目的主要目标之一是获得基因组中结构最复杂的区域的信息。“结构变异往往深藏在非常复杂的区域内,”BioNano的CEO Erik Holmlin谈道。“科学家已经被训练成远离它,就像一个坏邻居。”
研究中所使用的细胞系,NA12878,也许是世界上了解最透彻的人类基因组。不过,Bashir及其同事还是发现了一些之前从未捕获到的结构事件,有一些跨越了参考基因组上的缺口。他们还发现,人类参考基因组低估了短串联重复序列的扩增。
这次新的组装还发现,许多结构事件都来源于一些复合的突变。特别是,超过一半的倒位都至少与一种结构事件共同发生,如插入、确实或重复,这样就产生了复杂的混合DNA结构。
在黑暗中摸索
所有这些结果都强调,如果只使用短读取技术,将会丢失许多基因组变异。正如Bashir所说的,几乎可以肯定我们对基因组功能的了解有很大的意义。
“结构变异产生功能影响的机会比SNP要大得多,”他说,但大多数遗传学家充其量只能预测人类基因组中可能存在哪些结构变异。“许多文献一直集中在推断变异。我们希望的是,当你潜得越深,你就能直接观察到基因组的样子。”
自项目开展这两年来,PacBio改善了它的读长、定价和通量,而BioNano也升级了Irys。这些趋势都使得未来类似的组装更加容易。利用伊坎研究所开发的计算流程,Bashir预测中等规模的测序中心也能在短短几个月内重复这项工作,而他已经开始着手了。
“我们希望,新的基因组项目将有着更低的活化能,”他说。“千人基因组计划、瓶中基因组计划等都打算使用这个。”对于结构变异在其中发挥很大作用的特定疾病领域,包括癌症和遗传疾病,Bashir也希望研究小组能够开展这种类型的组装。即使是少数精选的组装,这也会对研究产生重大的影响。
然而,与目前主流的短读取方案相比,高度连续的基因组组装仍然相当困难,也相当昂贵。在这类项目中验证新的发现也是件困难的事,因为几乎没有其他读取方法能以相同的分辨率了解复杂的结构事件。 “我们拿着手电筒在黑暗中摸索,而我们的确看到了很有趣的东西,”Holmlin谈道。“我们与伊坎的合作者,以及整个社区的人们所做的,是让其他人也有手电筒,从而继续这方面的研究。”
(转化医学网360zhyx.com)
还没有人评论,赶快抢个沙发