推荐活动

长读长测序再显优势!基因组复杂结构变异检测实现新突破!

首页 » 产业 » 企业 2018-05-08 测序中国 赞(2)
分享: 
导读
通过PacBio和Illumina的测序数据分析发现,在人类三重测序数据中,PacBio的孟德尔不一致率为5.6%,Illumina检测到的为21%,表明...

基因组结构变异是很多癌症、遗传病等疾病的重要诱因。目前基于二代测序技术检测基因组结构变异存在很大的局限性,而三代测序存在错误率较高等多种问题,尤其针对复杂结构变异大多软件识别能力较差。针对这一问题,近日,在Nature Methods发表的一项最新研究中,研究人员开发了基因组比对工具NGMLR和结构变异识别工具Sniffles,为变异检测提供了前所未有的灵敏度和精确度,即使在重复序列区域以及在可能对人体健康有重大影响的复杂结构变异中也是如此,并且NGMLR和Sniffles可以自动过滤虚假事件并对低覆盖率数据进行操作,从而降低在临床和研究应用中长读长测序的高成本。

研究人员还比较了NGMLR和Sniffles在PacBio平台和Oxford Nanopore平台中的应用效果差异,并在已经过研究的样本中鉴定出上千个新突变。

为研究结构变异开发新工具

大约两年前,该研究的领导者、美国约翰霍普金斯大学计算机科学副教授Michael Schatz致力于长reads在癌症基因组中的研究,然而,当研究小组使用已有工具进行结构变异检测时,却无法成功检测到变异。

因此,Schatz研究团队决定从分析工具开始这项研究。NGMLR和Sniffles是适用于长读长测序的新型结构变异检测工具,基因组比对工具NGMLR在基于短read比对方法的基础上,考虑了PacBio和Oxford Nanopore平台产生的数据类型。结构变异识别工具Sniffles是一款结构变异识别工具,可以根据比对结果进行扫描,精确检测出结构变异。

NGMLR和Sniffles实施的主要步骤

新工具适于复杂结构变异检测

根据模拟数据进行的工具评价

该研究中,为比较新开发工具与其他方法,研究人员对已知不同大小和类型结构变异进行了检测,并与模拟数据进行对比,他们还根据拟南芥样本和来自“瓶中基因组计划”的德系犹太人三重测序数据对新开发工具进行了分析验证。通过PacBio和Illumina的测序数据分析发现,在人类三重测序数据中,PacBio的孟德尔不一致率为5.6%,Illumina检测到的为21%,表明Illumina的测序平台对于易位变异的检测可能存在一些问题。

随后,他们又利用新分析工具在已经研究成熟的NA12878基因组中进行了检测,将PacBio、Oxford Nanopore和Illumina的测序数据进行了效果比较。结果表明,结构变异识别工具Sniffles在PacBio的数据中检测到15499个结构变异,在Oxford Nanopore数据中检测到26657个SV,而短读长结构变异软件SURVIVOR在Illumina测序数据中仅检测到7275个SV。

此外,在PacBio数据中检测到的变异有95%能够被Oxford Nanopore、Illumina或其他数据集验证。而Oxford Nanopore数据的一致性较低,检测到的SV中有11433个(43%)与数据集不一致,其中大部分位于同聚物或重复序列区域。

有趣的是,研究发现Oxford Nanopore和PacBio产生的数据错误类型完全不同。Oxford Nanopore数据的大部分错误都是同聚物区域的缺失,而PacBio检测到的SV中有773个(5%)为PacBio数据所特有,大部分为小型插入。Schatz认为,这与测序系统的生物物理性能相关,由于荧光标记的核苷酸进入零模波导孔后,即使在未整合到DNA链的情况下也会进行成像,最终导致数据错误。

研究人员进一步在更加复杂的乳腺癌细胞系样本中,只利用PacBio数据测试了NGMLR和Sniffles,共鉴定出15个基因融合事件,并进行了PCR验证。

PacBio生物信息首席研究员Aaron Wenger表示,与开发用于短读长测序的标准相同,这项研究证明了长读长测序领域正在趋于“成熟”,标准的设置可以帮助研究人员判断是否有效检测到了SV以及分辨变异是真实存在的还是人为错误,有利于减少研究人员的时间和研究成本。

伯明翰大学教授Nick Loman认为,长读长比对工具的开发和优化很有必要且非常重要,Nanopore数据中大量的假阳性indel需要利用更新版本的碱基识别软件进行优化,目前该款软件已经发布。

长读长测序技术的优势对整个基因领域而言是非常令人兴奋的,新开发的开源基因组比对工具NGMLR和结构变异识别工具Sniffles为变异检测提供了前所未有的灵敏度和精确度,即使在重复序列区域以及复杂结构变异中也是如此,还同时降低了实际应用中长读长测序的高成本,这为结构变异的检测带来了新的希望。

NGMLR开源地址:

https://github.com/philres/ngmlr

Sniffles开源地址:

https://github.com/fritzsedlazeck/Sniffles

参考文献:

New Tools Highlight Long-Read Sequencing Platforms' Ability to Call Structural Variants


评论:
评 论
共有 0 条评论

    还没有人评论,赶快抢个沙发