推荐活动

利用超长读长序列和Pore-C获取前所未有的单倍型解析生物学信息

首页 » 产业 » 快讯 2023-05-05 NanoporeTechnologies 赞(2)
分享: 
导读
5月11日,来成都场用户会现场和大家探讨Pore-C应用吧
较长的读长序列包含更多定相信息,可供基因组组装和分子定相工具使用,从而得出更长的单倍型解析重叠群和定相区块。
新的组装工作流程结合纳米孔长读长和Pore-C数据,能够对大型二倍体基因组进行染色体规模的单倍型解析组装
图1 单倍型解析组装 a) 概念;b) 和 c) 分别为折叠后和采用 Trio-binning 后的纳米孔组装;d) 工作流程;e) 定相;f) 和 g) 单倍型解析;h) 和 i) 最终组装

许多组装方法将二倍体基因组折叠成一个单倍体组装,即随机混合两个单倍型的变异(图1a)。因此,每个折叠组装的每个重叠群/Scaffold均具有来自两个亲本的k-mer(图1b)。而更好的方法是对每个单倍型进行单独组装,这通常通过Trio binning来实现。该方法从各个亲本的数据中提取特异性k-mer,并使用它们来将读长序列分配到父本或母本,然后分别组装这两组数据。这样,每个单倍型拥有一个组装,而每个组装的每个重叠群/Scaffold仅具有来自一个亲本的k-mer(图1c)。不过,亲本数据并非随时可得。我们在此提供一种替代方法,可基于长读长和Pore-C数据进行定相,为读长序列分配单倍型时不需要亲本数据。该工作流程基于DipASM,首先将纳米孔读长序列折叠组装,重新比对出长读长序列,然后识别变异(图1d)。接下来,将这些变异定相为染色体规模的定相区块。我们从每条染色体中获得一个定相区块,其中包含几乎所有正确定相的变异(图1e)。下一步,使用定相过的变异标记读长序列,并为其分配单倍型。绝大多数的碱基对可以通过这种方式定相。在最终组装步骤中,会为每个单倍型生成一个染色体规模的组装。组装而成的Scaffold 来源于父本或母本单倍型,并且具有人类参考基因组规模的N50(图1f和1g)。如果没有trio(母本、父本和孩子)信息,则很难区分父本和母本Scaffold,这种情况下,两个组装均为父本和母本Scaffold 的混合物。最后,图1h和1i显示了两个已组装单倍型的点阵图,并与 T2T CHM13组装进行比较。

使用超长读长序列和Pore-C读长序列共同定相变异和印记区域,可以从单份样本中推断亲本来源,无需对亲本测序
图 2 超长读长序列的分子定相

基因组和表观基因组变异之间的许多相互作用发生在顺式序列中,即染色体的同一拷贝上。传统上采用trio测序(对先证者、母本和父本进行测序)寻找变异与其亲本来源之间的相互关联。但是,这种方法有许多缺点:可能难以获得亲本样本;亲本样本测序的费用更高;以及不适用于所有三个样本中的杂合基因座。使用超长读长序列(读长N50 >50 kb)可在数百Mb的序列中定相SNP,Pore-C读长序列则实现了染色体规模的定相(图 2a)。后续对读长序列进行单倍型标记,可以同时定相基因变异和甲基化,识别单倍型特异性差异甲基化区域(单倍型DMR)和给定的亲本来源特异性单倍型DMR (pDMR),并为基因变异分配亲本来源。为了说明这一点,我们使用亲本组装定相了18个HPRC数据集,并使用DSS识别了pDMR(图2b)。结果发现249个pDMR的平均亲本富集>1σ,这些DMR与我们的ULK和ULK + Pore-C数据集中的大多数定相区块重叠(图 2c 和图d)。利用原始贝叶斯分类器,我们分别使用ULK和ULK+Pore-C数据为51%和94.3%的变异正确分配了亲本来源,精确度分别为93%和96.5%(图2e和图f)。图2g展示了可与来源染色体相关的多个单倍型DMR以及杂合SNP和SV。

2023年5月11日,我们邀请到中国科学院昆明动物研究所侯春晖研究员在Oxford Nanopore大中华区用户会成都场分享他利用Oxford Nanopore纳米孔长读长和Pore-C数据的研究成果:“高通量Pore-C揭示了单等位基因拓扑结构和三维基因组折叠的细胞类型特异性”。

欢迎大家扫描下方二维码
免费报名参与



评论:
评 论
共有 0 条评论

    还没有人评论,赶快抢个沙发