安诺基因Hi-C再获进展,联合研究成果登《Genome Biology》
导读 | 2015年初,安诺基因在国内首次推出群体细胞Hi-C和单细胞Hi-C技术,将基因组学研究正式推向三维水平。随后,安诺基因的技术团队持续创新,不仅将染色体三维构象解析的分辨率提升至1kb的世界顶尖水平,在信息分析软件上又再创新佳绩。 |
2015年初,安诺基因在国内首次推出群体细胞Hi-C和单细胞Hi-C技术,将基因组学研究正式推向三维水平。随后,安诺基因的技术团队持续创新,不仅将染色体三维构象解析的分辨率提升至1kb的世界顶尖水平,在信息分析软件上又再创新佳绩。近日,安诺优达和法国居里研究所等机构的共同研究成果发表于Genome Biology(影响因子10.8)上。该研究成果为全球学术界提供了一项灵活高效的标准化Hi-C数据分析流程。这一成果的发表也展示了安诺基因在Hi-C领域的深厚积累和领先优势。
高通量染色体捕获技术(High-throughput chromosome conformation capture,Hi-C),以整个细胞核为研究对象,利用高通量测序技术,结合生物信息学方法,研究全基因组范围内整个染色质DNA在空间位置上的关系。通过对染色质内全部DNA相互作用模式进行捕获,获得高分辨率的染色质三维结构信息。随着Hi-C技术逐渐成熟,开发一种可以用于任何项目的生物信息分析流程十分必要,然而全基因组的Hi-C测序数据常常包括多达上百G的原始序列产量,处理这些大量数据需要优化的生物信息分析流程,长期以来缺乏一种稳定、灵活、高效的流程。目前能处理Hi-C数据的软件HOMER、HICUP、HiC-inspector 、HiCdat、HiCbox及hiclib要么不能以并行模式同时处理大量数据,要么需要非常强的Python库编程技巧。
本研究中,安诺优达总裁陈重建博士携手科学顾问Edith Heard(法国居里研究所资深研究员)及Hi-C技术发明人Job Dekker,研发出一种Hi-C数据处理及分析的新流程HiC-Pro。
HiC-Pro能够避免以上缺陷,它是一种经过优化的可操作性极强的信息分析流程,采用基于酶切位点的分析策略,可以将原始的Hi-C测序数据转化成标准化的相互作用图,运行时间大大缩短。同时,HiC-Pro应用非常强大,可以比对测序reads、检测有效连接产物、执行质量控制以及制作染色体内部和染色体之间的相互作用热图,此外,HiC-Pro还可以利用阶段性基因型数据来构建等位基因特异性相互作用图。
研究中分别采用来自两个公共数据库的IMR90和IMR90_CCL186数据进行分析对比,对于每个数据库,运行HiC-Pro流程,获得分辨率为20kb、40 kb、150 kb、500 kb 和1 Mb 分辨率的标准相互作用图,IMR90_CCL186 数据库还能获得5kb分辨率的相互作用图。结果表明,和hiclib运行相同的数据,HiC-Pro完成分析少于15小时,而hiclib需要用28小时。此外,HiC-Pro运行IMR90_CCL186数据得到5kb分辨率相互作用图的用时仅12小时,表明HiC-Pro能在合理的时间分析大量数据。
将HiC-Pro用于构建人GM12878细胞系等位基因特异性相互作用图,用已发布的GM12878细胞系Hi-C数据进行分析。研究发现,在826M双端reads中,61%被HiC-Pro划分为有效相互作用,6%的有效相互作用比对到父亲或者母亲的基因组上,用于构建单倍体图谱。和预测一致,失活的X染色体图谱分为两个大的区域。
HiC-Pro的出现,使信息分析手段变得高效简洁,将极大的推动三维基因组学领域的研究进展。目前,安诺基因在高级基因组技术开发上,特别是Hi-C技术领域和单细胞基因组解决方案方面,已经形成领先的品牌优势。秉承“让发现更快”的理念,我们期望与更多的合作伙伴一起,获得更多激动人心的科学发现。(转化医学网360zhyx.com)
本研究中,安诺优达总裁陈重建博士携手科学顾问Edith Heard(法国居里研究所资深研究员)及Hi-C技术发明人Job Dekker,研发出一种Hi-C数据处理及分析的新流程HiC-Pro。
HiC-Pro能够避免以上缺陷,它是一种经过优化的可操作性极强的信息分析流程,采用基于酶切位点的分析策略,可以将原始的Hi-C测序数据转化成标准化的相互作用图,运行时间大大缩短。同时,HiC-Pro应用非常强大,可以比对测序reads、检测有效连接产物、执行质量控制以及制作染色体内部和染色体之间的相互作用热图,此外,HiC-Pro还可以利用阶段性基因型数据来构建等位基因特异性相互作用图。
研究中分别采用来自两个公共数据库的IMR90和IMR90_CCL186数据进行分析对比,对于每个数据库,运行HiC-Pro流程,获得分辨率为20kb、40 kb、150 kb、500 kb 和1 Mb 分辨率的标准相互作用图,IMR90_CCL186 数据库还能获得5kb分辨率的相互作用图。结果表明,和hiclib运行相同的数据,HiC-Pro完成分析少于15小时,而hiclib需要用28小时。此外,HiC-Pro运行IMR90_CCL186数据得到5kb分辨率相互作用图的用时仅12小时,表明HiC-Pro能在合理的时间分析大量数据。
图1 HiC-Pro运行结果以及与hiclib的对比
HiC-Pro和hiclib分析结果有很好的相关性,在不同分辨率下,二者获得的相互作用热图很相似,再次说明HiC-Pro能在较短时间内完成效果很好的Hi-C大量数据分析。
图2 HiC-Pro和hiclib相关性分析
HiC-Pro采取迭代矫正算法,增强了可操作性。在不同Hi-C分辨率下,比较HiC-Pro和之前的流程HiCorrector,发现在进行下游分析之前,HiC-Pro中的算法可以充分加速Hi-C数据的标准化。将HiC-Pro用于构建人GM12878细胞系等位基因特异性相互作用图,用已发布的GM12878细胞系Hi-C数据进行分析。研究发现,在826M双端reads中,61%被HiC-Pro划分为有效相互作用,6%的有效相互作用比对到父亲或者母亲的基因组上,用于构建单倍体图谱。和预测一致,失活的X染色体图谱分为两个大的区域。
图3 HiC-Pro构建等位基因特异相互作用图
综上所述,HiC-Pro是一种灵活高效的Hi-C数据处理流程,经优化HiC-Pro可以解决运行高分辨率数据的困难,同时提供了一种高效获取相互作用图的方式,并可广泛应用于质量控制、数据标准化、等位基因特异性图谱构建等,其源代码及文档可以免费在Github获取。HiC-Pro的出现,使信息分析手段变得高效简洁,将极大的推动三维基因组学领域的研究进展。目前,安诺基因在高级基因组技术开发上,特别是Hi-C技术领域和单细胞基因组解决方案方面,已经形成领先的品牌优势。秉承“让发现更快”的理念,我们期望与更多的合作伙伴一起,获得更多激动人心的科学发现。(转化医学网360zhyx.com)
还没有人评论,赶快抢个沙发