十年磨砺,WGBS终获新生丨聊一聊高通量DNA甲基化测序技术背后的故事!
导读 | DNA甲基化是一种表观调控修饰,它在不改变碱基序列的情况下,参与调控蛋白质合成的多少。对人类来说,DNA甲基化是一种非常奇妙的化学修饰,亲人的关怀,机体的衰老、抽烟、酗酒甚至肥胖,都会被甲基化如实地记录到基因组上。基因组就像是一个日记本,甲基化作为文字,记录下人体的经历。 |
图片来源:Roadmap Epigenomics Project
DNA甲基化是一种表观调控修饰,它在不改变碱基序列的情况下,参与调控蛋白质合成的多少。对人类来说,DNA甲基化是一种非常奇妙的化学修饰,亲人的关怀,机体的衰老(图1左)、抽烟、酗酒甚至肥胖,都会被甲基化如实地记录到基因组上。基因组就像是一个日记本,甲基化作为文字,记录下人体的经历。
图1. 左:衰老过程中的表观调控变化[1];右:癌细胞与正常细胞的甲基化修饰差异[2]
“与众不同”的癌细胞也拥有一系列特殊的甲基化标记[图1右],形成了癌细胞独有的甲基化ID。如果在cfDNA中搜寻这些ID,我们就有可能检测到癌症的存在,甚至是提前发现癌症,这就是利用ctDNA甲基化进行癌症早诊早筛的原理。
与点突变信号相比,ctDNA甲基化标志物具有信号特异性强、定位肿瘤等优势。近年, ctDNA甲基化在癌症诊断,预后评估等研究中也确实取得了重大进展[图2] 。
图2. 高通量DNA甲基化测序在癌症诊断研究中的进展[3、4]
但是,我们似乎忽视了目前研究手段的局限性,首先,我们还没有一个强有力的肿瘤甲基化标志物筛选方法,常用的甲基化芯片只覆盖人类~3%的甲基化位点,而且仅限于相对甲基化水平;其次,现在还没有一个高灵敏的ctDNA甲基化检测技术,就像检测ctDNA点突变一样。
其实,在NGS技术中,就有一个可以满足上述要求的高通量测序技术-WGBS。那么,我们不禁要问:WGBS,这些年你干嘛去了?
WGBS(Whole Genome Bisulfite Sequencing),即全基因组亚硫酸氢盐测序,它既可以覆盖所有甲基化位点,还能能够配合靶向技术检测低频甲基化信号,但是传统WGBS数据存在一个严重的问题(图3 右),一旦某个区域CpG位点数增加,测序数据便开始减少,似乎天然排斥甲基化位点,所以,它的数据有效率较低。同时,建库起码需要μg级别的DNA,还伴随着偏好检测高甲基化DNA片段的现象,而且测序费用昂贵,基本上属于NGS的奢侈品。
图3. 传统WGBS技术对甲基化位点覆盖率较低[5、6]
令人欣喜的是,“花瓶”技术WGBS痛定思痛,在多年积淀之后重获新生。WGBS是高通量单分子甲基化研究的基础,它的突破揭开了甲基化研究的新篇章。接下来,给大家简要介绍一下WGBS技术发展的心路历程。
全基因组甲基化测序的二次革新
2008年左右,正是NGS和基因组研究的“蜜月期”,但是对于WGBS来说,却有那么一点点不和谐。那时候,WGBS技术仍然以传统的Bisulfite处理前建库(Pre-BS)为主,就像上文提到的,该技术有诸多局限性。
接下来,技术人员也在传统技术流程的基础上做出了很多优化,比如采用化学变性而不是热变性开展Bisulfite转化,以减少DNA损伤,增加模板丰富度;采用转座酶进行预文库构建,增加模板利用率,以此抵御即将进行的Bisulfite转化过程(文库损伤、丢失)等。这些改进也卓有成效,有的技术可以对200ng以下的DNA建库。
有趣的是,进化人类学研究却为WGBS技术革新带来了新的启示。这些天天和古人类牙齿、头盖骨为伍的勇士也遭遇到类似的困难,他们的研究需要对古老的DNA进行测序,这些年代久远的DNA像极了被BS处理过的状态,严重降解并多以单链形式存在,而且,重点来了,还含有U碱基(图4左)。当时还没有一种可以对付这种状态DNA的建库技术,所以,他们自行开发出了一种全新的单链建库方法(图4右),虽然效率不是特别高,但是已经能满足分析需要了。·
图4. 利用单链建库技术研究严重降解的古老DNA[7、8]
单链含U,这与BS处理后的DNA状态如出一辙,灵感的火花就这样产生了,何不借鉴这种思路开发一种先BS处理后建库(Post-BS)的WGBS技术呢?如此,便能有效的规避BS对完整文库的损伤,而且,Post-BS技术还为甲基化聚合酶平了反,这是后话。
不过,在Post-BS建库时,单链DNA在连接接头时的效率较低,近几年,科学家们就是在攻克单链建库这个难题,主要分为两个技术路线(图5右),有的技术路线完全摒弃了接头连接,绕道而行,算是曲线救国,取而代之的是通过随机引物引入接头序列;也有继续啃单链连接的“死心眼“,比如SPLAT技术[6],由于双链DNA连接效率更高,所以SPLAT人为创造双链结构用以促进接头与单链DNA连接(点击链接,查看此前报道)。除此之外,还有一些精妙绝伦的技术思路,但已经严重超越了小编的认知,等哪天小编看明白了再和大家分享。
图5. 左:Pre-BS和Post-BS技术流程示意图;右:两种Post-BS WGBS文库构建方法[6]
总之,通过不同的技术路径,研究人员总算是实现了Post-BS建库。那么,这些新技术究竟有没有让WGBS数据变好呢?我们参考核酸研究顶级期刊Nucleic Acids Research在2017年初刊登的WGBS方法学比较的论文,以及目前商业化的试剂盒,整理如下:1. 建库效率有了质的飞跃,较传统方法提高10倍以上,DNA用量明显降低,只需10个ng,甚至更低,可以满足绝大多数生物学样本,包括cfDNA;2. 覆盖度及均一性显著提升,尤其是CpG岛覆盖度明显改善。CpG岛是研究人员关注的重要区域,属于甲基化的“外显子”,这一优化使得传统WGBS的主要弊端得到彻底解决;3. Post-BS文库会产生一些新的偏好,此外,高密度CpG区覆盖度仍有优化空间。
图6. Pre-BS与Post-BS WGBS数据对基因组和CpG岛覆盖度比较[6]
综上,Post-BS策略对WGBS的改造获得了初步成功,如果说Bisulfite转化技术配合使用甲基化修饰的测序接头,开创了覆盖全基因组甲基化位点并达到单碱基分辨率的甲基化检测技术;那么,先进行Bisulfite转化再进行文库构建策略(Post-BS WGBS)就是该领域的二次革新。目前,应用新技术的研究报道较少,正处于起步阶段,新技术可能会产生未知的偏好,所以我们仍需谨慎。
导致WGBS数据偏好产生的罪魁祸首
测序数据偏好,对NGS来说是挥之不去的阴霾。特别是在NGS产力达到每次运行就可吐出Tb级别数据的时候,稍不注意,测序方法偏好便可以使得大量数据报废。所以,深入探究这些偏好产生的原因,是对研究负责,也更有利于行业的长期、健康发展。
甲基化测序是NGS的几个偏好重灾区之一,导致甲基化测序偏好产生的主要因素有两个,一是众所周知的文库富集时使用的PCR技术,二是Bisulfite降解偏好,这个发现很有意思,聚合酶可是为他长期“背锅”。
我们先看一下PCR偏好。俗话说得好,没有聚合酶再好的文库也出不来(PCR-free请无视小编),聚合酶有两点非常关键,一个是序列扩增偏好性,二是扩增效率,甲基化测序还需要加一项,对含dU碱基模板的扩增效率。
在全世界科研人员的长期实测中,KAPA HiFi Uracil +和Pfu Turbo Cx两种聚合酶脱颖而出[6、9、11];其中,KAPA HiFi Uracil +(后文简称KAPA U)聚合酶的GC偏好较低(图7左),对U扩增效率也非常理想,可以保证100ng投入量时仅用4个循环就使WGBS文库能达到测序要求[6]。甚至连Illumina也在自己的甲基化捕获试剂盒中客观的推荐了KAPA HiFi Uracil +[10]。
随着甲基化研究的深入,研究人员对关乎数据质量的聚合酶也提出了更高的要求。接下来,就有研究将KAPA U放到了高倍镜下进行分析,他们将GC均匀性细分为G和C两种碱基,结果表明,对于G碱基,在众多聚合酶中KAPA U确实最为均匀,但是C碱基就出现了明显的偏倚[图7 B]。那么,真相到底是不是这样呢?
图7. A:KAPA HiFi Uracil+具有更好的GC均匀性[9];B:KAPA U对G碱基覆盖较好,对C碱基出现偏倚 [11]
其实,如果联想到WGBS数据中高甲基化片段(C含量高)被过度测序以及CpG区域覆盖度低的现象,我们不难发现,所有线索都表明C碱基的覆盖出了问题。如果不去纠缠PCR过程,真正的元凶就很容易想到了,就是Bisulfite。
最近研究发现,在Bisulfite对DNA的转化过程中,甲基化修饰使得C(5mC)更加稳定,不易断裂,未经修饰的C碱基则容易被破坏(图8 A)。根据这个原理,传统的Pre-BS WGBS数据中的很多疑惑都迎刃而解了,在Bisulfite处理时,含C多的DNA越容易被破坏,所以,C含量更高的CpG岛区域的覆盖急剧下降(图8 B),同时,AT-rich的片段则被过度测序(图8 C)。相反,5mC使DNA稳定,高甲基化DNA在Bisulfite处理时幸存下来,被过度测序[9]。如图8C所示,在Post-BS WGBS与低偏好的KAPA U配合使用时,数据表现接近理想状态。
图8. A:C碱基含量高的DNA片段更易被破坏,甲基化或羟甲基化修饰C碱基使得DNA更为稳定[11];B:Bisulfite偏好降解未被甲基化修饰的C碱基可能是CpG覆盖度低的真实原因(示意图);C:在Pre-BS WGBS数据中,即使使用KAPA U也出现了严重的AT偏好[6]
想想也为聚合酶觉得冤,其实我们是在让它们去扩增原本就被Bisulfite破坏掉,已经不存在的片段;不过,Post-BS算是还了聚合酶一个公道。当然,偏好产生的原因是很复杂的,还会受到Bisulfite转化效率、甲基化状态等影响。
结 语
WGBS不但能够覆盖更多的甲基化位点,还可以避免重复区、SNP等因素的干扰,随着测序成本降低以及Post-BS技术进展,将会使得WGBS的准入门槛降低, WGBS的普及或将成为可能。
Bisulfite处理后的模板对PCR聚合酶提出了更高的挑战,聚合酶的性能对于降低偏好非常关键,低偏高效的聚合酶搭档Post-BS技术,可以更加真实的还原DNA甲基化修饰模式,比如上文提到的KAPA HiFi Uracil +/SPLAT。
在Post-BS建库技术突破后,像WES一样,甲基化靶向测序也会受到更多青睐。在实验成本相差无几的情况下,起始量更低、覆盖度更高的NGS甲基化Panel更具竞争力;此外,ctDNA低频甲基化检测技术的开发会变得更加容易。接下来,Post-BS WGBS一定会得到进一步的发展和应用。
参考资料:
1. Epigenetics and aging. Sci. Adv. 2016
2. Detection of Methylated Circulating DNA as Noninvasive Biomarkers for Breast Cancer Diagnosis. J Breast Cancer 2017
3. Plasma DNA tissue mapping by genome-wide methylation sequencing for noninvasive prenatal, cancer, and transplantation assessments. PNAS 2015
4. Identification of methylation haplotype blocks aids in deconvolution of heterogeneous tissue samples and tumor tissue-of-origin mapping from plasma DNA. Nature Genetics 2017
5. https://www.illumina.com/products/by-type/microarray-kits/infinium-methylation-epic.html
6. SPlinted Ligation Adapter Tagging (SPLAT), a novel library preparation method for whole genome bisulphite sequencing. Nucleic Acids Research 2016
7. A Draft Sequence of the Neandertal Genome. Science 2010
8. A High-Coverage Genome Sequence from an Archaic Denisovan Individual. Science 2012
9. Methylated DNA is over-represented in whole-genome bisulfite sequencing data. Front Genet 2014
10.https://emea.illumina.com/content/dam/illumina-marketing/documents/products/datasheets/truseq-methyl-capture-epic-sequencing-panel-data-sheet-470-2016-004.pdf
11. Comparison of whole-genome bisulfite sequencing library preparation strategies identifies sources of biases affecting DNA methylation data. bioRxiv 2017(转化医学网360zhyx.com)
还没有人评论,赶快抢个沙发