基因测序技术的3种划分方式和4个关键突破
导读 | 华大基因王威博士在自己的博客分享了对于基因测序技术的心得体会。 |
作者:华大基因王威博士
相对于较早出现的Sanger双脱氧核苷酸测序技术(简称Sanger测序),2005年后出现的NGS测序技术,使得基因组研究进入高通量时代,促进了基因组学科学研究及技术转化应用。
在基因组学领域,NGS通常是next-generation sequencing的缩写,意为下一代或者新一代测序技术,亦有人称之高通量测序技术(High-throughput sequencing,HTS)、二代测序技术(second-generation sequencing)。至于到底哪些测序技术属于NGS,并无明确统一的界定,目前主要有两种观点,存在些许差别。
一、对NGS的第一种理解
自动化的Sanger测序技术,通常被称为“第一代”测序技术。以Sanger技术为起点,新出现的技术被称为下一代测序技术(简称NGS)1。
这些新技术涉原理,依赖不同的模板制备方法(例如乳液PCR、DNA纳米球、桥式扩增 、单分子模板)、序列测定方法(焦磷酸测序、基于可逆终止化学测序、基于连接反应的测序、磷酸连接荧光核苷酸或实时测序)、基因组比对与组装方法等。
这种观点认为目前的大规模并行测序技术都属于NGS,包括Roche/454测序、Illumina/Solexa测序、Life的SOLiD与ION系列以及华大基因的BGISEQ/MGISEQ系列等;此外,持这种观点的学者还将Helicos BioScience、Pacific BioSciences以及Oxford Nanopore的单分子及纳米孔测序技术均纳入NGS技术,并未单独将其定义为第三代测序技术1~3。
二、对NGS第二种理解
另一种理解认为 NGS主要是指基于大规模并行测序(massively parallel sequencing,简写MPS)的测序技术4。
大规模并行测序的关键技术诞生于上世纪90年代,于2005年商业化进入市场。这一技术同时对成百上千万的待检测DNA模板分子进行测序,加大了测序反应的效率与通量,使得一次测序实验便能够完成一个或更多的人类基因组序列的测定。尽管不同的大规模并行测序技术原理各不相同,但有一些共同特点,杨焕明老师有非常简洁的总结5:(1)“裸”、“密”并行,每一个分子簇为一个裸露的测序反应,使得测序通量提高了几个数量级;(2)测序通量的提高,损失了下机的读长(初期只有约20个碱基,现在已有显著提升)。
尽管MPS的标本制备和测序原理不同于Sanger测序,但它与Sanger 测序一样,仍需要对测序分子进行扩增,因而也不可避免的增加引入序列误差的概率和GC偏差,也不能直接分析不同修饰的核苷酸5。
按照这一观点,单分子测序不属于NGS,而是更加新的技术。
三、NGS:Next-generation还是Now-generation?
随着MPS成熟稳定,在2008~2010年左右,NGS有了一个新的含义,即Now-generation sequencing6,7,直译为“当代”或者“现代“测序技术。
也就是说,“下一代”测序技术变成了“现代”测序技术。不过,Now-generation sequencing这一说提法并未被广泛使用。因此在多数情况下,NGS主要是指Next-generation sequencing。
在高通量测序技术刚刚问世时,人们并没有预料到测序技术的后续发展如此迅猛。因此,无论是Next-generation 还是Now-generation,其实都是一个比较笼统的提法,本身也意味着变化和发展。这也就不难理解为什么目前对于哪些技术属于NGS会存在不同观点了。
四、关于测序技术的代际
上述话题牵涉出所谓的测序技术代际的问题。然而目前来看似乎并没有统一的认定。
如果按照上文对NGS的第一种理解,目前的代际划分似乎更多的用来区分Sanger 测序与非Sanger 测序。这两类技术在原理和测序通量上都有存在较大差异,但也有相通之处。例如,无论是Sanger双脱氧核苷酸测序,还是高通量测序中的边合成边测序技术,或者是基于连接反应的测序,其原理都依赖核苷酸的聚合反应。
目前测序仪代际划分的分歧点主要围绕“二代测序”和“三代测序”技术。“三代测序”这种提法出现于2008~2009年,当时主要是指有别于NGS的新型测序技术。一些学者认为单分子测序、实时测序以及核心方法有别于已有技术的方法,应是三代测序技术的定义性特征。目前,三代测序通常是指无需DNA扩增的单分子测序技术4。这种技术从原理与特点来看,有其自身优势(比如测序能够获得较长的读长,有望解决单倍体基因组组装和结构变异识别),是测序技术发展的重要思路。
有学者指出,目前测序技术代际划分,也许更多的是出于商业上的考虑,因为人们通常习惯性的认为技术代际升级代表了技术的演化。例如,Pacific BioSciences 公司在其发表的论文中,将单分子实时测序技术与NGS进行了区分,被归入三代测序技术8,其用意是不言而喻的。
单分子测序技术早在2003年就有概念性的论文发表9。2008年,Helicos BioSciences推出了第一台单分子测序仪,随后Pacific BioSciences与Oxford Nanopore也推出了各自商业化的测序仪。不过,也许是由于单分子测序对技术体系要求更高,这项技术的发展远不如当初人们预想得那般迅猛,直至今日尚未达到NGS这样的市场规模。这期间,Helicos BioScience已于2012年破产,尽管其技术符合目前对三代测序技术的界定。
随着更多的应用,单分子技术也陆续暴露出一些技术问题。例如,在近期的一篇论文中,研究人员对利用长读长测序技术组装的人类基因组进行分析,发现与短读长组装相比,长读长组装的蛋白编码区域含有更多的错误10。尽管有学者指出,新的生物信息学工具已经能够改善纳米孔测序的组装结果,有望从Oxford Nanopore和PacBio的测序数据中获得高质量的序列11。但是,真正的长读长技术,只有达到或超越现有技术的性能和准确度时,才有实用意义。
从测序技术应用角度来看,某些应用也许并不需要长读长的单分子测序技术。例如,基于外周血游离DNA测序的无创产前检测,因目标DNA本身就是一百多个碱基的短片段,采用NGS就能够比较好的进行检测与分析,且成本也在逐渐下降。此外,通过一些间接技术手段,比如华大智造近期推出的stLFR测序12,也能够在全基因组范围内提供基因组长片段信息,包括分型、突变及基因组结构变异。
单分子测序技术从原理上具备潜力与优势,值得进一步研发完善。但是未来能否达到预期的市场规模,甚至成为主流测序技术,还需要经过实践检验。技术发展代际内的升级相对比较频繁,而代际间的升级则相对缓慢,只有核心原理有创新并且跨越式超越前一代的技术,也许才更适合被定义为新一代技术。
总之,目前测序技术代际划分较为模糊,且测序技术目前仍处于快速发展中。其中,SANGER与 NGS均引领了基因组技术的革命,推动了基因组学科技进步。前者为人类基因计划(HGP)做出了主要贡献,目前仍在是很多生物学与医学实验室的常规技术;后者则是当前基因组研究与应用的主流技术,直接为基因组测序的广泛应用扫清了经济上的障碍,使其不仅能更好的服务于科研,也正在成为精准医学以及其他应用领域的重要工具。单分子技术则是测序技术发展的重要方向,开始崭露头角,但成熟与完善尚需时日。以上这些测序技术,均有各自的特点,也有其适合的应用范围与应用场景。
附笔
写这篇小文的初衷,是近期因为有朋友提出过此类问题,也有人常将测序技术类比IT技术的发展。因此在这里分享自己的观点,也期望与持不同意见的朋友交流探讨。
特别感谢两位曾经参与过水稻基因组计划等早期基因组大项目的同事张建国博士与李胜霆博士,在春节假期期间分享了各自的观点,并协助完善本文。
目前测序技术的代际划分并没有统一的认定。即使一个人,其观点也会随时间与认知的改变而发生某些变化。在2008年前后,我们单位的NGS平台刚刚进入规模化稳定运行阶段。也正是那个时候,出现了“三代技术”。业内不少人都认为这类单分子技术很快将取代NGS。但事实并非如此。我曾经的观点认为单分子测序技术属于三代技术,而目前则倾向于将其归入NGS。
关于测序技术的代际,可以看看IT的代际。百度上是这样划分的:第一代计算机被称为电子管计算机,第二代计算机被称为晶体管计算机,第三代计算机成为中小规模集成电路计算机,第四代计算机成为大规模和超大规模集成电路计算机,第五代计算机,指具有人工智能的新一代计算机。IT的代际划分主要源自技术原理的革新(第五代感觉主要是软件上的革新),是认识计算机发展史和技术原理的需要,具有客观存在的价值。新一代在性能上全面超越前一代。
从认识论的角度来讲,大家习惯于根据技术划分代际,代际升级代表了技术的演化。只有核心原理新并且跨越式超越前一代的技术才能被称为新一代。新一代的出现首先是从技术原理上提出,有希望和潜力超越现有技术,然后从商业角度宣传,有一些最终行不通的被淘汰,能发展成熟超越前一代的才会真正成为新一代。也有可能方向是对的,但是技术暂时跟不上,会经历曲折的发展。这种代际认识在回顾历史的时候最清楚。
杨焕明院士的宝贵建议
文章发出后,杨焕明院士专门与笔者分享了自己的看法,也提出了很好的建议。杨老师总体上对文中观点给予了肯定,但也指出一些细节还值得商榷。比如,对于“大规模并行测序”,杨老师更主张使用“大规模并行高通量测序(Massively Parallel High-throughput sequencing, MPH)”这一提法。
究其原因,我想正是因为MPH摈弃了以往测序“一个模板、一条泳道”的策略,实现了大规模、多模板的并行测序,使得测序通量提高了几个数量级。测序技术的“大规模并行化”与“高通量”紧密关联,也是这一代测序技术的关键特点。
杨老师同时提醒,测序是一个技术体系,测序仪是其中的核心,但不仅仅是测序仪,还有其他关键技术。以后有机会,咱们再聊聊这方面内容。
纵观测序技术的发展历程,其经历了从“前直读”到“直读”、从手工到自动化、从平板电泳到毛细管凝胶电泳、再到MPH测序这四个阶段、四个突破(这何尝不是一种测序技术代际划分方法呢?)。
为更好了解测序技术的源流,笔者查阅了杨老师主编的《基因组学》一书的相关章节,现将测序技术四个突破的有关内容摘录如下:
1、 测序技术的第一个突破:直读
直读,就是直接读取DNA分子的碱基序列。直读是测序技术发展史上的重要里程碑。
第一代有效直接读取碱基序列的DNA测序技术体系主要有Maxam-Gilbert化学降解法,以及Sanger 双脱氧核苷酸末端终止法。
2、 测序技术的第二个突破:自动化
在测序反应产物电泳的读胶环节使用扫描仪是测序自动化的重要突破。 80年代,四色荧光标记的发明是Sanger法走向自动化的关键突破。
四色荧光标记,就是使用四种荧光物质(以特定的、不同波长的激光,可以激发产生不同的颜色),分别标记四种特定的ddNTP。这样,一条电泳泳道,可以分析一个标本的所有四个测序反应的产物,而对应位置的激光器可以对胶板上通过的测序反应产物进行扫描。
3、 测序技术的第三个突破:规模化
毛细管电泳测序技术的出现,使测序技术进入规模化运行阶段(相比后续发展,此阶段实现的是相对初级的规模化)。
毛细管电泳测序使Sanger法实现了规模化、高通量化、自动化,不再需要人工制胶。正是这 一技术的问世,使得国际人类基因组计划(HGP)得以提前完成。
4、 测序技术的第四个突破:大规模并行高通量测序
大规模并行高通量测序(MPH),也就是新一代测序(new-generation)或者下一代测序(next-generation)。
这一代测序仪的问世,是测序技术发展史上影响最为深远的变革。
大规模并行高通量测序技术,通过在一张微流控芯片上,形成成百上千万甚至上亿个模板的高密度分子簇,其中每一个分子簇就是一个裸露的测序反应,最终使得测序通量提高了几个数量级。
如果对比毛细管技术的单道特点,即“一个样本、一个反应、一条泳道”,更加容易理解MPH这种规模化与高通量的特征。
最后,笔者向杨老师的关心与指导表示衷心感谢,也对他严谨治学的态度表示敬佩!纸上得来终觉浅,绝知此事要躬行。对于一些初期的测序技术,我们可能没有机会接触到了,而新技术发展又如此迅速,我们也不大可能进行全部实践。因此,多一些好学与思考,是十分必要的。(转化医学网360zhyx.com)
还没有人评论,赶快抢个沙发