Genome Biology:RNA-seq需要多长的读长?
导读 | 随着新一代测序(NGS)的读长在不断增长,研究人员也开始纠结:到底多长的读长才合适?双端测序是不是优于单端测序?近日,康奈尔大学维尔医学院的研究人员在《Genome Biology》杂志上发表文章,认为对于差异表达分析而言,读长并非越长越好。不过,双端测序和长的读长无疑能改善剪接的检测。
|
随着新一代测序(NGS)的读长在不断增长,研究人员也开始纠结:到底多长的读长才合适?双端测序是不是优于单端测序?近日,康奈尔大学维尔医学院的研究人员在《Genome Biology》杂志上发表文章,认为对于差异表达分析而言,读长并非越长越好。不过,双端测序和长的读长无疑能改善剪接的检测。
最初,新一代测序技术只产生25或36 bp的读取,而且只能开展单端测序。如今,NGS的读长在不断增加,序列质量也在不断改善。对于许多实验而言,目前的标准读长是双端100 bp,有时甚至达到双端300 bp。
选择测序读长,以及单端或双端测序,成为研究人员面临的主要问题之一。人们普遍认为,长的读取能带来更多的信息,而双端读取也产生了比单端读取更好的结果。不过,随着读长的增加,试剂成本和运行时间也在增加。
为此,美国的研究人员决定看看长的读取是否对RNA-seq差异表达分析更有益。他们利用SEQC测序研究的数据来调查读长对RNA-seq结果的影响,并利用ENCODE联盟的数据来验证这些结果。
研究人员使用了101 bp的双端读取,并修剪它们,以模拟不同的读长,并分离出读取对,以产生单端读取。对于每种读长和配对状态,他们评估了两个标准样品之间的差异表达水平,并将这些结果与qPCR的结果相比较。
在差异表达分析中,他们使用了100、75、50和25 bp的双端和单端读取。他们发现,25 bp太短了,无法有效用在大多数的RNA-seq应用中。除了25 bp,其他所有的读长都表现出相似的准确性,而准确性也几乎不随着读长的增加而增加。一旦单端读取的长度达到50 bp,则之后的结果基本上不变。不过,与100 bp的双端读取相比,使用50 bp的单端读取能够节省一半的钱,相对可观。
此外,研究人员也发现,剪接点的检测结果与差异表达分析不同。剪接检测依赖于序列组装,因此较长的读取会带来更好的剪接结果。与较短的读长相比,100 bp双端读取能检测更多的剪接点。他们对两个ENCO?DE样品进行了相同分析,发现了一致的结果,证明这些结论有着广泛的适用性。
研究人员认为,在RNA-seq研究中使用什么样的读长,这要取决于研究的最终目的。如果只需要差异表达基因的列表,那么50 bp的单端读取就够了,还能节省大量的资源。不过,剪接的检测无疑需要双端读取和长的读长。
原文检索
The impact of read length on quantification of differentially expressed genes and splice junction detection
Genome Biology 2015, 16:131 doi:10.1186/s13059-015-0697-y
最初,新一代测序技术只产生25或36 bp的读取,而且只能开展单端测序。如今,NGS的读长在不断增加,序列质量也在不断改善。对于许多实验而言,目前的标准读长是双端100 bp,有时甚至达到双端300 bp。
选择测序读长,以及单端或双端测序,成为研究人员面临的主要问题之一。人们普遍认为,长的读取能带来更多的信息,而双端读取也产生了比单端读取更好的结果。不过,随着读长的增加,试剂成本和运行时间也在增加。
为此,美国的研究人员决定看看长的读取是否对RNA-seq差异表达分析更有益。他们利用SEQC测序研究的数据来调查读长对RNA-seq结果的影响,并利用ENCODE联盟的数据来验证这些结果。
研究人员使用了101 bp的双端读取,并修剪它们,以模拟不同的读长,并分离出读取对,以产生单端读取。对于每种读长和配对状态,他们评估了两个标准样品之间的差异表达水平,并将这些结果与qPCR的结果相比较。
在差异表达分析中,他们使用了100、75、50和25 bp的双端和单端读取。他们发现,25 bp太短了,无法有效用在大多数的RNA-seq应用中。除了25 bp,其他所有的读长都表现出相似的准确性,而准确性也几乎不随着读长的增加而增加。一旦单端读取的长度达到50 bp,则之后的结果基本上不变。不过,与100 bp的双端读取相比,使用50 bp的单端读取能够节省一半的钱,相对可观。
此外,研究人员也发现,剪接点的检测结果与差异表达分析不同。剪接检测依赖于序列组装,因此较长的读取会带来更好的剪接结果。与较短的读长相比,100 bp双端读取能检测更多的剪接点。他们对两个ENCO?DE样品进行了相同分析,发现了一致的结果,证明这些结论有着广泛的适用性。
研究人员认为,在RNA-seq研究中使用什么样的读长,这要取决于研究的最终目的。如果只需要差异表达基因的列表,那么50 bp的单端读取就够了,还能节省大量的资源。不过,剪接的检测无疑需要双端读取和长的读长。
原文检索
The impact of read length on quantification of differentially expressed genes and splice junction detection
Genome Biology 2015, 16:131 doi:10.1186/s13059-015-0697-y
还没有人评论,赶快抢个沙发