如何去除测序过程中出现的污染?
导读 | Supratim Mukherjee在进行数据分析的时候,发现数以百计的微生物基因组中会重复出现同一种噬菌体序列,这令他感到很惊讶。并不是只有Mukherjee一人发现此种情况,最近大量的报告表明,发表的基因组出现污染要比之前想象的多得多。 |
Supratim Mukherjee在进行数据分析的时候,发现数以百计的微生物基因组中会重复出现同一种噬菌体序列,这令他感到很惊讶。并不是只有Mukherjee一人发现此种情况,最近大量的报告表明,发表的基因组出现污染要比之前想象的多得多。那么这些污染是如何出现的呢?我们又能做些什么,避免这些情况的出现呢?
就此The Scientist杂志请教了几位研究人员,他们分享了一些Tips,可以检测和预防出现“流氓序列”。
如何去除污染
一旦找到了污染物和污染源,那么就可以开始进行数据清理了。这其中有多种工具可以选择,如Edwards研究组开发的DeconSeq,与其它自动化污染筛选程序不同,DeconSeq需要用户输入污染物的物种属性,然后再自动剔除基因组组装内容里的属于这一物种的序列。
如果跳过了这一步骤,也许就会引起麻烦。Lipman研究组在NCBI系统中就运行一个针对每个呈递到GenBank中序列的外源污染物筛选,他希望当筛选出一个序列标记为污染物时,科学家们能将其认为是了解数据的一个机会,并且了解技术的弱点,在未来避免出现这个问题。
“如果你只是说‘好吧,我的呈递出现了问题,我现在就修改它’,那么这个问题还是不断出现,”Lipman说。
但是如果是在论文公布后发现基因组中出现污染呢?比如说之后进行更多实验的时候发现了错误,那么重点是尽早修改错误,以防其他人将这些错误的成果用于自己的研究中。在某些情况下,这也许就意味着与杂志取得联系,看看能不能进行勘误。
“大家需要对自己的序列数据负责,”Mukherjee说,“如果你发现了问题,那么就要撤回它进行修改,然后再重新发布。”
如何改善基因组污染问题
随着测序技术的进步,也许未来许多污染源会自动消失,这确实可能,Laetsch说,“随着组装过程越来越容易,读长越来越长,肯定要找出污染也会变得容易,”但是研究人员不能将这作为停止筛选污染物的借口,“你放入的样品越好,测序机器就会做的越好。”
而随着基因组数据变得越来越庞大,要想获得干净的序列也越来越难,这有赖于每个学者都尽其所能确保自己基因组序列不出现污染,“我认为科学界都知道污染物是个大问题,但是这还需要更多的努力”,Mukherjee说。
GenBank中污染物出现频率猛增,Lipman也赞同这个问题的共识性,为何会出现越来越的污染呢,Lipman对这个问题表示,“越来越多的实验室都可以进行测序研究了,这本身是个令人高兴的事情。”
(转化医学网360zhyx.com)
还没有人评论,赶快抢个沙发