新一代肿瘤基因测序,数据质量是基石
导读 | 肿瘤病理组织组成比较复杂,肿瘤细胞与正常细胞掺杂,肿瘤细胞内部具有异质性,在复杂的背景中检测出肿瘤突变,对数据准确性要求会比较高。原始数据的准确性越高,使用的算法越准确,对测序深度的要求就会越低,在保证突变准确性的情况下,可以降低成本,从而可以进一步推动个体化诊疗。 |
肿瘤细胞的一个明确特点是其复杂的异质性,存在个体不同细胞间,不同个体间,另根据现有的研究基础,已经发现肿瘤基因层面变异频率普遍较低,各种因素告诉我们,在复杂的背景中确定肿瘤突变,首先测序碱基的准确率必须过关。原始数据的碱基识别准确性越高,使用的信息分析方法越合理标准,对测序深度的要求就会越低。在保证突变准确识别下,可以降低测序成本,从而使NGS测序真正高效经济的解答肿瘤的生物学问题。
原始数据的准确性,通常由测序原理决定的。目前主流测序提供者Illumina采用边合成边测序的原理,dNTP 带有荧光基团和终止基团,每次只能延伸一个碱基。 这种看似低效的合成方式,正是测序质量得到保证的技术关键。Q30 (碱基的可靠性为99.9%)是表征原始数据质量的公认参数,其值越高,表示数据质量越高1。
高质量的原始数据是后续准确分析的基石,配合合适的数据处理软件,才可以得到准确的突变结果。对于SNP 突变,各种软件的性能相似;Indel突变类型,对功能影响通常比较大,是一类比较重要的突变类型,其检测难度也比较大,在这种情况下,对算法及数据质量要求都比较高。
从检测结果的准确性角度,2016年Sara Goodwin等人2总结了NGS测序技术的权威综述,罗列10年内出现过的各测序平台的性能准确性比较,基于各检测平台的原理不同,出现对各类变异的检出性能不一,如基于SBS边合成边测序Illumina测序平台的碱基检出准确性较高;对于基于半导体读取技术平台性能尚可但需留意短片段缺失1%的错误率;而新兴的单分子合成的测序领域虽然有长度长优势,但准确性上还有待改善。
肿瘤标本中肿瘤细胞可能占比越低,检测难度更高,原始数据质量,算法,以及测序深度都会成为至于突变检测的要素,而其中测序深度又与成本息息相关。当突变频率比较高的时候,软件之间的差别并不明显,对测序深度的要求也很容易达到(40% 的低频突变仅需要20X 的测序深度即可达到稳定的敏感性);当突变频率降低到20%的时候,性能稍差的的软件将会需要更多的测序深度才能达到稳定的突变检测敏感性。3
图1. 基于不同检测方法的肿瘤变异检测敏感性
鉴于肿瘤检测的特点,新一代测序的原始碱基数据是后续变异检出的基石,其质量至关重要。下机数据是所有后续分析的基础,检测软件与测序深度也影响了最终的检测结果和临床价值。只有选择”精准”的NGS平台,稳健的走好第一步,才能以合适的测序深度完成经济高效的实验过程,才能继续联合兼容稳定的软件得到较高的临床”真实”变异,让临床更有把握的展开诸如篮子、雨伞计划,最终推动肿瘤领域精准医疗的长远发展。
1.Sohyun Hwang, etal.,Sci Rep. 2015; 5: 17875.
2.Sara G. etal.,Nat Rev Genet. 2016 May 17;17(6):333-51.
3.Cibulskis K, etal.,Nat Biotechnol. 2013 Mar;31(3):213-9.
(转化医学网360zhyx.com)
还没有人评论,赶快抢个沙发