【进展】癌症基因反复突变怎么办?这一招有利于识别高度相似的基因!
导读 | 在人类演化过程中,基因组的某些部分经历了重新复制和重新排列,从而导致不同的部分彼此相似。然而,如何识别非独特区域基因突变反复的盲点?研究人员训练了一套机器学习方法,利用他们的遗传词库来注释在短读测序技术集中发现的突变。 |
研究人员已经开始获得以前隐藏的体细胞突变在癌症样本基因组中的非独特区域,包括编码区域和调节元素。
在人类演化过程中,基因组的某些部分经历了重新复制和重新排列,导致不同的部分彼此相似。但是,许多当前的基因测序工具需要依赖于短读测序技术,因此把这些类似的部分区分开来,从中识别基因发生了突变可能比较棘手。据弗朗西斯·克里克研究所(the Francis Crick Institute)马克西姆·塔拉比奇(Maxime Tarabichi)博士表示,在短读序列技术的长度尺度上,大约10%的人类基因组是非独一无二的。
“为了能够将突变分配给特定的基因座(例如,癌症基因的编码序列),一种常见突变调用算法,在序列与基因组对齐后扫描序列,在30亿个基因组轨迹中按位置定位。他们丢弃了任何在定位点模糊排列的短序列,以及它们可能携带的所有潜在体细胞突变。他们遗漏了任何在定位点模糊排列的短序列,以及它们可能携带的所有潜在突变。”Maxime Tarabichi在一封电子邮件中写道。这意味着非独特区域是识别突变反复的盲点。
正如他们周一在《自然生物技术学》上报道的那样,她和她的同事制作了一个已知具有高序列相似性的区域列表,一个所谓的"遗传词库",以及一种利用词库发现这些非独特区域内突变的算法。当他们将他们的方法应用于一组泛癌基因组时,研究人员发现了大约1700个编码序列和数千个调节元素中的隐藏突变。这些隐藏突变影响已知的癌症基因以及免疫球蛋白和其他高度变异的基因家族。
研究人员训练了一套机器学习方法,利用他们的遗传词库来注释在短读技术集中发现的突变,这些数据集可能是模棱两可。对于大多数突变,Maxime Tarabichi表示,他们可以使用数据中的非模糊锚点来映射突变回到其位置,但即使他们不知道突变的确切位置,他们仍然可以开始描述它。
他们使用这种方法对全基因组数据集的泛癌分析中的2658种癌症进行了研究,最终发现1744个编码序列中的突变以及数千个调节元素的突变。研究人员估计,他们的方法每样本的错误发现率中位数为7%,每样本的假阴性率为9%。他们使用正交短读和链读测序方法对额外的癌症样本进行测序,报告验证率超过80%。
在癌症中,大多数突变是对肿瘤生长或疾病进展没有影响的乘客突变,研究人员指出,他们通过遗传词库方法识别的大多数突变也是如此。但是他们发现的一些突变似乎影响了已知癌症基因的蛋白质编码序列。
“有趣的是,我们发现许多突变影响了真正的癌症基因的蛋白质序列。我们还在新候选癌症基因中发现了过量的蛋白质变化突变,其中许多是序列相似性的基因家族成员,”Maxime Tarabichi表示。其中一些基因已经与癌症有关,但根据经典变异调用者的说法,它们的编码序列似乎从未变异。
例如,他们发现了在PIK3CA和KMT2C基因中存在复发性突变,以及影响乳腺癌相关基因ANKRD30A和TPTE基因的突变,后者与PTAN通路有关。以及,其它突变影响调节区域,包括免疫球蛋白家族成员的启动序列区域。
Maxime Tarabichi指出,长读测序方法也将开始解决遗传作图问题,但是,迄今为止,大多数大型基因组数据库都是用短读序列开发出来的,因此他们现在可以将工具应用于这些数据库。(转化医学网360zhyx.com)
在人类演化过程中,基因组的某些部分经历了重新复制和重新排列,导致不同的部分彼此相似。但是,许多当前的基因测序工具需要依赖于短读测序技术,因此把这些类似的部分区分开来,从中识别基因发生了突变可能比较棘手。据弗朗西斯·克里克研究所(the Francis Crick Institute)马克西姆·塔拉比奇(Maxime Tarabichi)博士表示,在短读序列技术的长度尺度上,大约10%的人类基因组是非独一无二的。
“为了能够将突变分配给特定的基因座(例如,癌症基因的编码序列),一种常见突变调用算法,在序列与基因组对齐后扫描序列,在30亿个基因组轨迹中按位置定位。他们丢弃了任何在定位点模糊排列的短序列,以及它们可能携带的所有潜在体细胞突变。他们遗漏了任何在定位点模糊排列的短序列,以及它们可能携带的所有潜在突变。”Maxime Tarabichi在一封电子邮件中写道。这意味着非独特区域是识别突变反复的盲点。
正如他们周一在《自然生物技术学》上报道的那样,她和她的同事制作了一个已知具有高序列相似性的区域列表,一个所谓的"遗传词库",以及一种利用词库发现这些非独特区域内突变的算法。当他们将他们的方法应用于一组泛癌基因组时,研究人员发现了大约1700个编码序列和数千个调节元素中的隐藏突变。这些隐藏突变影响已知的癌症基因以及免疫球蛋白和其他高度变异的基因家族。
研究人员训练了一套机器学习方法,利用他们的遗传词库来注释在短读技术集中发现的突变,这些数据集可能是模棱两可。对于大多数突变,Maxime Tarabichi表示,他们可以使用数据中的非模糊锚点来映射突变回到其位置,但即使他们不知道突变的确切位置,他们仍然可以开始描述它。
他们使用这种方法对全基因组数据集的泛癌分析中的2658种癌症进行了研究,最终发现1744个编码序列中的突变以及数千个调节元素的突变。研究人员估计,他们的方法每样本的错误发现率中位数为7%,每样本的假阴性率为9%。他们使用正交短读和链读测序方法对额外的癌症样本进行测序,报告验证率超过80%。
在癌症中,大多数突变是对肿瘤生长或疾病进展没有影响的乘客突变,研究人员指出,他们通过遗传词库方法识别的大多数突变也是如此。但是他们发现的一些突变似乎影响了已知癌症基因的蛋白质编码序列。
“有趣的是,我们发现许多突变影响了真正的癌症基因的蛋白质序列。我们还在新候选癌症基因中发现了过量的蛋白质变化突变,其中许多是序列相似性的基因家族成员,”Maxime Tarabichi表示。其中一些基因已经与癌症有关,但根据经典变异调用者的说法,它们的编码序列似乎从未变异。
例如,他们发现了在PIK3CA和KMT2C基因中存在复发性突变,以及影响乳腺癌相关基因ANKRD30A和TPTE基因的突变,后者与PTAN通路有关。以及,其它突变影响调节区域,包括免疫球蛋白家族成员的启动序列区域。
Maxime Tarabichi指出,长读测序方法也将开始解决遗传作图问题,但是,迄今为止,大多数大型基因组数据库都是用短读序列开发出来的,因此他们现在可以将工具应用于这些数据库。(转化医学网360zhyx.com)
还没有人评论,赶快抢个沙发