推荐活动

重大进展,同济大学首次开发AI系统,用于CRISPR技术领域

首页 » 研究 » 组学 2018-06-29 iNature 赞(2)
分享: 
导读
黄德双研究组及阿斯利康Jia Wei合作在Genome Biology在线发表题为“DeepCRISPR: optimized CRISPR guide RNA design by deep ...

2018年6月26号,同济大学刘琦研究组,黄德双研究组及阿斯利康Jia Wei合作在Genome Biology在线发表题为“DeepCRISPR: optimized CRISPR guide RNA design by deep learning”的研究论文,该论文开发了一套新的方法,简称为DeepCRISPR,它基于精心设计的用于模型训练和预测的混合深度神经网络。DeepCRISPR 具有以下优点:(1)通过考虑不同细胞类型中的表观遗传信息,在统一的特征空间中表示来自不同细胞类型的不同DNA区域,并整合来自不同实验和细胞类型的数据(2)它从数十亿全基因组未标记的sgRNA中学习,自动获得“母网络”,从而同时为sgRNA on-target和off-target设计生成高级特征表示。 (3)它应用特定的数据增强技术来生成具有生物学意义标记的新型sgRNA,从而增加sgRNA靶标位点预测中标记的训练大小。(4)使用标记的sgRNA数据进一步微调母网络,这有助于提高有限标记样本的预测性能。 (5)将高效的自举采样算法与训练过程集成在一起,极大地缓解了非目标站点预测中的数据不平衡问题。 (6)最后,它完全自动识别序列和表观遗传特征。DeepCRISPR可在http://www.deepcrispr.net/上找到。



基于CRISPR的基因敲除被广泛应用于各种细胞类型和生物体。在此系统中,单引导RNA(sgRNA)将Cas9蛋白引导至特定的基因组靶标。识别和切割通过sgRNA内的20个核苷酸(nt)序列与基因组靶标(即靶标上,原始间隔区相邻基序(PAM)3'端上游【1】)的互补性发生。大量的研究也表明,多重错配以及DNA或RNA突出可以被容忍,导致非目标基因组位点的切割,称为脱靶【2】。这种CRISPR-Cas9核酸内切酶系统允许在核苷酸分辨率下进行基因组编辑【3,4】,而其有效应用的主要挑战是事先准确预测sgRNA靶向敲除效率和脱靶(OT)谱。准确的预测将通过最大化其靶向效力(高灵敏度)和最小化其脱靶效应(高特异性)来促进sgRNA的优化设计【1,2,5,6,7】。


人工智能


已经针对sgRNA靶标识别和功效预测开发了各种sgRNA设计规则和工具。这些方法分为三种类型:(1)基于比对的,其中sgRNA与给定基因组完全通过定位PAM(CasFinder [8]等)进行比对; (2)假设驱动,其中通过考虑基因组环境因子(E-CRISP【9】,CRISPR【6】,CHOPCHOP 【10】,GuideScan 【11】等)的经验性地对sgRNA敲除效力进行评分; (3)基于学习的,其中通过考虑不同特征(sgRNA Designer【2】,SSC【5】,sgRNA Scorer【12,13】,CRISPRscan【14】等)从训练模型预测sgRNA敲除效力。 )。一项基准研究表明,后两种类型的工具通常比基于比对的工具表现更好,但预测在不同类型的细胞中不能很好地进行比较。


事实证明CRISPR系统会出现脱靶现象。尽管sgRNA引导的Cas9切割在特定位点不一定导致功能性后果(如框内移位突变),但如何准确定量检测或预测脱靶切割位点仍然是一个重要问题,仍然具有挑战性。大多数现有的工具使用不同核苷酸错配的简单序列比对来搜索脱靶位点。这些基本上是基于假设的方法,它们使用经验定义的脱靶标准来识别脱靶位点。需要有效的基于学习的全基因组脱靶谱预测。


目前,构建sgRNA功效预测的学习模型面临几个障碍:(1)数据异质性问题,需要来自不同细胞类型和实验平台的数据进行有效整合。 (2)标记的样品量,即具有已知功效的sgRNA的量相对较小并且在收集实验上昂贵的数据稀疏性问题 - 标记不充分的数据使得当前学习模型效率低下; (3)脱靶位点预测中的数据不平衡问题 - 在所有可能的核苷酸错配基因座中,由全基因组脱靶检测技术识别的真实脱靶切割位点的数目是小的; (4)影响sgRNA功效的先导序列和表观遗传学特征尚不清楚,有待进一步探索。


在这里,同济大学刘琦研究组,黄德双研究组及阿斯利康We iJia合作开发了一套新的方法,简称为DeepCRISPR,它基于精心设计的用于模型训练和预测的混合深度神经网络。 DeepCRISPR具有以下优点:(1)通过考虑不同细胞类型中的表观遗传信息,在统一的特征空间中表示来自不同细胞类型的不同DNA区域,并整合来自不同实验和细胞类型的数据(2)它从数十亿全基因组未标记的sgRNA中学习,自动获得“母网络”,从而同时为sgRNA on-target和off-target设计生成高级特征表示。 (3)它应用特定的数据增强技术来生成具有生物学意义标记的新型sgRNA,从而增加sgRNA靶标位点预测中标记的训练大小。(4)使用标记的sgRNA数据进一步微调母网络,这有助于提高有限标记样本的预测性能。 (5)将高效的自举采样算法与训练过程集成在一起,极大地缓解了非目标站点预测中的数据不平衡问题。 (6)最后,它完全自动识别序列和表观遗传特征。


DeepCRISPR可在http://www.deepcrispr.net/上找到。命令行代码也可从https://github.com/bm2-lab/DeepCRISPR和https://zenodo.org/record/1246320获取。当前版本的DeepCRISPR专注于人类SpCas9基于传统的基于NGG的sgRNA设计。它可以很容易地扩展到其他Cas9物种或变种和其他物种。它的目标内和目标外预测性能与可用的最先进的工具进行了比较。


原文链接:

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-018-1459-4



(转化医学网360zhyx.com)

评论:
评 论
共有 0 条评论

    还没有人评论,赶快抢个沙发

相关阅读