ENCODE相关30篇论文摘要 聚焦人基因组功能研究(二)
导读 | <p align="center"><br/><strong><img src="http://www.bioon.com/biology/UploadFiles/201209/2012090816121179.jpg" alt="" width="446" height=&q... |
<p align="center"><br/><strong><img src="http://www.bioon.com/biology/UploadFiles/201209/2012090816121179.jpg" alt="" width="446" height="383" border="0" /></strong><br/>
</p>
<br/><strong>16. 细胞内RNA深度测序证实大多数RNA进行共转录剪接</strong><br/>
研究人员分析了K562细胞系中通过RNA-seq测序而获得的细胞内RNA组分。他们发现在人基因组中,RNA剪接主要是在转录期间完成的。通过引入coSI 测量方法,他们证实在细胞质polyA+ RNA中,剪接几乎完全完成。因此,大多数RNA在被转录的同时进行剪接,即共转录剪接。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.134445.111" target="_blank">10.1101/gr.134445.111</a>)<!--more-->
<br/><strong>17. 发现上百个小鼠和人剪接来源的<a href="http://www.bioon.com.cn/reagent/list.asp?sortid=20" target="_blank">miRNA</a></strong><br/>
非典型的miRNA模板并不适合经常用来标注典型miRNA的策略。通过对737个小鼠和人类小RNA数据集进行大规模分析,研究人员采取严格且保守性的策略对237个小鼠剪接来源miRNA(splicing-derived miRNAs, mirtrons)和240个人mirtrons进行标注。在哺乳动物中,这些mirtrons可以分为三类:常规性的mirtrons、5'加尾mirtrons和3'加尾mirtrons。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.133553.111" target="_blank">10.1101/gr.133553.111</a>)
<br/><strong>18. GENCODE:ENCODE项目的人基因组参照标注</strong><br/>
GENCODE项目旨在利用计算分析、人工标注和实验验证来鉴定出人基因组中所有的基因特征。GENCODE第七版(GENCODE v7)公开发布了基因组标注数据集,包含了20687个蛋白编码的RNA基因座位、9640个长链非编码RNA基因座位,并且拥有33977个在UCSC基因数据库和RefSeq数据库中不存在的编码性转录本。它还对公开获得的长链非编码RNA(long noncoding RNA, lncRNA)进行最全面的标注。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.135350.111" target="_blank">10.1101/gr.135350.111</a>)
<br/><strong>19. 发现人基因组中疾病相关的功能性SNP</strong><br/>
研究人员系统性地研究了多种类型的ENCODE数据与疾病相关基因SNP(single nucleotide polymorphism, 即单核苷酸多态性)之间的关联性,并且发现在当前鉴定出的疾病关联当中,存在功能性SNP的显著性富集。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.136127.111" target="_blank">10.1101/gr.136127.111</a>)
<br/><strong>20. 在两种人细胞系中,lncRNA很少表达</strong><br/>
ENCODE项目发现被鉴定为lncRNA的9640多个人基因组位点中,迄今为止只有大约100个得到深入的研究以便确定它们在细胞中的作用。通过共同分析ENCODE项目最近产生的两个数据集:将表达的肽链映射到它们的编码性基因组位点的串联<a href="http://www.bioon.com.cn/product/list.asp?sortid=37">质谱</a>数据;ENCODE在细胞系K562和GM12878中对长polyA+和polyA-组分进行RNA-seq测序产生的数据,研究人员利用机器学习方法RuleFit3将肽链数据与RNA表达数据对应起来。他们发现大约92%的GENCODE v7发布的lncRNA在这两种细胞系中并不表达。除极少例外,核糖体能够区分编码性RNA转录本和非编码性RNA转录本,因而在lncRNA组(lncRNAome)中,异位表达和隐性mRNA都是罕见的。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.134767.111">10.1101/gr.134767.111</a>)
<br/><strong>21. 关于个人和群体的基因组调节性序列变异的基因组学</strong><br/>
为了更好地界定人基因组调节性序列变异的模式,研究人员选择了来自不同地理位置的53个人的全基因组序列,将他们的138个细胞和组织类型的DNase I超敏感位点(DNase I hypersensitive sites, DHSs)标记的全基因组调节性DNA序列图谱结合起来。研究人员估计相比于蛋白编码的DNA序列,每个人可能拥有很多更加具有功能重要性的调节性DNA序列变异体,尽管平均而言,它们可能产生更加小的影响。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.134890.111" target="_blank">10.1101/gr.134890.111</a>)
<br/><strong>22. 利用开放构象染色质区域来预测细胞类型特异性的基因表达</strong><br/>
研究人员利用来自19项不同的人细胞类型的DNase-seq数据来鉴定全基因组范围的近端和远端调节性序列元件。通过匹配表达数据,他们将基因分为三类:细胞特异性的上调表达的基因、细胞特异性的下调表达的基因和组成性表达的基因。总之,他们成功地利用开放构象染色质的信息来解决利用调节性序列直接预测哺乳动物细胞特异性表达时存在的问题。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.135129.111" target="_blank">10.1101/gr.135129.111</a>)
<br/><strong>23. 探究ENCODE人RNA-seq数据中的RNA编辑</strong><br/>
研究人员分析了来自ENCODE项目对14个人细胞系开展研究所获得的长串RNA-seq数据(这些数据经过PolyA选择,没有形成双链,且经过深度测序)以便鉴定出潜在的RNA编辑事件。他们发现RNA编辑和特异性的基因之间存在较强的关联。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.134957.111" target="_blank">10.1101/gr.134957.111</a>)
<br/><strong>24. 细胞类型特异性的转录因子结合的序列和染色质决定簇</strong><br/>
为了研究DNA序列信号、组蛋白修饰和DNase对细胞类型特异性的结合位点的可访问性所发挥的作用,研究人员分析了ENCODE项目所开展的286项ChIP-seq实验。与之前的研究相一致的是,他们发现DNase可访问性能够解释很多转录因子的细胞类型特异性结合。不过根据他们建立的模型,他们还发现10个转录因子拥有显著性的细胞类型特异性的结合模式,4个转录因子表现出显著不同的细胞类型特异性的DNA序列偏好性。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.127712.111" target="_blank">10.1101/gr.127712.111</a>)
<br/><strong>25. 119个人转录因子结合的基因组区域附近的序列特征和染色质结构
</strong><br/>
通过对ENCODE项目在研究119个人转录因子时所获得的大约457个ChIP-seq数据集进行整合分析,研究人员在大多数数据集中鉴定出高度富集的序列基序,揭示出新的基序和验证已知的基序。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.139105.112" target="_blank">10.1101/gr.139105.112</a>)
<br/><strong>26. 分析人lncRNA的基因结构、进化和表达</strong><br/>
研究人员分析了迄今为止最为完整的由GENCODE项目产生的人lncRNA标注:人工标注了产生14990个RNA转录本的9277个基因。他们的分析结果表明lncRNA是通过类似于蛋白编码基因的转录途径而被产生的。而且通过在多种人器官和大脑区域所开展的lncRNA综合性表达分析,他们发现相对于蛋白编码的基因,lncRNA通常较低地表达。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.132159.111" target="_blank">10.1101/gr.132159.111</a>)
<br/><strong>27. 染色质信号存在广泛的异质性</strong><br/>
在许多种细胞系中,研究人员将14个染色质信号(12个染色质标记、DNase和核小体定位)与119个DNA结合蛋白的结合位点相关联在一起。他们开发出一种被称作CAGT(Clustered AGgregation Tool)的方法来解释染色质标记在信号强度、形状和隐性链定位上的异质性。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.136366.111" target="_blank">10.1101/gr.136366.111</a>)
<br/><strong>28. 对转录因子结合数据进行整合分析来理解转录调节</strong><br/>
利用对ENCODE项目产生的大量数据进行统计学模型分析来研究转录因子的转录调节。研究结果揭示不同技术和RNA抽提实验程序所捕获的转录起始位点在表达水平的预测准确度上存在显著性的差异。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.136838.111" target="_blank">10.1101/gr.136838.111</a>)
<br/><strong>29. CTCF结合的广泛可变性与DNA甲基化相关联</strong><br/>
CTCF是一个广泛表达的调节因子。研究人员通过研究19项不同人细胞类型的ChIP-seq数据来分析CTCF的全基因组结合模式。他们观察到高度重复性的但同时可变性非常大的基因组结合全景图,表明着CTCF结合受到高度细胞选择性的调节。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.136101.111" target="_blank">10.1101/gr.136101.111</a>)
<br/><strong>30. 细胞HepG2中高度整合的转录因子PPARGC1A结合网络</strong><br/>
PPARGC1A是一个转录共激活因子。它结合并共同激活多种转录因子来调节大多数基因的表达。在这项研究中,研究人员在经过毛喉素(forskolin)处理的HepG2细胞中描述了一种核心的PPARGC1A转录调节网络。他们利用ChIP-seq首次描绘了PPARGC1A的全基因组结合位点,并且揭示出过多表达的对应于已知和新的PPARGC1A网络成员的DNA序列基序。他们然后利用ChIP-seq构建出6个位点特异性的转录因子结合伴侣的基因表达谱。重要的是,他们发现不同的转录因子组合结合到一套不同的功能性基因上,从而有助于揭示代谢性过程和其他细胞过程的组合性调节代码。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.127761.111" target="_blank">10.1101/gr.127761.111</a>)
<br/>来源:生物谷
</p>
<br/><strong>16. 细胞内RNA深度测序证实大多数RNA进行共转录剪接</strong><br/>
研究人员分析了K562细胞系中通过RNA-seq测序而获得的细胞内RNA组分。他们发现在人基因组中,RNA剪接主要是在转录期间完成的。通过引入coSI 测量方法,他们证实在细胞质polyA+ RNA中,剪接几乎完全完成。因此,大多数RNA在被转录的同时进行剪接,即共转录剪接。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.134445.111" target="_blank">10.1101/gr.134445.111</a>)<!--more-->
<br/><strong>17. 发现上百个小鼠和人剪接来源的<a href="http://www.bioon.com.cn/reagent/list.asp?sortid=20" target="_blank">miRNA</a></strong><br/>
非典型的miRNA模板并不适合经常用来标注典型miRNA的策略。通过对737个小鼠和人类小RNA数据集进行大规模分析,研究人员采取严格且保守性的策略对237个小鼠剪接来源miRNA(splicing-derived miRNAs, mirtrons)和240个人mirtrons进行标注。在哺乳动物中,这些mirtrons可以分为三类:常规性的mirtrons、5'加尾mirtrons和3'加尾mirtrons。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.133553.111" target="_blank">10.1101/gr.133553.111</a>)
<br/><strong>18. GENCODE:ENCODE项目的人基因组参照标注</strong><br/>
GENCODE项目旨在利用计算分析、人工标注和实验验证来鉴定出人基因组中所有的基因特征。GENCODE第七版(GENCODE v7)公开发布了基因组标注数据集,包含了20687个蛋白编码的RNA基因座位、9640个长链非编码RNA基因座位,并且拥有33977个在UCSC基因数据库和RefSeq数据库中不存在的编码性转录本。它还对公开获得的长链非编码RNA(long noncoding RNA, lncRNA)进行最全面的标注。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.135350.111" target="_blank">10.1101/gr.135350.111</a>)
<br/><strong>19. 发现人基因组中疾病相关的功能性SNP</strong><br/>
研究人员系统性地研究了多种类型的ENCODE数据与疾病相关基因SNP(single nucleotide polymorphism, 即单核苷酸多态性)之间的关联性,并且发现在当前鉴定出的疾病关联当中,存在功能性SNP的显著性富集。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.136127.111" target="_blank">10.1101/gr.136127.111</a>)
<br/><strong>20. 在两种人细胞系中,lncRNA很少表达</strong><br/>
ENCODE项目发现被鉴定为lncRNA的9640多个人基因组位点中,迄今为止只有大约100个得到深入的研究以便确定它们在细胞中的作用。通过共同分析ENCODE项目最近产生的两个数据集:将表达的肽链映射到它们的编码性基因组位点的串联<a href="http://www.bioon.com.cn/product/list.asp?sortid=37">质谱</a>数据;ENCODE在细胞系K562和GM12878中对长polyA+和polyA-组分进行RNA-seq测序产生的数据,研究人员利用机器学习方法RuleFit3将肽链数据与RNA表达数据对应起来。他们发现大约92%的GENCODE v7发布的lncRNA在这两种细胞系中并不表达。除极少例外,核糖体能够区分编码性RNA转录本和非编码性RNA转录本,因而在lncRNA组(lncRNAome)中,异位表达和隐性mRNA都是罕见的。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.134767.111">10.1101/gr.134767.111</a>)
<br/><strong>21. 关于个人和群体的基因组调节性序列变异的基因组学</strong><br/>
为了更好地界定人基因组调节性序列变异的模式,研究人员选择了来自不同地理位置的53个人的全基因组序列,将他们的138个细胞和组织类型的DNase I超敏感位点(DNase I hypersensitive sites, DHSs)标记的全基因组调节性DNA序列图谱结合起来。研究人员估计相比于蛋白编码的DNA序列,每个人可能拥有很多更加具有功能重要性的调节性DNA序列变异体,尽管平均而言,它们可能产生更加小的影响。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.134890.111" target="_blank">10.1101/gr.134890.111</a>)
<br/><strong>22. 利用开放构象染色质区域来预测细胞类型特异性的基因表达</strong><br/>
研究人员利用来自19项不同的人细胞类型的DNase-seq数据来鉴定全基因组范围的近端和远端调节性序列元件。通过匹配表达数据,他们将基因分为三类:细胞特异性的上调表达的基因、细胞特异性的下调表达的基因和组成性表达的基因。总之,他们成功地利用开放构象染色质的信息来解决利用调节性序列直接预测哺乳动物细胞特异性表达时存在的问题。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.135129.111" target="_blank">10.1101/gr.135129.111</a>)
<br/><strong>23. 探究ENCODE人RNA-seq数据中的RNA编辑</strong><br/>
研究人员分析了来自ENCODE项目对14个人细胞系开展研究所获得的长串RNA-seq数据(这些数据经过PolyA选择,没有形成双链,且经过深度测序)以便鉴定出潜在的RNA编辑事件。他们发现RNA编辑和特异性的基因之间存在较强的关联。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.134957.111" target="_blank">10.1101/gr.134957.111</a>)
<br/><strong>24. 细胞类型特异性的转录因子结合的序列和染色质决定簇</strong><br/>
为了研究DNA序列信号、组蛋白修饰和DNase对细胞类型特异性的结合位点的可访问性所发挥的作用,研究人员分析了ENCODE项目所开展的286项ChIP-seq实验。与之前的研究相一致的是,他们发现DNase可访问性能够解释很多转录因子的细胞类型特异性结合。不过根据他们建立的模型,他们还发现10个转录因子拥有显著性的细胞类型特异性的结合模式,4个转录因子表现出显著不同的细胞类型特异性的DNA序列偏好性。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.127712.111" target="_blank">10.1101/gr.127712.111</a>)
<br/><strong>25. 119个人转录因子结合的基因组区域附近的序列特征和染色质结构
</strong><br/>
通过对ENCODE项目在研究119个人转录因子时所获得的大约457个ChIP-seq数据集进行整合分析,研究人员在大多数数据集中鉴定出高度富集的序列基序,揭示出新的基序和验证已知的基序。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.139105.112" target="_blank">10.1101/gr.139105.112</a>)
<br/><strong>26. 分析人lncRNA的基因结构、进化和表达</strong><br/>
研究人员分析了迄今为止最为完整的由GENCODE项目产生的人lncRNA标注:人工标注了产生14990个RNA转录本的9277个基因。他们的分析结果表明lncRNA是通过类似于蛋白编码基因的转录途径而被产生的。而且通过在多种人器官和大脑区域所开展的lncRNA综合性表达分析,他们发现相对于蛋白编码的基因,lncRNA通常较低地表达。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.132159.111" target="_blank">10.1101/gr.132159.111</a>)
<br/><strong>27. 染色质信号存在广泛的异质性</strong><br/>
在许多种细胞系中,研究人员将14个染色质信号(12个染色质标记、DNase和核小体定位)与119个DNA结合蛋白的结合位点相关联在一起。他们开发出一种被称作CAGT(Clustered AGgregation Tool)的方法来解释染色质标记在信号强度、形状和隐性链定位上的异质性。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.136366.111" target="_blank">10.1101/gr.136366.111</a>)
<br/><strong>28. 对转录因子结合数据进行整合分析来理解转录调节</strong><br/>
利用对ENCODE项目产生的大量数据进行统计学模型分析来研究转录因子的转录调节。研究结果揭示不同技术和RNA抽提实验程序所捕获的转录起始位点在表达水平的预测准确度上存在显著性的差异。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.136838.111" target="_blank">10.1101/gr.136838.111</a>)
<br/><strong>29. CTCF结合的广泛可变性与DNA甲基化相关联</strong><br/>
CTCF是一个广泛表达的调节因子。研究人员通过研究19项不同人细胞类型的ChIP-seq数据来分析CTCF的全基因组结合模式。他们观察到高度重复性的但同时可变性非常大的基因组结合全景图,表明着CTCF结合受到高度细胞选择性的调节。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.136101.111" target="_blank">10.1101/gr.136101.111</a>)
<br/><strong>30. 细胞HepG2中高度整合的转录因子PPARGC1A结合网络</strong><br/>
PPARGC1A是一个转录共激活因子。它结合并共同激活多种转录因子来调节大多数基因的表达。在这项研究中,研究人员在经过毛喉素(forskolin)处理的HepG2细胞中描述了一种核心的PPARGC1A转录调节网络。他们利用ChIP-seq首次描绘了PPARGC1A的全基因组结合位点,并且揭示出过多表达的对应于已知和新的PPARGC1A网络成员的DNA序列基序。他们然后利用ChIP-seq构建出6个位点特异性的转录因子结合伴侣的基因表达谱。重要的是,他们发现不同的转录因子组合结合到一套不同的功能性基因上,从而有助于揭示代谢性过程和其他细胞过程的组合性调节代码。<<<参见原文(<a title="" href="http://dx.doi.org/10.1101/gr.127761.111" target="_blank">10.1101/gr.127761.111</a>)
<br/>来源:生物谷
还没有人评论,赶快抢个沙发