推荐活动

人类蛋白质组计划:长风破浪在此时

首页 » 产业 » 杂谈 2014-10-02 科学网薛宇 赞(2)
分享: 
导读
话说很多人对咱生物信息学领域有俩疑问:1) 你们跟华大有啥区别?2) 华大搞测序,但测序仪是国外买的,这有啥技术含量啊?这事儿甭说各位有疑问,我也是一直搞的晕晕乎乎,所以后来专门请教了北大那位来自天顶星的教授。要不怎么说外星人就是有水平呢,听完明白了。

  先扯点儿废话。话说很多人对咱生物信息学领域有俩疑问:1) 你们跟华大有啥区别?2) 华大搞测序,但测序仪是国外买的,这有啥技术含量啊?这事儿甭说各位有疑问,我也是一直搞的晕晕乎乎,所以后来专门请教了北大那位来自天顶星的教授。要不怎么说外星人就是有水平呢,听完明白了。第一,咱跟华大那就像是华山派的气宗和剑宗,无非是武学理念不同,还是同气连枝。不过咱跟华山派不一样的地方是,学术观点不同大家也可以和气的谈,犯不上互相砍。你看华山派自己人互相砍来砍去落了啥好处?另外,气宗剑宗也不是绝对的,令狐冲是气宗的弟子不错,可他的剑术那是标准剑宗教出来的不是?第二,二代测序仪不是咱做的,可那是咱最先用起来的。这事儿有证据,华大基因2008年的论文Thediploid genome sequence of an Asian individual,是最早用二代测序做基因组研究并且获得认可的,用的方法就是华大自行研发、后来横扫欧美的SOAP (Short Oligonucleotide AlignmentProgram)算法。这个算法即使对于职业的生物信息学家来说也是极有难度的,所以显然是相当有技术含量。至于华大为啥做不出来测序仪,这个,测序仪这事儿轮得到咱搞生信的来做吗?令狐冲的吸星大法还是日月神教的呢,咱华山派不钻研这个,各干各的事情。
  今年五月Nature上同期刊载了两篇人类蛋白质组的研究工作:
  1.     A draft map of the humanproteome
  2.     Mass-spectrometry-baseddraft of the human proteome
  两篇论文说的其实就一个事儿,就是绘制人类蛋白质组草图。稍后国内也启动了“中国人类蛋白质组计划”。老外的论文一上线,第一时间某兄弟就把论文发过来了,然后打电话过来很声(xi)色(pi)俱(xiao)厉(lian)的警告我:小子别写博客啊,你要写博客我砍了你。我说,既然敢写还怕你砍,你当我吓大的?仔细阅读了这两篇论文,楞是没看出来有啥意义,后来请教蛋白质组领域里的同行,也是给我解释了半天,总之就是这玩意儿很重要,但具体重要在哪儿,为啥中国还要搞这么个项目,没听明白。
  所以咱没搞明白的事情不写,读文献喽。这几个月陆陆续续看了些文献,懂了。首先是2011年MCP上发表了一篇总结并展望性质的论文:The human proteome project:current state and future direction,主要介绍国际人类蛋白质组计划的进展以及未来的方向。论文上来就回答了一个最关键的问题:既然人类基因组已经完成了,为啥还要狂烧纳税人的钞票来做蛋白质组?原因有三个:1) 人类基因组计划注释了~22,000个蛋白质编码基因,其中大约2/3的蛋白质或是功能信息是有限的;2) 约6000 (30%)个基因没有蛋白质水平上的证据支持;3) 即使对于剩下那1/3,许多蛋白质的丰度、分布、细胞亚定位、相互作用和细胞功能也是不清楚的。所以这回能看清楚了不是?基因组再怎么做,分析结果都是存在理论上限的:你也就只能看看信息比较多的~1/3的编码基因,剩下那些功能不清楚的,那在你基因组研究里也就只能当成垃圾数据扔掉。问题是基因组花了那么多纳税人的钱,居然只能看1/3,这不成忽悠了吗?所以基因组是忽悠,还是真的能有意义,其理论上限是由蛋白质信息来决定的。因此蛋白质组的研究是必须的。
  生命科学的研究很复杂,一般都需要多层次、跨尺度的研究,几乎没有从某一个单一层次或者尺度能彻底解决的问题。例如基因组学研究里一个非常重要,并且非常基础的问题是:人类基因组中究竟有多少编码基因?这个问题简单不?一点儿也不简单。当年人类基因组计划开展的时候,所有人都在猜究竟有多少基因,有说10万的,有说5万的。最后人类基因组测完:20,000~25,000左右。完了,一帮顶级的科学家包括诸多炸药奖获得者统统猜错,眼见为实嘛,能猜到还要做啥实验?问题就来了,怎么会是20,000~25,000呢?就没个精确数字?这个真没有。因为人类基因组的编码基因是利用生物信息学软件预测出来的,所有人都知道既然是预测,那就不可能是100%的正确。怎么证明编码基因,最简单的方法是:你能检测到这个基因对应的蛋白质在表达,那就肯定是个编码基因。所以昨晚微博上一个朋友给我推荐了一篇论文:Multiple evidence strandssuggest that there may be as few as 19 000 human protein-coding genes,看的我下巴都快掉下来了:就19,000个基因,这么少?当然这篇论文有那么点儿技术问题,所以结论我不是很相信,但这篇文章结合蛋白质组和基因组数据分析编码基因的思路,倒是相当有前途。
  所以看到这儿,各位肯定不高兴了:你废话那么多,能不能举一个例子说明蛋白质组研究的的确确有重要性?那是显然的,没做功课我好意思跳出来忽悠?话说近期Nature一篇Article论文:Proteogenomiccharacterization of human colon and rectal cancer,报道了蛋白基因组(Proteogenomic)的最新研究进展 (忘记在哪位博主的博文里看到的)。啥叫蛋白基因组?就是把蛋白质组的数据跟基因组的数据结合起来分析。这篇论文结论也挺简单:1) 存在体细胞突变的异构体(Somatic variants),蛋白质表达量显著低。所以体细胞突变显然倾向于影响蛋白质的功能;2) 转录后的mRNA表达水平与蛋白质表达水平关联不大,其中正相关的比例是89%,但如果仅考虑统计显著的结果,则只有32%的关联性。所以仅仅研究转录和转录后是显然不够的,细胞里与功能直接相关的那是蛋白质。因此这篇论文其实是给出了个理论上限:转录后mRNA表达的研究,最多最多只能揭示32%的蛋白质表达变化的情况。所以基因组、转录组研究的理论上限,是蛋白质组来界定的;3) 最近研究很火的一个概念DNA拷贝数异常(Copy number alterations, CNA),大家都说这玩意儿跟功能相关,那么究竟有多相关?在对79个基因的分析中,其中CNA与mRNA显著关联的是67 (85%)个基因,而CNA与蛋白质显著关联的是40个(51%)个基因。也就是说,拷贝数变异主要影响mRNA的表达,但影响蛋白质表达也就占一半。因此这方面的研究,推论显然要谨慎。这篇论文还做了其他的分析,咱就不提了。有意思不?所以蛋白质组的研究显然是必须的、极其重要的。
  最后,不管是基因组学,还是蛋白质组学,这些技术本身的能发挥的科学意义是相当有限的。当然我觉得说这话,咱搞蛋白质组技术研发的学者们肯定不高兴。不过这是事实,因为组学鉴定的目标是生成海量数据,而海量的数据,不等于海量的信息。因此组学研究若希望有高度,其理论上限是由生物信息学分析决定。比方说,现在已经几乎没有哪篇基因组的论文可以不用到生物信息学的方法:没生物信息学那么多数据你咋分析啊?所以组学+生物信息学,这就是研究中的开挂模式,并且一旦成功开挂,基本上就进入无敌模式。中国在蛋白质组领域,有能力、有希望实现类似的开挂模式,并且这是必然的趋势。
  To 领域里的各位同行兄弟:近期看的不少生物信息和组学分析的论文,很多都不再玩单一层次的数据分析,而往往是考虑多层次的数据整合和分析。这并不是个简单的问题,可以需要相当高深的数学模型,这方面中科院数学所已经在做,结果挺有意思。研究范式 (Paradigm) 又要变了。。。(转化医学网360zhyx.com)

评论:
评 论
共有 0 条评论

    还没有人评论,赶快抢个沙发

相关阅读