陈润生院士:生物大数据的核心是基因组数据
导读 | 在2014年9月26日举行的生物大数据战略研讨会上,中国科学院生物物理研究所陈润生院士发表了精彩演讲。他从自己的研究工作出发,探讨了大数据的重要性及其所能带来的创新。 |
在2014年9月26日举行的生物大数据战略研讨会上,中国科学院生物物理研究所陈润生院士发表了精彩演讲。他从自己的研究工作出发,探讨了大数据的重要性及其所能带来的创新。其报告内容整理如下:
生物大数据最核心的部分是组学数据,而组学数据中最基础的数据是基因组数据,有了近年的基因组研究才派生出蛋白质组、代谢组、生物网络,也正是因为基因组的研究,才使得生物大数据实实在在地成为了大数据。研究大数据的目的是发现新的生物学规律,并为工业生产、医疗实践提供更好的依据。
一、大数据背后的重大创新机会:基因组中的暗物质--非编码核酸
在人的遗传码3×109次方里面,编码蛋白质的传统基因只占3%,另外97%所蕴含的重大规律迄今为止还没有被发现。2012年12月17日的《科学》在评价人类进入21世纪科学进展的时候,提出了自然科学领域的十大突破,第一个就是基因组当中的暗物质。这些暗物质所蕴含的规律被揭示的同时将会给实际应用带来无数创新的机会。
基因组这些大量的未知非编码序列是转录的,有信号产生。进一步研究发现这些转录出来的非编码RNA具有非常重要的功能。如:调控女性一条X染色体失活以使男性和女性伴随X染色体转录的基因拷贝数保持一致的元件是一个长链非编码RNA(XIST);长链非编码RNA PCGEM1可引发前列腺癌;长链非编码RNA MALAT-1可引发非小细胞肺癌;长链非编码RNA H19可通过调控使癌变细胞凋亡,从而抑制肿瘤的进展。
所以,非编码核酸为科研的创新提供了非常广阔的空间,是生物大数据研究的重要源泉。这类大数据的破解不仅可为基础研究增添理论基础,也同时为疾病的诊断和治疗,为全新的药物设计和研发,为动植物新品种、新性状的培育都提供了全新的探索方向。
二、大数据研究当中的困难
(1) 大数据的特点是数据量大,现在获取的组学数据只有一部分得到了较充分的分析,需要建立新方法对海量大数据的信息进行解读。
(2) 提供大数据的样本量小。比如肿瘤的采样,极少上万。同时,有效事件的频率很低,如:与某一疾病相关的基因可能有很多个,具体到某一个基因的变化可能频率很低。这些动态低频事件是大数据研究中的极大障碍。
(3) 大数据的研究缺乏背景知识。大数据分析时,缺少基本知识作为依托,使得分析手段的构建也不够准确和客观。因此,大数据的处理不仅是数学问题、信息科学问题,也包含物理学的问题,从而要求多领域的科学家共同参与。
(4) 传统的系统生物学相互作用网络元件是蛋白质,非编码领域研究发展所产生的大数据将是由蛋白和大量RNA组成的动态、有向且更为复杂的网络。这种复杂性将成为系统生物学网络的新属性。
综上,大数据为我们提供了重大创新机会,同时要求我们从理论基础上进行重大变革,这样才有机会在大数据时代做出全新的成果,为医疗实践和工农业生产创造更多价值和机会。(转化医学网360zhyx.com)
本文系转化医学网原创文章,欢迎转载!转载请注明来源并附原文链接。谢谢!
还没有人评论,赶快抢个沙发