推荐活动

李亦学的科研数据共享之梦:莫让数据封闭 “锁”住创新

首页 » 1970-01-01 转化医学网 赞(6)
分享: 
导读
             上海生物信息技术研究中心主任李亦学的“科研数据共享之梦”已做了13年。但在昨天举行的首届金桥产业技术创新会议上,当记者向他问及相关进展时,听到的却是一声叹息。   13年前,“大数据”尚未被任何字典收录,而今却被公认是全球生命科学研究的核...
      

      上海生物信息技术研究中心主任李亦学的“科研数据共享之梦”已做了13年。但在昨天举行的首届金桥产业技术创新会议上,当记者向他问及相关进展时,听到的却是一声叹息。

  13年前,“大数据”尚未被任何字典收录,而今却被公认是全球生命科学研究的核心工具。李亦学告诉记者,科研数据难以共享已成为国内生命科学研究的一大障碍;而在大数据时代,其负面效应还可能被继续放大。

  李亦学透露,国内一批院士和重量级专家正在起草一份报告,建议国家借鉴美国、欧洲、日本等的做法,建立国家级生命科学数据库,从而打破共享瓶颈。作为该调研报告的参与人,李亦学表示,在技术上,共享“不存在任何障碍”,国家应尽早落子布局。

  一辈子的难题,几个月解决

  在生命科学领域引入大数据工具,将给研究带来极大便利。科学家用传统方法可能要花一辈子才能解决的难题,大数据可能只要几个月就能找到答案。

  一个典型案例是“腓骨肌萎缩症(CMT)”的研究。这是一种常见的遗传性神经系统疾病,患者最初会感到四肢无力,随后逐步恶化,最终可能终身离不开轮椅。

  CMT早就被认为与基因突变有关,但全球科学家寻找致病基因花了20多年,始终不得要领。不过就在两三年前,美国一个小组对一位CMT病人连同他的10多位亲属进行全基因组测序,随后对所获得的数百GB的数据进行了“简单的比对分析”,很快就精确定位了那条致病基因和发生突变的位点。

  李亦学表示,能够获得和整合数据,然后再进行快速和精准的分析,已成为生命科学研究的关键。目前,中国已成为世界领先的不断产生生物学与生物医学大数据的国家。然而,中国生命科学的数据共享却与发达国家差距巨大。他判断说,国内课题组之间的数据共享一直是一个“小概率事件”。

  李亦学13年前回国,曾经的理想是建立具有国家权威的公益性的生命科学数据中心,推动国内的生命科学研究数据共享。但迄今进展不大,这让他无比遗憾。

  只给看论文,无法看数据

  美国是生命科学大数据产出和应用的领先者,不仅数据量和分析技术领先,而且在数据共享方面也是如此。

  李亦学告诉记者,美国国立生物技术信息中心(NCBI)存储了分子生物学、生物化学、遗传学领域的海量数据,一大批计算机专家和生物学家维护着这个庞大的数据库和自动分析系统。这个平台对支撑起美国在生命科学领域的地位至关重要。NCBI的数据是科学家无偿提供的。根据规定,美国科学家要想拿到政府经费,必须在申请课题时就承诺在课题完成后,将详细的研究数据提供给NCBI;如果违背承诺,这名研究者将被列入黑名单,可能再也无法得到资助。这是NCBI获得大量数据的根本保证。

  李亦学说,国内的政府科研项目一直没有强制性的数据公开和共享要求。生命科学的数据零散地掌握在各个科研单位和研究小组内部,对国家的科研投入来说,这是一种巨大的浪费。

  据了解,在我国,这样的现象时有发生:国家向某个重大研究课题投入巨资,支持其从基因组层面研究若干重要的遗传疾病。最终,虽然该研究发表了一系列高水平论文,但却从未将详细数据公开。

  李亦学认为,这样的研究本可以整体提升中国相关领域学术水平,但“只给看论文、无法看数据”的做法,极大限制了国家级课题的带动效应。

  科研数据要当成战略资源

  最近,国内一批院士和重量级专家正联名起草一份调研报告,希望能在国内也建立一个类似NCBI的国家级生命科学数据库。这份报告将在今年完成并提交。

  最让专家们揪心的,不仅是数据不共享将给国家创新体系带来损失,更在于“如果有一天,NCBI不再与中国科学家共享数据,我们怎么办?”

  NCBI向全球免费提供数据。李亦学说,目前,所有的访问量中,来自中国科学家的占了相当大的份额。一旦NCBI向中国关上大门,一些院士的判断是:“中国生命科学研究可能倒退20年。”

  在大数据时代,数据就如石油一般,是国家的战略资源。李亦学认为,正因为如此,必须由国家出面,建立科研数据共享的机制和环境。而目前,哪怕政府对所资助的课题提出数据共享的强制性要求,科学家也不知道该去哪儿共享。

  在生命科学领域,国际学术界有一个不成文的规定:要想在顶级刊物发表论文,科学家必须共享其实验数据,而且大都必须将数据递交到NCBI的数据库体系。李亦学说,因此,在NCBI的数据库,由中国科学家提供的数据占了不小比例。这种“国内数据、国外整合”的做法不合理,但也表明在国内推动数据共享存在可操作性。

  根据调研,在我国建立国家级的公益性生命科学数据平台也许需要数亿元的年度预算,以建立一个海量科学数据存储和计算服务的软硬件架构,以及维持一支高水平的研发和服务团队。但一旦建立起来,这个平台的回报以及潜在的社会经济效益,“无论怎样估计都不会过分”。



来源:文汇报

评论:
评 论
共有 0 条评论

    还没有人评论,赶快抢个沙发

相关阅读