生物信息大数据:挑战重重,机遇无限
导读 | 如今,生命科学领域的科学家们正在以前所未有的状态生产、积累与储存信息。 |
如今,生命科学领域的科学家们正在以前所未有的状态生产、积累与储存信息。数据产出已达到艾字节水平(exabytes,计算机存储容量单位 ,合260B),同时,生物信息学所面临的各种问题也变得越来越不容忽视。我们可以用这些数据做些什么?我们应该怎样分析这些数据?我们到底应该怎样理解它们?
这些问题的答案对于科研、诊断技术与医疗产品研发来说都是至关重要的,生物信息学正切实渗透着精密医学在各个水平上的全部组成部分。这因如此,GEN向几位大数据领域的专家咨询了上述问题,专家们提供了一个个令人信服的宏观与微观解答,为科研人员与产品经理人提供了有效可行的生物大数据处理与分析之道。
GEN:众所周知,不论是学术还是产业,制药领域与生命科学领域的研究人员通常都会被他们所生产和收集的大量数据所淹没,你们认为科学家们实施具体策略成功处理及分析大数据所面临的主要障碍是什么?
Dr. Asimenos:在实现大数据真正潜力的道路上,数据收集往往成为科学家们所面临的主要障碍。从产业角度上来说,通过NGS技术收集数据往往具有产业可行性。也正是因为如此,数据收集往往成为科研机构所面临的主要问题,科研机构往往需要加强与专业测序机构的合作来做出学术上的突破。
释放大数据潜力的关键在于建立NGS测序结果的有效获取机制(如云端共享),一个研究人员可访问、共享数据以及建立多种合作的中央数据存储库对于释放大数据潜力至关重要。
在数据规模不断扩大的同时,研究人员对于科研结果的共享与建立研究合作便愈加困难,通过建立一个具体的共享数据库,全球研究机构便可有效访问和使用大量的数据信息。
Dr. Stadnisky:对于实现大数据战略来说,时间往往作为一个主要障碍。成功的团队往往也更加专注于这个关键限制,立足于证明耗时作业与数据保存的真正价值。
在这种情况下,制定生物大数据的注释与解读策略变显得至关重要,这些年来,越来越多的信息与生命科学领域专家开始思考如何更加有效地处理信息并制定信息的有效保存形式。对于这类问题,对于元数据与信息注释的理解与数据本身便显得同等重要。
其次,测量模式集成构架的设计与建立对在有限实验条件下探索新的数据工具也具有十分重要的作用。
Mr. Rudy:简而言之,主要障碍是统一标准的缺失以及基于这些标准的商用流线分析解决方案。生物信息学算法、参考数据库以及一系列用于生物信息学作业的技术工具在研究人员的推动下快速发展,这种情况下,建立统一标准便显得迫在眉睫。
生物信息学作业过程中,校准与调试不易同步,这种情况下,Illumina与Ion Torrent公司向客户一并提供打包服务,达到了生物信息学服务商的较高要求。
Dr. Shon:科学家们通常希望利用已有经验和知识在新的领域开展工作,在生物信息学数据库变得日益庞大和复杂的同时,科学家们便必须学习与积累新的知识和经验。
目前,大多数组织机构越来越致力于开放共享数据库,但在建立标准化过程、统一标准以及简单有效的数据工具之前,元数据、数据收集结果以及数据本身的分享都处于一种极为低效的状态。充分评估既有实验结果的能力促进着研究人员正确分析数据库的实际效用与通过数据库验证具体问题。对于更大的组织机构以及生物信息学行业整体来说,信息与生命科学家要想站在其他领域科学家的肩膀上,加大过程与技术工具的开发投资是至关重要的。
Dr. Hoefkens:在生命科学领域的各种研究中,获取数据的快捷简单方式往往成为科学家们能够成功分析生命科学大数据的关键所在。如果大多数科学家不能轻松有效地访问相关数据库,实现数据整合与知识创新的目标就会变的举步维艰。
目前,生命科学科研机构的数据产出正以多种方式急剧上升,丰富的信息越来越多的储存在内部数据库和公共数据存储库中。科学家攫取数据潜在价值的能力往往受到数据库访问及数据搜索能力的限制。另外,一致元数据和语义映射标准的缺失使得不同来源数据整合的具体作业变得更加复杂。
Dr. Davis-Dusenbery:当我们为拥有最大的公共数据库的NCI(National Cancer Institute)癌症基因组学云试点工作时,对于克服大规模数据分析低效我们主要有以下四条指导原则:
数据应该是可用的,而不仅仅是可获取的:科学家需要技术工具来帮助他们快速找到正确的原始数据,科学家不仅需要辨别相关信息,他们更需要认识哪些数据已经得到处理。
最好的科学研究往往源于团队合作:帮助主要调查人员、分析师和工具开发人员并行所有的工作。
大数据体量巨大,数据再现并不困难:科学家需要开发信息技术系统自动跟踪与分析每一组数据。
新数据和新工具共同扩展数据科学的影响与作用:在整个数据库的分析工作中,不断开发更新更简易的数据分析工具。
Dr. Greene:根据我们的经验,最大的障碍往往是研究人员不能充分考虑到他们所面对数据库的巨大体量与复杂性。合理解决这些问题通常需要较大的资金与时间成本,长期回报也通常十分可观。举例来说,生物信息学计算系统(BRICS)的研究与开发就具有诸如此类的长期利益。
作为由NIH信息技术中心牵头的项目,BRICS体现了模块化与基于网络的数据作业方式。
Mr. King:今天,生命科学大数据的发展限制并不能完全归咎于获取数据的困难,大量数据的管理、联系以及价值提取在数据科学中往往更加重要,数据管理系统在数据辅助决策中具有不可或缺的必要性。
对于生命科学公司来说,数据获取过程的时效性不容忽视。他们需要这些数据来帮助客户做出各种实时决策,而不是仅仅是回溯性研究。通过提供预测性的意见,这类公司往往更够对如今的社会产生最大化的影像。
现在,大多数生物信息学服务公司并没有汇总所有数据并提供数据分析的技术工具,现今数据分析工具更加需要通过机器学习来辅助与指导决策,抓住来自于广阔医疗市场的无限机会。科学家们所需要的是能够提供探索和使用数据能力以及过滤、可视并能整合现有系统中各种数据的强大技术工具。
(转化医学网360zhyx.com)本文是转化医学网原创内容,转载请点击获取授权
还没有人评论,赶快抢个沙发