两篇论文登上顶刊,它们凭啥玩转“更”大数据?
导读 | 2020年3月,海军军医大学长海医院、美国华盛顿大学等在Nature发文,揭示了全球首份中国前列腺癌大数据图谱。2021年8月,河北农业大学在Nature Genetics发文,破译了陆地棉和海岛棉的结构变异图谱。 |
两篇顶刊论文涉及的领域截然不同,但有一个共同特点:联合多个组学“多管齐下”,把疾病、作物等研究对象剖析得空前清晰,为精准医疗、精准育种等提供了重要指南。
今天,科学研究正在从big data走向bigger data。诸如多组学等新的研究方法为很多过去无法解答的复杂问题打开了一扇大门,但急剧增加的海量数据也给科研人员带来新的难题。
怎么破?这两项重要成果的诞生经历,或许能带来一些启迪。
棉花育种“多维地图”登上Nature子刊
2021年8月,河北农业大学马峙英教授团队在国际著名期刊Nature Genetics上发表研究:现代棉花品种高质量基因组组装及重测序分析为作物改良提供了新资源。诺禾致源研发合作中心首席科学家田仕林为该文共同通讯作者,信息技术副总监姜亚菲为共同第一作者。
研究棉花近40年后,马峙英希望绘制一幅棉花育种的“多维地图”,让全世界的同行都可以拿着这幅地图,去寻找自己中意的宝藏。
这可是个难题。因为除了遗传信息,转录翻译中的各种调控、遗传物质的后天修饰、时刻进行的新陈代谢,都能影响棉花最终呈现的状态。
马峙英团队找到合作多年的诺禾致源,利用该公司的技术、平台和服务,开展了基因组从头测序(De novo)、群体重测序、转录组、表型组等一系列多组学设计和生物信息学研究,获得了一系列成果:
首次组装了现代陆地棉、海岛棉各一个优质品种的基因组,绘制出它们的结构变异图谱,发现了三万多个影响棉花重要性状的变异—基因对,找到了数百个与棉纤维品质、产量、黄萎病抗性等显著关联的结构变异。棉花的基因组可以分为A亚组和D亚组,研究人员发现纤维品质和黄萎病抗性的变异主要位于D亚组,而产量性状的变异主要位于A亚组……
这篇论文中公布的海量数据,可以支持世界各地的科研人员继续开展进一步研究,对棉花以外的其他作物育种研究也有借鉴意义。
这项成果的取得,在一定程度上得益于科学家和生物技术公司之间的默契合作。
“我告诉他们我想解决什么科学问题,他们就会帮我想技术上的解决方案。有时候这个方案一时拿不出,我们就一起讨论,集思广益。”马峙英说。
“我们不懂棉花,但是我们懂数据。”论文共同通讯作者、诺禾致源研发合作中心首席科学家田仕林说,“在合作中,科学家可以尽情描述自己的科学构想和拟解决的关键问题,而我们尽可能把这些idea和现有的技术、产品关联在一起,制定最适合的解决方案。”
在田仕林看来,论文的学术价值很大一部分在于数据的个性化分析。“数据分析是我们的传统优势,个性化则建立在与科研人员深入的交流沟通上。我们注重与科学家合作,为用户关心的生物学问题找到数据上的证据,同时也通过总结分析来发现新的生物学问题。”
这篇Nature,揭示了中国前列腺癌首份全景图谱
2020年3月25日,国际顶级期刊Nature在线发表了由海军军医大学长海医院泌尿科孙颖浩教授、高旭教授,美国华盛顿大学王艇教授团队联合诺禾致源,共同完成的关于中国前列腺癌人群特有多组学分子特征的最新研究成果。
在此之前,对前列腺癌的研究几乎全部基于西方人群。
但即便是同一种疾病,不同人群表现出的基因变异也是非常不同的。为此,项目团队开启了迄今为止最大规模的中国人群前列腺癌队列研究。
在诺禾致源的平台支持下,研究人员对208名前列腺癌患者的样本,开展了3种组学分析:全基因组、全基因组甲基化、全转录组,仅上机数据量就高达200多T。
这项研究在世界上首次发布了中国前列腺癌的基因组和表观组图谱。有了这些图谱,科学家就知道个体发生的哪些基因突变有可能致癌,哪些人更容易患上这种疾病,也知道从什么地方出发,去寻找预防和精准治疗这些患者的方法。
多组学在医学领域的应用前景无疑令人瞩目。一种疾病的发生,从某个基因的变化到身体状态的改变,中间经历了非常复杂的过程。从任何单一组学入手研究,都像盲人摸象一样,只能摸到一条腿、一只耳朵,或者一根尾巴。
而多组学方法就像把这些“盲人”的描述汇集起来,告诉一位高明的画家,让他尽力画出最接近现实的“大象”。
听起来很简单,做起来却很难。单一组学的数据已经很多了,多组学的数据更是成倍数增长。
“当我们关注中国前列腺癌患者的基因变异时,会发现定位到的差异基因非常非常多,这时候就需要筛选出真正有意义的基因。多组学的研究方法,会在不同层面上给我们提供筛选的依据和线索。最后我们得到的结果越来越精细,越来越聚焦,一步一步地,帮助科学家接近这个疾病机理的真相。”田仕林说。
多种组学联合,是透过现象认识本质、揭示生命体运行机制的有效手段。
不同层面的组学梦幻联动,科学家可以:
根据基因组学了解生物体内可能发生的事件
通过转录组、甲基化等了解正在发生的事件
通过蛋白组了解已经发生的结果
通过代谢组进一步确认这些结果
……
从而更全面、更可靠地解释生物学问题,挖掘生命体最隐秘的因果关系。
动植物研究、分子育种、微生物代谢、基础医学、临床研究、药物研发……越来越多的科研工作者开始青睐这个研究利器。
这个11月,诺禾致源将举办“多组”多姿—多组学系列城市峰会,为广大科学研究者带来一场以多组学技术为主题的科学盛宴。
在这里,你可以了解到更多更新的多组学研究成功案例。
也可以和学术大牛,业内同行交流问题心得。
也可以向企业提出自己的困惑和需求,大家一起探讨,或许并没有那么难以解决。
会议分三场,分别在北京(线上)、广州、上海举行。
今天,科学研究正在从big data走向bigger data。诸如多组学等新的研究方法为很多过去无法解答的复杂问题打开了一扇大门,但急剧增加的海量数据也给科研人员带来新的难题。
怎么破?这两项重要成果的诞生经历,或许能带来一些启迪。
棉花育种“多维地图”登上Nature子刊
2021年8月,河北农业大学马峙英教授团队在国际著名期刊Nature Genetics上发表研究:现代棉花品种高质量基因组组装及重测序分析为作物改良提供了新资源。诺禾致源研发合作中心首席科学家田仕林为该文共同通讯作者,信息技术副总监姜亚菲为共同第一作者。
研究棉花近40年后,马峙英希望绘制一幅棉花育种的“多维地图”,让全世界的同行都可以拿着这幅地图,去寻找自己中意的宝藏。
这可是个难题。因为除了遗传信息,转录翻译中的各种调控、遗传物质的后天修饰、时刻进行的新陈代谢,都能影响棉花最终呈现的状态。
马峙英团队找到合作多年的诺禾致源,利用该公司的技术、平台和服务,开展了基因组从头测序(De novo)、群体重测序、转录组、表型组等一系列多组学设计和生物信息学研究,获得了一系列成果:
首次组装了现代陆地棉、海岛棉各一个优质品种的基因组,绘制出它们的结构变异图谱,发现了三万多个影响棉花重要性状的变异—基因对,找到了数百个与棉纤维品质、产量、黄萎病抗性等显著关联的结构变异。棉花的基因组可以分为A亚组和D亚组,研究人员发现纤维品质和黄萎病抗性的变异主要位于D亚组,而产量性状的变异主要位于A亚组……
这篇论文中公布的海量数据,可以支持世界各地的科研人员继续开展进一步研究,对棉花以外的其他作物育种研究也有借鉴意义。
这项成果的取得,在一定程度上得益于科学家和生物技术公司之间的默契合作。
“我告诉他们我想解决什么科学问题,他们就会帮我想技术上的解决方案。有时候这个方案一时拿不出,我们就一起讨论,集思广益。”马峙英说。
“我们不懂棉花,但是我们懂数据。”论文共同通讯作者、诺禾致源研发合作中心首席科学家田仕林说,“在合作中,科学家可以尽情描述自己的科学构想和拟解决的关键问题,而我们尽可能把这些idea和现有的技术、产品关联在一起,制定最适合的解决方案。”
在田仕林看来,论文的学术价值很大一部分在于数据的个性化分析。“数据分析是我们的传统优势,个性化则建立在与科研人员深入的交流沟通上。我们注重与科学家合作,为用户关心的生物学问题找到数据上的证据,同时也通过总结分析来发现新的生物学问题。”
这篇Nature,揭示了中国前列腺癌首份全景图谱
2020年3月25日,国际顶级期刊Nature在线发表了由海军军医大学长海医院泌尿科孙颖浩教授、高旭教授,美国华盛顿大学王艇教授团队联合诺禾致源,共同完成的关于中国前列腺癌人群特有多组学分子特征的最新研究成果。
在此之前,对前列腺癌的研究几乎全部基于西方人群。
但即便是同一种疾病,不同人群表现出的基因变异也是非常不同的。为此,项目团队开启了迄今为止最大规模的中国人群前列腺癌队列研究。
在诺禾致源的平台支持下,研究人员对208名前列腺癌患者的样本,开展了3种组学分析:全基因组、全基因组甲基化、全转录组,仅上机数据量就高达200多T。
这项研究在世界上首次发布了中国前列腺癌的基因组和表观组图谱。有了这些图谱,科学家就知道个体发生的哪些基因突变有可能致癌,哪些人更容易患上这种疾病,也知道从什么地方出发,去寻找预防和精准治疗这些患者的方法。
多组学在医学领域的应用前景无疑令人瞩目。一种疾病的发生,从某个基因的变化到身体状态的改变,中间经历了非常复杂的过程。从任何单一组学入手研究,都像盲人摸象一样,只能摸到一条腿、一只耳朵,或者一根尾巴。
而多组学方法就像把这些“盲人”的描述汇集起来,告诉一位高明的画家,让他尽力画出最接近现实的“大象”。
听起来很简单,做起来却很难。单一组学的数据已经很多了,多组学的数据更是成倍数增长。
“当我们关注中国前列腺癌患者的基因变异时,会发现定位到的差异基因非常非常多,这时候就需要筛选出真正有意义的基因。多组学的研究方法,会在不同层面上给我们提供筛选的依据和线索。最后我们得到的结果越来越精细,越来越聚焦,一步一步地,帮助科学家接近这个疾病机理的真相。”田仕林说。
11月,“多组”多姿—多组学系列城市峰会正式开启
基因组、转录组、蛋白组、表观组、代谢组……多种组学联合,是透过现象认识本质、揭示生命体运行机制的有效手段。
不同层面的组学梦幻联动,科学家可以:
根据基因组学了解生物体内可能发生的事件
通过转录组、甲基化等了解正在发生的事件
通过蛋白组了解已经发生的结果
通过代谢组进一步确认这些结果
……
从而更全面、更可靠地解释生物学问题,挖掘生命体最隐秘的因果关系。
动植物研究、分子育种、微生物代谢、基础医学、临床研究、药物研发……越来越多的科研工作者开始青睐这个研究利器。
这个11月,诺禾致源将举办“多组”多姿—多组学系列城市峰会,为广大科学研究者带来一场以多组学技术为主题的科学盛宴。
在这里,你可以了解到更多更新的多组学研究成功案例。
也可以和学术大牛,业内同行交流问题心得。
也可以向企业提出自己的困惑和需求,大家一起探讨,或许并没有那么难以解决。
会议分三场,分别在北京(线上)、广州、上海举行。
众多知名大咖到场助阵,畅谈新发现、新体会、新方向。
限量免费报名入口正式启动
还没有人评论,赶快抢个沙发