Nature把王俊称为中国最著名的科学家之一
导读 | 成立于上世纪末的华大基因研究院(BGI),历经十几年的发展,已经成为了中国最大、甚至是亚洲最大的基因组测序和研究基地。从最初的人类基因组项目中国区的工作,到后来的首个水稻基因组、首个熊猫基因组到首个黄种人基因图谱,华大不断发展壮大,取得了非常大的成绩。 |
Nature:中国最著名的科学家之一
《Nature》最近连续两次发文讲述了中国基因组学家王俊的故事,甚至高度赞扬他是“中国最著名的科学家之一”。这样的赞扬非常中肯,在华大创建至今的16年,王俊推动着华大的发展,他带领的团队也取得了非常多的成就。2007年首个黄种人基因组图谱,2008到2012年首个大熊猫基因组、首个黄瓜基因组、首个桑蚕基因组、人类肠道基因组,借助华大强大的测序和分析能力,这些大型项目都在他的领导下完成了。
他领导的国际合作团队还正进行着一项野心勃勃的项目,那就是测序地球上的每一种鸟类的基因组。详细的讨论和论证,华大基因和其他团队正在计划测序1万种脊椎动物的基因组和一万五百种鸟类基因组,而王俊正是这个项目的核心人物。这个项目的工作量之大难以想象。不仅需要很多的测序资源,还需要很多研究人员的通力合作和大量计算机的数据分析,这些都之前的项目所难以企及的。然而BGI的合作者之一Erich Jarvis(杜克大学)提到,“虽然这个项目如此庞大,但是他自信满满,他只说了一句‘那让我们开始放手做吧’。”
王俊还提出了了人类“泛基因组”的概念,在诸多顶级科学杂志上发布论文,可以说他是著作等身。因此称他为“中国最著名的科学家之一”,确实应该是当之无愧的。
王俊-基因-大数据-Al
本站曾在本月17日刊文提到了华大的人事变动,即华大基因集团董事会已同意王俊递交的辞去华大基因集团执行总裁、华大基因研究院院长及华大股份执行总裁职务的申请。这就标志着中国最著名的基因组学家之一的王俊将要结束其在基因组学的研究,开始转入人工智能(Artificial Intelligence)领域。正如华大官网提到的那样,“为配合新形式下战略发展需要,经华大基因董事会决议支持由原华大基因CEO王俊主导组建以人工智能为核心,关注前瞻性业务发展的新业务机构。”
很多研究者都会好奇,39岁的王俊为什么会作出这样的改变。正如Erich Jarvis(杜克大学)所说的,“这个变化真是出人意料。他说他觉得自己为华大贡献了很多,现在他想尝试新的方向。”
为什么会是人工智能呢?王俊16岁就进入北京大学读本科,1997年毕业,北京大学人工生命专业硕士研究生,后继续在北京大学完成博士研究。他的学术背景非常丰富,对于生物学、计算机和人工智能都有很好的理解。1999年春,我国开始承担人类基因计划的一部分,当时急需既有生物学背景,又精通计算机的专业复合型人才。王俊在硕博期间很自然地被派去参加此项工作的研究,从此他开始与生物信息学结下了不解之缘。然而,Erich Jarvis也提到了,“他对大脑非常有兴趣”,而且作为华大基因研究院的CEO,“运营一个公司,存在着各种各样的问题,而且公司的发展方向并不能总是如他所愿”。
离开华大基因的CEO岗位,王俊将开始在他喜欢的领域“大数据-人工智能”的征程。虽然王俊不再基因组学领域继续他的管理岗位,王俊仍然是“一万种鸟类基因组测序”项目背后的决策者之一。
大数据时代的新征程
王俊的新方向是人工智能,那么他的人工智能项目背后有怎样的目标呢?近期,王俊接受《Nature》采访的时候提到,他计划提出一套机器学习系统,通过大量的数据输入,这个系统能够比我们人类更好地理解人类的健康和人类的生命形态。这种人工智能能够写出人类健康的“方程”,用计算机程序模拟人类身体、生命的复杂过程。这个系统将会包含两大部分,其一是超大型计算机平台,现有的云集计算平台和超大型计算中心基本上能够满足。其二是需要大量的数据,来自无数人类个体的数据,包括基因表型、环境相互作用、不同时间表达情况。他说道“要让这些数据活起来。像谷歌这样的大公司终将会走上这条路,但是我们要先走上来,华大也有着大数据处理的经验。”
数据量究竟有多大呢?“百万基因组级别”是王俊的初步设想。华大基因已经有了十万人的基因组数据,但是他认为还不够,需要到百万级别,而且不能止步于百万,要最终到一亿人类个人基因组级别。不仅是基因组数据,还包括很多不同的数据,例如蛋白质组、脂类组、肠道基因组和代谢组等。在这个大数据时代,王俊的计划是收集所有的组学数据,还有个体的生活方式以及生活环境的大量数据。“一切皆可数据化,一个人的数据量是1TB,一百万人数据量可以到1EB级别。”
王俊的人工智能项目的终极目标是构建“生态系统”,构建一个在芯片上的生态系统(Ecosystem in scilica)。进入芯片中的虚拟世界,计算机会告诉你如何健康的生活,告诉你如何运动,吃什么更健康。这样的终极目标就如《黑客帝国》中的虚拟世界一样,一切都可以数据化。或许人工智能不能给出这个“虚拟生态系统”的最优解,但是这些数据仍然是有非常用的,可以帮助制药公司研发更好的药物。
对于这个人工智能的原型,王俊计划筹集100亿人民币(约16亿美元)。但是他似乎并不太关心钱的问题。他认为“想做正确的事情就要关注正确的方向,对于钱,我真的也不知道怎么做,也不会去关注。”他还认为,这个项目会吸引很多人的关注,资金或许没有那么难。这个将届不惑之年的科学家是如此自信,“But who cares. Let’s just do it!”是的,just do it。
面对如此宏大的项目,很多人认为显得太“野心勃勃”。然而王俊并不在乎,他认为自己已经想过这个问题,他也知道很多人认为“他简直是疯了”。早在水稻基因组和大熊猫基因组的时候,这两个项目那时候也显得非常困难,但是实际证明新一代的测序方法很快克服了那些困难,最终结果也非常好。这次王俊非常确信并且努力坚持,今后二十年,他要努力完成这个项目,他“仅仅是有些小紧张,但是也非常激动”。“我要做一个冒险家,为了这个人工智能项目,我要拿我剩余的一生作为赌注。”
一个神话的结束,或许是新的神话的兴起。每一个神话,都有一个或者一群英雄,或普通或著名,是他们推动着那些看起来无法完成的工作最终实现,而且这样的人非常值得我们尊重。华大会不会在新的大数据时代引领潮流,续写新的传奇呢?请拭目以待!
(转化医学网360zhyx.com)
顶一下(0) 回复
顶一下(0) 回复