推荐活动

《Science》公布2021年度突破:一个困扰生物学家50年的难题,被AI解决了,并实现了一位诺奖者的梦想!

首页 » 《转》译 2021-12-17 转化医学网 赞(4)
分享: 
导读
12月17日凌晨,《Science》杂志公布了2021年度突破,人工智能准确预测蛋白质结构成为最终“赢家”。经过近50年的研究,这项技术终于解决了困扰科学家们的一个大挑战,同时实现了诺贝尔获奖者、美国生物化学家Christian Anfinsen的梦想。这是迄今为止AI在推动科学进步方面做出的最大贡献,这是一个永远改变生物学和医学的全景。其它年度突破候选者还包括:首个新冠口服药、CRISPR可以在体内修复基因,治疗疾病、科学家们从洞穴地板的土壤中发现了更多的古代DNA等等,期待明年更精彩的内容!

在他1972年的诺贝尔奖获奖感言中,美国生物化学家Christian Anfinsen提出了这样一个愿景,他说:有一天,仅仅根据其氨基酸序列就可以预测任何蛋白质的3D结构。仅在人体内就有数十万种蛋白质,这种进步将具有广泛的应用,为基础生物学提供见解并揭示有希望的新药物靶点。现在,经过近50年的研究,研究人员已经证明,人工智能(AI)驱动的软件可以产生出成千上万种精确的蛋白质结构——实现了Anfinsen的梦想,并且评选为《Science》杂志2021年年度突破


蛋白质结构曾经只能通过艰苦的实验室分析来确定。但现在可以对成千上万的蛋白质和相互作用蛋白质的复合物进行快速计算。伦斯勒理工学院结构生物学家Gaetano Montelione评价:“这是结构生物学的一个巨大变化。”华盛顿大学西雅图分校的计算生物化学家David Baker领导了其中一个预测项目,他表示,凭借现成的结构,“计算和分子生物学的所有领域都将发生变化。”


蛋白质是生物学的主力。它们收缩我们的肌肉,将食物转化为细胞能量,在我们的血液中运送氧气,并对抗微生物入侵者。然而,尽管它们的能力各不相同,但所有蛋白质都以相同的基本形式开始:由多达20种不同氨基酸的线性链,以我们DNA中编码的序列串联在一起。在被称为核糖体的细胞工厂组装后,每条链折叠成独特,精细复杂的3D形状。这些形状决定蛋白质如何与其他分子相互作用,并决定了它们在细胞中的作用。


Anfinsen和其他人的研究表明,氨基酸之间的相互作用将蛋白质拉成最终形状。但是鉴于链中的每个单独链与所有其他链之间可能发生的相互作用数量众多,即使是中等大小的蛋白质也可能呈现天文数量的可能形状。1969年,美国分子生物学家Cyrus Levinthal计算出,蛋白质链一个接一个地循环甚至需要比一个宇宙的年龄还要长的时间——即使是以极快的速度。但在自然界中,每种蛋白质可靠地折叠成一种独特的形状,通常在眨眼之间


几十年来,分析蛋白结构有一个无冕之王——X射线晶体衍射。科学家们让蛋白结晶,然后利用X射线照射,随后根据X射线的衍射来重建蛋白的结构。今天,该领域的中央存储库——Protein Data Bank里包含大约185000个实验解决的结构。但是绘制结构图可能需要数年时间,而且每种蛋白质成本高达数十万美元。为了加速这一过程,科学家们在20世纪70年代开始创建计算机模型,以预测给定蛋白质的折叠方式


起初,这仅适用于小蛋白质或较大蛋白质的短片段。1994年,生物学家发起了蛋白质结构预测的关键评估 (CASP),这是一个两年一度的蛋白质折叠竞赛。组织者为建模者提供了数十种蛋白质的氨基酸序列。最后,将建模者的结果与x射线晶体学和新兴技术(例如核磁共振波谱和低温电子显微镜(cryo-EM))的最新实验数据进行了比较。CASP创建了一个从0到100的评分系统,超过90分的分数反映了对结构的近乎完美的预测,并将赢得比赛


早期结果令人沮丧,低于60分。但是随着时间的推移,建模者学会了改进计算的技巧。例如,两种蛋白质共有的氨基酸片段通常折叠相似。如果结构未知的蛋白质与结构已知的蛋白质共享其氨基酸序列的50%,则后者可以用作指导计算机模型的“模板”


另一个重要的见解来自进化。研究人员意识到,如果黑猩猩和人类等密切相关的生物体共有的蛋白质中有一个氨基酸发生了变化,那么折叠分子附近的氨基酸也必须发生变化,以保持蛋白质的形状和功能。这意味着研究人员可以通过寻找共同进化的氨基酸来缩小蛋白质的形状:即使它们在展开的链上相距很远,它们也可能是最终3D结构中的邻居


“我从来没有想到我一生中会看到这一点”


到2018年,得分接近70分。紧接着,人工智能驱动的软件程序AlphaFold改变了局面。这款程序由位于伦敦的Google姐妹公司DeepMind开发,其预测的结构几乎覆盖了完整的人类蛋白质组(蛋白质组是一个生物表达的全部蛋白质)。在第一场比赛中,其接近80分,并且在与其他算法的90场比赛中,它赢得了43场。2020年,其继任者AlphaFold2表现得更加出色。AlphaFold2基于深度神经网络预测蛋白质形态,能够快速生成高精确度的蛋白质3D模型。以往花费几周时间预测的蛋白质结构,AlphaFold2在几小时内就能完成。AlphaFold2的平均得分为92.4——与实验技术相当。


当时马里兰大学结构生物学家,Shady Grove和CASP联合创始人John Moult说:“我从来没有想到我在有生之年看到这样的事情。”


DeepMind联合创始人、首席执行官Demis Hassabis说:“这是迄今为止AI在推动科学进步方面做出的最大贡献。我觉得这么说一点儿也不夸张。”


《Nature》杂志也曾发表过这样一篇文章,并且评论其为“这将改变一切”:

https://www.nature.com/articles/d41586-020-03348-4


今年,人工智能预测转向了超速。7月中旬,Baker和他的同事报告说,他们的AI程序RoseTTAFold已经解决了数百种蛋白质的结构,这些蛋白质都来自一类常见的药物靶标。一周后,DeepMind科学家报告说,他们对人体中发现的350000种蛋白质做了同样的试验,占所有已知人类蛋白质的44%。预测的逾35万个蛋白质结构保存在一个公用数据库中,规模将在年底扩大到1.3亿个这个数量接近人类已知蛋白总量的一半。虽然这些预测的准确度有高有低,但研究人员认为这些数据或为生命科学领域带来翻天覆地的改变。随着新蛋白的发现和预测能力的提高,这个数据库还会一直更新。


下一步是预测哪些蛋白质一起“工作”以及它们如何相互作用。DeepMind已经在这样做了。在10月份的预印本中,其科学家公布了4433种蛋白质-蛋白质复合物,揭示了哪些蛋白质彼此结合以及如何结合。11月,RoseTTAFold又增加了912个复合体。


AlphaFold2和RoseTTAFold的代码现已公开发布,可帮助其他科学家参与竞赛。11月,德国和美国的研究人员使用AlphaFold2和cryo-EM绘制了核孔复合体的结构图,该复合体由30种不同的蛋白质组成,可控制进入细胞核。8月,中国研究人员使用AlphaFold2绘制了近200种与DNA结合的蛋白质的结构图,这些蛋白质可能涉及从DNA修复到基因表达的一切。上个月,谷歌的母公司Alphabet发起了一项新项目,将使用预测的蛋白质结构来设计新的候选药物。Baker的团队正在使用其软件来构思出一种新的蛋白质序列,这些序列将折叠成稳定的结构,这一进步可能会导致新的抗病毒药物和催化剂的产生


即使是现在,研究SARS-CoV-2的科学家也在使用AlphaFold2来模拟Omicron变体刺突蛋白突变的影响。通过在蛋白质中插入较大的氨基酸,突变已经改变了其形状——可能足以组织抗体与其结合并中和病毒。


还有很多研究要做。蛋白质结构不是静态的;他们在“工作”中弯曲和扭曲,对这些变化进行建模仍然是一个挑战。可视化大多数在细胞中执行无数“工作”的大型多蛋白复合物仍然是一项艰巨的任务。但今年人工智能驱动进步的爆炸式增长提供了前所未有的“生命之舞”,这是一个永远改变生物学和医学的全景


入选2021科学杂志年度突破名单还包括:从古代土壤中提取和测序核DNA,揭示了8万到11.3万年前生活在那里的人类的基因身份和性别;全球首款新冠口服药;人工抗体可以抑制传染病;CRISPR可以在体内修复基因,治愈了患有两种遗传性血液疾病;阿尔茨海默氏症的药物引起了愤怒等等。期待明年更精彩的内容!(转化医学网360zhyx.com)


参考资料:

https://www.science.org/content/article/breakthrough-2021#section_breakthrough

注:本文旨在介绍医学研究进展,不能作为治疗方案参考。如需获得健康指导,请至正规医院就诊。

评论:
评 论
共有 0 条评论

    还没有人评论,赶快抢个沙发