【Nature】重大飞跃:人工智能预测几乎整个“蛋白质宇宙”!
导读 | DeepMind公司与欧洲生物信息研究所的合作团队公布了生物学领域的一项重大飞跃。他们利用人工智能(AI)系统AlphaFold预测出超过100万个物种的2.14亿个蛋白质结构,几乎涵盖了地球上所有已知蛋白质。这一突破将加速新药开发,并为基础科学带来全新革命。 |
AlphaFold工具已经确定了大约2亿种蛋白质的结构,这些蛋白质来自地球上几乎所有已知的生物体。该研究发布于《Nature》。
https://www.nature.com/articles/d41586-022-02083-2
蛋白质的3D形状
01
从现在开始,确定几乎所有科学已知的蛋白质的3D形状将像使用搜索引擎一样简单。
研究人员已经使用AlphaFold(革命性的人工智能(AI)网络)来预测来自100万个物种的约2亿种蛋白质的结构,几乎涵盖了地球上所有已知的蛋白质。从本质上讲,它涵盖了整个蛋白质世界。
蛋白质的3D形状或结构决定了它在细胞中的功能。大多数药物都是使用结构信息设计的,准确的地图通常是发现蛋白质如何工作的第一步。
伦敦大学学院的计算生物学家使用AlphaFold数据库来鉴定新的蛋白质家族,她评价说研究人员正在为这个巨大宝库的释放做好准备。
高品质结构
02
去年AlphaFold的发布在生命科学界引起了轰动,他们一直在争先恐后地利用该工具。该网络对蛋白质的3D形状或结构进行高度准确的预测。它还提供有关其预测准确性的信息,因此研究人员知道该使用什么作为工具。传统上,科学家使用耗时且昂贵的实验方法,如X射线晶体学和冷冻电子显微镜来解决蛋白质结构问题。
根据EMBL-EBI的数据,在超过2.14亿个预测中,约有35%被认为是高度准确的,这意味着它们与实验确定的结构一样。另有45%的人被认为有足够的信心来支持许多应用程序。
许多AlphaFold结构足以取代某些应用的实验结构。在其他情况下,研究人员使用AlphaFold预测来验证和理解实验数据。其中一些是由蛋白质本身的内在紊乱引起的,这意味着它没有确定的形状,至少在没有其他分子存在的情况下。
今天发布的2亿个预测是基于另一个名为UNIPROT的数据库中的序列。科学家们可能已经对其中一些蛋白质的形状有了一个想法,因为它们被实验结构的数据库所覆盖,或者类似于这些存储库中的其他蛋白质。但这些条目往往偏向于人类,小鼠和其他哺乳动物蛋白质,因此AlphaFold转储可能会增加重要的知识,因为它来自更多不同的生物体。
由于AlphaFold软件已经可用一年,研究人员已经有能力预测他们想要的任何蛋白质的结构。许多人表示,在单个数据库中提供预测将节省研究人员的时间,金钱和麻烦。
100 TB
03
在数据库中拥有几乎所有已知的蛋白质也将实现新型研究。Orengo的团队已经使用AlphaFold数据库来鉴定新型蛋白质家族,他们现在将以更大的规模做到这一点。她的实验室还将使用扩展的数据库来了解具有有效特性蛋白质的进化,例如消耗塑料的能力以及那些可以驱动癌症的蛋白质。在数据库中鉴定这些蛋白质的远亲可以确定其性质的基础。
不过,目前的AlphaFold仍有提升的空间。伦敦大学学院的博士提出,如何开发模型来预测蛋白质如何折叠,而不仅是预测最终的结构,是研究团队接下来要解决的问题。
一年前,研究团队就向科研人员免费公开了AlphaFold的源代码以及数据库。目前,已有来自190个国家和地区的50多万位学者访问数据库。这些数据已经在疟疾疫苗开发、对抗抗生素耐药性与塑料污染等场景中得到应用,并且帮助研发人员加速新药研发。
如今,团队再次免费公开了最新的数据库,所有2亿多个蛋白质结构都能通过数据库下载。这份前所未有的丰富数据,将帮助我们探索生命科学的无尽奥秘,并对研究生物学、医药领域提供巨大帮助。(转化医学网360zhyx.com)
参考资料:
https://www.nature.com/articles/d41586-022-02083-2
注:本文旨在介绍医学研究进展,不能作为治疗方案参考。如需获得健康指导,请至正规医院就诊。
还没有人评论,赶快抢个沙发