联系我们

数据科学

深心有望通过解决蛋白质折叠问题来转变生物科学

mm

已发表

 on

Google的AI部门DeepMind最近已经 取得重大进展 解决生物学中最古老的挑战之一,根据氨基酸序列计算蛋白质的形状。据《自然》杂志报道,这一突破具有改变生物学和化学领域的潜力,使科学家能够确定许多目前神秘的蛋白质的功能。

蛋白质的形状决定了其功能,大多数生物学功能都取决于蛋白质。 “蛋白质折叠” 是将氨基酸链转换为蛋白质执行其功能所需的三维结构的过程的名称。如果科学家能够确定氨基酸序列与它们产生的蛋白质形状之间的关系,那么他们就可以确定哪些蛋白质会影响不同的生物过程。

科学家推测,人类蛋白质组中至少有80,000种蛋白质,但是这些蛋白质中只有一小部分具有已知的结构。确定蛋白质形状的传统方法可能需要花费多年的实验室实验,甚至可以利用计算机科学算法和模型的强大功能。 DeepMind所做的工作可以极大地加快发现蛋白质结构的过程,从而在正常时间的一小部分内可靠地确定蛋白质的结构。

深心的研究人员在数据库中训练了他们的算法,该算法包括大约170,0000个蛋白质序列以及与这些序列相对应的形状。研究人员开发的算法在100到200个GPU上进行了训练,训练过程花了几周的时间才能完成。研究人员开发的模型被称为“ AlphaFold”。

AlphaFold通过“张力算法”进行操作,首先将蛋白质的小片段连接在一起,然后按比例放大以连接越来越大的片段。首先将小的氨基酸簇连接在一起,然后该算法试图找到将这些簇连接的方法。

AlphaFold研究人员最初尝试使用常规 深度学习 遗传和结构数据的算法,以预测氨基酸和蛋白质之间的关系。然后,AlphaFold创建了蛋白质样式的共识模型。当这项技术被证明有太多局限性时,研究人员尝试了一种新的策略。 AlphaFold研究团队创建了经过更多功能训练的模型,这一次,他们获得了蛋白质序列最终结构的模型回归预测。

工程团队通过参加竞赛来对AlphaFold进行压力测试,该竞赛中计算机算法竞争从氨基酸序列评估蛋白质的结构。竞赛是“蛋白质结构预测的关键评估”或CASP。比赛的参赛者需要提供100个氨基酸序列,他们的模型必须确定蛋白质的结构。 AlphaFold不仅在准确性方面击败了其他计算机模型,而且其性能也与传统的基于实验室的建模技术相当。 AlphaFold的最终中位数得分大约为100分中的92分,而基于实验室的实验方法的得分为90分。在最困难的蛋白质上,AlphaFold的中位得分降至87%。

根据DeepMind首席执行官兼联合创始人Demis Hassabis的说法,该公司已经在计划让研究人员访问AlphaFold,马克斯·普朗克发展生物学研究所的科学家已经在使用该模型来发现他们十年来一直在研究的蛋白质结构。

欧洲生物信息学研究所名誉主任珍妮特·桑顿(Janet Thornton) 通过ScienceMag引用 说DeepMind的成就“将改变结构生物学和蛋白质研究的未来”。同时,马里兰大学Shady Grove的生物学家 约翰·莫尔特说 他从未想到过蛋白质折叠问题将在这一生中永远无法解决。

尽管AlphaFold不太可能完全取代传统的发现蛋白质结构的实验方法,但它可以大大提高发现蛋白质结构的速度。研究人员可能需要较少的高质量实验数据来确定蛋白质的结构,研究人员已经可以使用AlphaFold解决方案将大量的基因组数据转化为结构。