联系我们

自然语言处理

研究人员使用自然语言处理算法来理解蛋白质转化

mm

已发表

 on

马里兰大学的研究人员最近申请了 自然语言处理 技术和 机器学习 算法,以了解如何 蛋白质分子 从一种形状转变为另一种形状。 最近的论文在《自然通讯》杂志上发表的论文是首次使用AI算法来研究生物分子系统与蛋白质转化有关的动力学。

蛋白质分子可以采取多种形式,但是促使蛋白质从一种形式转变为另一种形式的机制仍然有些神秘。蛋白质分子的功能由其形状定义,并且对影响蛋白质形状/结构的机制有更深入的了解,可以使科学家设计针对性的药物疗法并确定疾病的原因。

生物分子不是固定的,而是不断响应环境中的事件而运动。环境压力会使分子突然转变成不同的形式。一个分子可以突然折叠成完全不同的结构,其过程与弹簧的展开非常相似。分子的不同部分展开和折叠,研究人员研究了不同分子形式之间的中间阶段。

根据Phys.org, Pratyush Tiwary是该论文的高级作者,还是马里兰州化学与生物化学系和物理科学与技术学院的助理教授。根据蒂瓦里, 自然语言处理 可以用来模拟分子如何转化和适应。蒂瓦里(Tiwary)指出,分子具有一定的“语言”,可以将分子所进行的移动转化为抽象语言。当执行将分子运动映射到语言模式的过程时,自然语言处理技术和AI算法可用于“从生成的抽象词中生成生物学上真实的故事”。

当分子从一种形式过渡到另一种形式时,过渡发生得非常快。过渡可能只需要长达一万亿分之一秒的时间。如此巨大的转变速度使科学家难以使用光谱学甚至是高功率显微镜等方法来确定哪些参数会影响展开过程。为了确定哪些参数会影响蛋白质的展开,蒂瓦里和其他研究小组创建了模拟蛋白质的物理模型。复杂的统计模型用于创建蛋白质模拟,以模拟分子的形状,轨迹和运动。然后将模型提供给基于自然语言处理方法的机器学习算法。

用于训练机器学习系统的自然语言处理模型非常类似于Gmail采用的预测文本系统中使用的算法。模拟的蛋白质被视为一种语言,分子的运动被翻译成“字母”。然后将这些字母链接在一起以构成单词和句子。机器学习算法能够学习蛋白质结构背后的语法和句法规则,确定哪些形状/运动遵循其他形状/运动。然后,该算法可用于预测某些蛋白质将如何解开,以及它们将采取何种形状。

研究人员利用了 长短期记忆(LSTM) 网络以分析基于蛋白质的句子。该研究小组还跟踪了网络所基于的数学,并在网络了解分子转化的动力学过程中监控参数。根据研究结果,该网络使用的逻辑类似于静态物理概念,即路径熵。如果这一发现保持不变,则可能会改善 LSTM 网络。蒂瓦里(Tiwary)解释说,这一发现剥夺了LSTM的一些黑匣子性质,使研究人员可以更好地了解可以调整哪些参数以获得最佳性能。

作为他们算法的测试案例,研究人员分析了一种称为核糖开关的生物分子。 Riboswitch已经使用光谱法进行了分析,当使用机器学习系统分析核糖开关时,预测的核糖开关形式与通过光谱学发现的形式相匹配。

蒂瓦里希望他们的发现将使研究人员能够开发出副作用更少的靶向药物。正如Tiwary通过Phys.org解释的那样:

“您想拥有能牢固结合的强效药物,但只结合您希望它们结合的物质。如果我们能够了解给定目标生物分子可以采取的不同形式,那么我们就可以实现这一目标,因为我们可以制造出仅在适当的时间且仅在我们想要的时间内与特定形式之一结合的药物。 ”