行业资讯

人工智能可以在自然界之外生成新的蛋白质,可用于生产具有特定机械性能的材料
发布者:鸿腾智能科技(江苏)有限公司 发布时间:2023-04-24 08:55:35 点击次数:647 关闭
4月24日消息,蛋白质是生命的基础,也是许多新材料的灵感来源。然而,自然界中已知的蛋白质只是冰山一角,还有无数未被发现的蛋白质有待探索。如何快速高效地设计具有特定结构和功能的新蛋白质是一个重大挑战。

为解决这个问题,麻省理工学院(MIT)的研究人员利用人工智能开发了一种方法,能够生成超越自然界的新蛋白质。他们创建了一种基于机器学习的算法,可以根据预设的结构目标预测将形成相应蛋白质的氨基酸序列。这些序列不仅与已知蛋白质具有一定的相似性,而且具有一定的创新性和独特性。这些蛋白质可用于制造具有刚度或弹性等特定机械性能的材料,从而取代石油或陶瓷作为原材料,这将显着减少碳足迹。
该研究将于近期发表在最新一期《化学》杂志上,该研究的高级作者是麻省理工学院工程学院教授、土木与环境工程系和机械工程系教授,以及MIT-IBM沃森人工智能实验室成员。马库斯比勒。他说,这种方法可以为各种应用提供新的解决方案,例如生物医学、材料科学、食品保鲜等。“当谈到自然界之外的蛋白质时,这是一个巨大的设计空间,无法人工解决,”他说。“我们需要了解生命的语言,氨基酸如何在DNA中编码,以及它们如何组装成蛋白质结构。深入了解这在学习出现之前是不可能的。”
该研究的合作者是布勒实验室的博士后研究员BoNi和塔夫茨大学生物工程教授兼工程学院院长DavidKaplan。
利用新的机器学习模型
蛋白质是折叠成三维形状的长链氨基酸。氨基酸的排列顺序决定了蛋白质的结构特性,进而影响蛋白质的力学特性。虽然科学家们已经鉴定出数以千计的由自然选择形成的蛋白质,但他们估计仍有许多氨基酸序列未被发现。
为了加快蛋白质发现的过程,研究人员最近开发了一些深度学习模型,可以根据给定的氨基酸序列预测相应的三维蛋白质结构。然而,根据给定的结构目标预测相应的氨基酸序列是一个更复杂的问题。
Buhler和他的同事之所以能够解决这个难题,是因为他们利用了一种称为基于注意力的扩散模型的新型机器学习模型。Buhler解释说,基于注意力的模型对于蛋白质设计很重要,因为它们可以学习和捕捉长期关系。这在蛋白质中很常见,因为很长的氨基酸序列中的单个突变会对整体设计产生很大影响。
扩散模型的学习过程是通过在训练数据中加入“噪声”,然后去除“噪声”来恢复原始数据。这些模型生成高质量和逼真的数据,并且可以根据特定的设计目标进行调整。因此,它们比其他模型更适合满足设计要求。
使用这种架构,研究人员开发了两种机器学习模型,能够预测满足特定结构目标的氨基酸序列。Buhler说,在生物医学中,拥有一种完全未知的蛋白质可能会有问题,因为它的特性不太为人所知。然而,在某些应用中,可能需要设计一种新型蛋白质,这种蛋白质与自然界中发现的蛋白质具有相似的特性,但功能不同。使用他们开发的模型,可以生成一个蛋白质家族,并通过调整一些参数来控制它们的设计以实现定制。
蛋白质中不同的氨基酸折叠模式(称为二级结构)会导致不同的机械特性。例如,具有α螺旋结构的蛋白质往往具有弹性,而具有β折叠结构的蛋白质通常更坚硬。将α螺旋和β折叠结构结合在一种蛋白质中可以制造出既有弹性又有强度的材料,例如丝绸。
研究人员创建了两种模型,一种在整体结构水平上起作用,另一种在氨基酸水平上起作用。两种模型都可以结合氨基酸来制造蛋白质。在第一个模型中,用户只需输入所需的不同结构百分比,例如40%α-螺旋和60%β-折叠,模型就会生成满足这些要求的序列。在第二个模型中,用户不仅可以指定百分比,还可以指定氨基酸结构的顺序,从而更好地控制最终产品。
为了确认所得蛋白质符合预期规格,研究人员将开发的模型与可以预测蛋白质折叠的算法进行了比较。法相关。他们用这种算法确定生成的蛋白质的三维结构,然后计算出相应的力学性能,并与预设的设计要求进行比较。这使他们能够验证设计的蛋白质是否符合所需的规格。
创新可靠的设计
为了评估他们模型的有效性,研究人员将新生成的蛋白质与具有相似结构特性的已知蛋白质进行了比较。他们发现许多生成的蛋白质与已知的氨基酸序列有大约50%到60%的同一性,这表明它们是可合成的。此外,这些模型生成了全新的序列,展示了它们设计新蛋白质的能力。
布勒说,生成的蛋白质和已知蛋白质之间的相似程度表明,设计的蛋白质可能是真实的和合成的。为了测试设计蛋白质的可靠性,研究人员试图用一些物理上不可能的设计目标来欺骗模型。然而,该模型并没有生成不太可能的蛋白质,而是生成了最接近的可能解决方案。该结果表明,即使在给定不切实际的设计规范的情况下,该模型也足够稳健,可以找到最接近的可行解决方案。
倪波指出,机器学习算法可以发现自然界中隐藏的关系。这种能力让研究人员相信由此产生的蛋白质很可能是真实的和合成的。
下一步,研究人员打算通过在实验室合成一些新设计的蛋白质来验证它们。此外,他们计划进一步改进和完善他们的模型,以便他们可以设计出满足更多条件的氨基酸序列,例如特定的生物学功能。
最终目标是开发一个多功能平台,可以为各种应用生成各种蛋白质设计,包括生物医学和材料科学。Buhler强调说,这些应用,例如可持续性、医药、食品、健康和材料设计,需要超越自然所能提供的解决方案。因此,新开发的设计工具可以在解决这些问题中发挥重要作用。

商务咨询 商务咨询
关于我们 产品展示 广告设计 客户案例 技术支持 联系我们

电话:0511-86930535(工作日)

手机:177-6865-8888(微信同号)

手机:137-7550-8287(微信同号)

零售:137-7550-7308(微信同号)