返回上一页  首页 | cnbeta报时: 13:01:50
MIT的 "FrameDiff" 生成式AI想象出可能改变医学的新蛋白质结构
发布日期:2023-07-14 16:32:39  稿源:cnBeta.COM

生物学是一幅奇妙而精致的织锦。其核心是DNA,它是编码蛋白质的编织大师,负责协调维持人体生命的多种生物功能。然而,我们的身体就像一架经过精心调试的乐器,很容易失去和谐。毕竟,我们面对的是一个不断变化、无情的自然世界:病原体、病毒、疾病和肿瘤。

Generative-AI-Imagines-New-Protein-Structures.webp

FrameDiff系统在构建单个蛋白质的任务中进行了测试,研究人员发现它可以构建多达500个部分的大蛋白质。与以前的方法不同,它不需要依赖预先存在的蛋白质结构图。图片来源:Alex Shipps/MIT CSAIL via Midjourney

试想一下,如果我们能够加快针对新出现的病原体制造疫苗或药物的进程,那将会怎样?如果我们的基因编辑技术能够自动生成蛋白质,纠正导致癌症的DNA错误,那将会怎样?寻找能够与靶标强结合或加速化学反应的蛋白质对于药物开发、诊断和众多工业应用至关重要,但这往往是一项旷日持久且成本高昂的工作。

为了提高我们在蛋白质工程方面的能力,麻省理工学院CSAIL的研究人员发明了"FrameDiff",这是一种用于创建超越自然界的新蛋白质结构的计算工具。这种机器学习方法生成的"框架"符合蛋白质结构的固有特性,使其能够独立于已有的设计构建新型蛋白质,从而实现前所未有的蛋白质结构。

在自然界中,蛋白质设计是一个缓慢的过程,需要数百万年的时间。麻省理工学院CSAIL博士生Jason Yim说:"我们的技术旨在为解决比自然界发展速度更快的人类问题提供答案。我们的目标是利用这种新的能力生成合成蛋白质结构,从而提高各种能力,例如更好的粘合剂。这意味着工程蛋白质可以更有效、更有选择性地附着在其他分子上,对靶向给药和生物技术有着广泛的影响,它可能发展出更好的生物传感器的开发。它还可能对生物医学领域及其他领域产生影响,如开发更高效的光合作用蛋白、创造更有效的抗体以及用于基因治疗的纳米粒子工程等。"

框架结构

蛋白质结构复杂,由许多原子通过化学键连接而成。决定蛋白质三维形状的最重要原子被称为"骨架",有点像蛋白质的脊柱。骨架上的每个原子三元组都具有相同的化学键模式和原子类型。研究人员注意到,这种模式可以利用微分几何和概率的思想来构建机器学习算法。这就是框架的作用所在: 从数学上讲,这些三元组可以被建模为刚体,称为"框架"(物理学中常见的),在三维空间中具有位置和旋转。

这些框架为每个三元组提供了足够的信息,使其能够了解周围的空间环境。机器学习算法的任务是学习如何移动每个框架来构建蛋白质骨架。通过学习构建现有的蛋白质,该算法有望推广并能够创造出自然界中从未见过的新蛋白质。

通过"扩散"训练构建蛋白质的模型需要注入噪音,随机移动所有帧,模糊原始蛋白质的样子。算法的工作就是移动和旋转每一帧,直到它看起来像原始蛋白质。虽然简单,但帧上扩散的开发需要黎曼流形上随机微积分的技术。在理论方面,研究人员开发了用于学习概率分布的"SE(3)扩散",它将每个帧的平移和旋转部分非难连接起来。

微妙的扩散艺术

2021年,DeepMind推出了AlphaFold2,这是一种深度学习算法,用于从序列预测三维蛋白质结构。在创建合成蛋白质时,有两个基本步骤:生成和预测。生成"是指创建新的蛋白质结构和序列,而"预测"是指找出序列的三维结构。AlphaFold2也使用框架来建立蛋白质模型,这并非巧合。SE(3)扩散和FrameDiff的灵感来自于将框架纳入扩散模型,从而进一步发展了框架的概念,这种生成式人工智能技术已经在图像生成领域大受欢迎,例如Midjourney。

蛋白质结构生成和预测之间共享的框架和原理意味着两端的最佳模型是兼容的。在与华盛顿大学蛋白质设计研究所的合作中,SE(3)扩散已被用于创建和实验验证新型蛋白质。具体来说,他们将SE(3)扩散与RosettaFold2结合起来,RosettaFold2是一种蛋白质结构预测工具,与AlphaFold2很相似,从而产生了"RFdiffusion"。这一新工具使蛋白质设计人员更接近于解决生物技术中的关键问题,包括开发用于加速疫苗设计的高特异性蛋白质结合剂、用于基因传递的对称蛋白质工程以及用于精确酶设计的稳健主题支架。

FrameDiff未来的工作包括提高通用性,以解决药物等生物制剂的多种需求相结合的问题。另一个扩展是将模型推广到包括DNA和小分子在内的所有生物模式。研究小组认为,通过在更多的数据上扩大FrameDiff的训练并加强其优化过程,它可以生成与RFdiffusion具有同等设计能力的基础结构,同时保持FrameDiff固有的简单性。

哈佛大学计算生物学家谢尔盖-奥夫钦尼科夫(Sergey Ovchinnikov)说:"摒弃[FrameDiff]中的预训练结构预测模型为快速生成大长度结构提供了可能性。研究人员的创新方法为克服当前结构预测模型的局限性迈出了可喜的一步。尽管这仍是一项初步工作,但它在正确的方向上迈出了令人鼓舞的一步。因此,得益于麻省理工学院研究团队的开拓性工作,蛋白质设计在解决人类最紧迫挑战中发挥关键作用的愿景似乎越来越触手可及。"

Yim与哥伦比亚大学博士后Brian Trippe、法国巴黎国家科学研究中心数据科学中心研究员Valentin De Bortoli、剑桥大学博士后Emile Mathieu、牛津大学统计学教授兼DeepMind高级研究科学家Arnaud Doucet共同撰写了这篇论文。麻省理工学院教授Regina Barzilay和Tommi Jaakkola为这项研究提供了建议。

该团队的工作部分得到了麻省理工学院Abdul Latif Jameel Clinic for Machine Learning in Health、EPSRC基金和微软研究院与剑桥大学之间的繁荣合作项目、美国国家科学基金会研究生研究奖学金项目、美国国家科学基金会Expeditions基金、机器学习促进药物发现和合成联盟、DTRA发现应对新威胁和新兴威胁的医疗对策项目、DARPA加速分子发现项目和赛诺菲计算抗体设计基金的支持。这项研究将在7月举行的国际机器学习大会上发表。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 13:01:50

文字版  标准版  电脑端

© 2003-2025