微软开源新型蛋白质生成人工智能 EvoDiff
蛋白质是在体内执行关键细胞功能的天然分子,也是所有疾病的组成部分。表征蛋白质可以揭示疾病的机理,包括减缓或逆转疾病的方法,而创造蛋白质则可以开发出全新的药物和疗法。
但是,从计算和人力资源的角度来看,目前在实验室设计蛋白质的过程成本高昂。它需要提出一种能在体内执行特定任务的蛋白质结构,然后找到一种可能"折叠"到该结构中的蛋白质序列(组成蛋白质的氨基酸序列)。(蛋白质必须正确折叠成三维形状,才能实现其预期功能)。
其实不一定非要这么复杂。
本周,微软公司推出了一个通用框架 EvoDiff,该公司声称可以根据蛋白质序列生成"高保真"、"多样化"的蛋白质。与其他蛋白质生成框架不同的是,EvoDiff不需要目标蛋白质的任何结构信息,省去了通常最费力的步骤。
微软高级研究员凯文-杨(Kevin Yang)说,EvoDiff开源后,可用于创建新疗法和给药方法的酶,以及用于工业化学反应的新酶。
"我们的设想是,EvoDiff将扩展蛋白质工程的能力,使其超越结构-功能范式,走向可编程、序列优先的设计,"EvoDiff的共同创建者之一杨在接受TechCrunch电子邮件采访时说。"通过 EvoDiff,我们证明了我们可能实际上并不需要结构,而是'蛋白质序列就是你所需要的一切',从而可控地设计出新的蛋白质"。
EvoDiff 框架的核心是一个 640 参数模型,该模型是根据所有不同物种和功能类别蛋白质的数据训练而成的。(参数"是人工智能模型从训练数据中学到的部分,基本上定义了模型处理问题的技能--在本例中就是生成蛋白质)。训练模型的数据来自序列比对的 OpenFold 数据集和 UniRef50,后者是 UniProt 数据集的一个子集,UniProt 是由 UniProt 联盟维护的蛋白质序列和功能信息数据库。
EvoDiff 是一种扩散模型,其结构类似于稳定扩散和 DALL-E 2 等许多现代图像生成模型。EvoDiff 可以学习如何从几乎完全由噪声组成的起始蛋白质中逐渐减去噪声,从而使其缓慢地、一步一步地接近蛋白质序列。
EvoDiff 生成蛋白质的过程。
扩散模型已越来越多地应用于图像生成以外的领域,从设计新颖的蛋白质(如 EvoDiff),到创作音乐,甚至合成语音。
"如果说[从EvoDiff]中能得到什么启发的话,我认为那就是我们可以--也应该--通过序列来生成蛋白质,因为我们能够实现通用性、规模和模块化,"EvoDiff的另一位共同贡献者、微软高级研究员阿瓦-阿米尼(Ava Amini)通过电子邮件说。"我们的扩散框架让我们有能力做到这一点,也让我们能够控制如何设计这些蛋白质,以实现特定的功能目标。"
对于阿米尼的观点,EvoDiff 不仅能创造新蛋白质,还能填补现有蛋白质设计中的"空白"。例如,如果蛋白质的某一部分与另一种蛋白质结合,该模型就能围绕这一部分生成符合一系列标准的蛋白质氨基酸序列。
由于 EvoDiff 是在"序列空间"而非蛋白质结构中设计蛋白质,因此它还能合成最终无法折叠成最终三维结构的"无序蛋白质"。与正常功能的蛋白质一样,无序蛋白质在生物学和疾病中发挥着重要作用,比如增强或降低其他蛋白质的活性。
需要指出的是,EvoDiff 背后的研究还没有经过同行评审--至少目前还没有。参与该项目的微软数据科学家萨拉-阿拉姆达里(Sarah AlAMDari)承认,在该框架投入商业应用之前,"还有很多扩展工作要做"。
阿拉姆达里通过电子邮件说:"这只是一个6.4亿参数的模型,如果我们将其扩展到数十亿参数,我们可能会看到生成质量的提高。虽然我们展示了一些粗粒度策略,但要实现更精细的控制,我们希望 EvoDiff 以文本、化学信息或其他方式为条件,指定所需的功能。"
下一步,EvoDiff 团队计划测试该模型在实验室中生成的蛋白质,以确定它们是否可行。如果可行,他们将开始下一代框架的工作。