返回上一页  首页 | cnbeta报时: 12:54:49
麻省理工学院的人工智能学习分子语言以实现快速材料开发和药物发现
发布日期:2023-07-14 11:28:06  稿源:cnBeta.COM

发现新材料和新药物通常需要人工试错,耗时数十年,耗资数百万美元。为了简化这一过程,科学家们通常使用机器学习来预测分子特性,缩小他们需要在实验室中合成和测试的分子范围。麻省理工学院和麻省理工-沃森人工智能实验室的研究人员开发出了一种新的统一框架,能够同时预测分子性质并生成新分子,其效率远远高于这些流行的深度学习方法。

为了教会机器学习模型预测分子的生物或机械特性,研究人员必须向其展示数百万个标记的分子结构--这一过程被称为训练。由于发现分子所需的费用以及对数百万个结构进行手工标注所面临的挑战,通常很难获得大型训练数据集,这限制了机器学习方法的有效性。

相比之下,麻省理工学院研究人员创建的系统只需少量数据就能有效预测分子特性。他们的系统从根本上理解了决定构件如何结合产生有效分子的规则。这些规则捕捉分子结构之间的相似性,帮助系统以数据高效的方式生成新分子并预测其性质。

这种方法在小型和大型数据集上的表现都优于其他机器学习方法,当给定的数据集样本少于100个时,它能够准确预测分子性质并生成可行的分子。

Unified-Framework-To-Predict-Molecular-Properties-1536x1024.webp

麻省理工学院和麻省理工学院-沃森人工智能实验室的研究人员开发了一种统一框架,利用机器学习同时预测分子性质并生成新分子,只需使用少量数据进行训练。图片来源:Jose-Luis Olivares/麻省理工学院

"我们这个项目的目标是使用一些数据驱动的方法来加速新分子的发现,这样就可以训练一个模型来做预测,而不需要所有这些成本高昂的实验,"领衔作者、计算机科学与电子工程(EECS)研究生郭明浩(音译)说。

郭明皓的共同作者包括MIT-IBM沃森人工智能实验室的研究人员Veronika Thost、Payel Das和Jie Chen;MIT应届毕业生Samuel Song 23和Adithya Balachandran 23;资深作者Wojciech Matusik,他是电气工程和计算机科学教授,也是MIT-IBM沃森人工智能实验室的成员,领导着MIT计算机科学和人工智能实验室(CSAIL)的计算设计和制造小组。该研究成果将在国际机器学习大会(International Conference for Machine Learning)上发表。

学习分子语言

为了使机器学习模型达到最佳效果,科学家们需要包含数百万个分子的训练数据集,这些分子与他们希望发现的分子具有相似的性质。在现实中,这些特定领域的数据集通常非常小。因此,研究人员使用在大型通用分子数据集上预先训练好的模型,然后将其应用于更小的、有针对性的数据集。然而,由于这些模型没有获得太多特定领域的知识,它们的表现往往很差。

麻省理工学院的研究小组采取了不同的方法。他们创建了一个机器学习系统,该系统仅使用一个小型的特定领域数据集,就能自动学习分子的"语言"--即所谓的分子语法。它利用这种语法构建可行的分子并预测其特性。

在语言理论中,人们根据一套语法规则生成单词、句子或段落。您可以用同样的方式来理解分子语法。这是一套生产规则,规定如何通过原子和亚结构的组合生成分子或聚合物。

就像语言语法可以使用相同的规则生成大量句子一样,一个分子语法可以代表大量分子。具有相似结构的分子使用相同的语法生成规则,系统通过学习来理解这些相似性。

由于结构相似的分子往往具有相似的性质,系统利用其分子相似性的基础知识,更有效地预测新分子的性质。

郭说:"一旦我们有了这个语法作为所有不同分子的表征,我们就可以用它来促进性质预测过程。"

该系统利用强化学习来学习分子语法的生产规则--在这个试错过程中,模型会因为更接近实现目标的行为而获得奖励。但是,由于原子和子结构的组合方式可能有数十亿种,因此学习语法生成规则的过程对于最微小的数据集来说计算成本太高。

研究人员将分子语法解耦为两部分。第一部分称为元语法(metagrammar),是一种通用的、广泛适用的语法,由他们手工设计并在一开始就提供给系统。然后,它只需要从领域数据集中学习更小的特定分子语法。这种分层方法加快了学习过程。

小数据集,大成果

在实验中,研究人员的新系统同时生成了可行的分子和聚合物,并比几种流行的机器学习方法更准确地预测了它们的性质,即使特定领域的数据集只有几百个样本。其他一些方法还需要昂贵的预训练步骤,而新系统避免了这一步骤。

该技术在预测聚合物的物理性质方面尤其有效,例如玻璃化转变温度,即材料从固态转变为液态所需的温度。由于实验需要极高的温度和压力,手动获取这一信息往往成本极高。

为了进一步推动他们的方法,研究人员将一个训练集减少了一半以上--仅有94个样本。他们的模型仍然取得了与使用整个数据集训练的方法相当的结果。

"这种基于语法的表示方法非常强大。由于语法本身是一种非常通用的表示方法,因此它可以被部署到不同类型的图形式数据中。我们正试图确定化学或材料科学以外的其他应用,"郭说。

未来,他们还希望将目前的分子语法扩展到分子和聚合物的三维几何图形,这是理解聚合物链之间相互作用的关键。他们还在开发一个界面,向用户显示学习到的语法生成规则,并征求反馈意见以纠正可能错误的规则,从而提高系统的准确性。

我们在FebBox(https://www.febbox.com/cnbeta) 开通了新的频道,更好阅读体验,更及时更新提醒,欢迎前来阅览和打赏。
查看网友评论   返回完整版观看

返回上一页  首页 | cnbeta报时: 12:54:49

文字版  标准版  电脑端

© 2003-2025