人工智能(AI)的发展日新月异,但其内在工作原理却往往模糊不清,具有"黑箱"性质,无法看到得出结论的过程。不过,波恩大学的化学信息学专家于尔根-巴约拉特(Jürgen Bajorath)教授和他的团队取得了重大突破。他们设计了一种技术,可以揭示制药研究中使用的某些人工智能系统的运行机制。
令人惊讶的是,他们的研究结果表明,这些人工智能模型主要依靠回忆现有数据,而不是学习特定的化学相互作用来预测药物的有效性。他们的研究成果最近发表在《自然-机器智能》(Nature Machine Intelligence)上。
哪种药物分子最有效?研究人员正在疯狂地寻找有效的活性物质来对抗疾病。这些化合物通常会与蛋白质对接,而蛋白质通常是酶或受体,它们会触发一连串特定的生理作用。
在某些情况下,某些分子还能阻止体内的不良反应,如过度的炎症反应。由于现有的化合物种类繁多,乍一看,这项研究无异于大海捞针。因此,药物发现试图利用科学模型来预测哪些分子能最好地与相应的靶蛋白对接并强力结合。然后在实验研究中对这些潜在的候选药物进行更详细的调查。
蛋白质配体相互作用图中边缘的相对比例--确定不同亲和力亚区的六个 GNN 预测值。彩色条比较了使用 EdgeSHAPer 确定的每个预测的前 25 个边缘中蛋白质、配体和相互作用边缘的平均比例。图片来源:A. Mastropietro 和 J. Bajorath
随着人工智能的发展,药物发现研究也越来越多地使用机器学习应用。其中,"图神经网络"(GNN)为此类应用提供了多种机会。例如,它们适用于预测某种分子与目标蛋白质的结合强度。为此,GNN 模型使用表示蛋白质与化合物(配体)之间形成的复合物的图进行训练。
图一般由代表对象的节点和代表节点间关系的边组成。在蛋白质配体复合物的图表示中,边只连接蛋白质或配体节点,分别表示它们的结构,或连接蛋白质和配体节点,表示特定的蛋白质配体相互作用。
尤尔根-巴约拉特(Jürgen Bajorath)教授说:"GNN 如何得出预测结果,就像一个我们无法窥探的黑盒子。"这位来自波恩大学 LIMES 研究所、波恩-亚琛国际信息技术中心 (B-IT) 和波恩拉马尔机器学习与人工智能研究所的化学信息学研究员与罗马萨皮恩扎大学的同事一起详细分析了图神经网络是否真的能学习蛋白质与配体之间的相互作用,从而预测活性物质与目标蛋白质的结合强度。
人工智能应用如何发挥作用?
研究人员利用专门开发的"EdgeSHAPer"方法和一种概念上不同的比较方法,分析了总共六种不同的图神经网络架构。这些计算机程序"筛查"了 GNN 是否按照研究人员的意图和预期,学会了化合物与蛋白质之间最重要的相互作用,从而预测了配体的效力,或者人工智能是否以其他方式得出了预测结果。
Jürgen Bajorath 教授博士--来自波恩大学 LIMES 研究所、波恩-亚琛国际信息技术中心 (B-IT) 以及拉马尔机器学习与人工智能研究所。资料来源:波恩大学
该研究的第一作者、罗马萨皮恩扎大学的博士生 Andrea Mastropietro 说:"GNN 非常依赖于它们所训练的数据。"
科学家们用从蛋白质配体复合物结构中提取的图形训练了六个 GNN,这些配体的作用模式和化合物与目标蛋白质的结合强度已通过实验得知。然后在其他复合物上对训练有素的 GNN 进行测试。随后的 EdgeSHAPer 分析使我们得以了解 GNN 是如何产生明显有希望的预测结果的。
Bajorath 教授解释说:"如果 GNNs 达到了预期的效果,那么它们就需要学习化合物与目标蛋白质之间的相互作用,并通过优先考虑特定的相互作用来确定预测结果。然而,根据研究小组的分析,这六种 GNN 基本上没有做到这一点。大多数 GNN 只了解了一些蛋白质与药物之间的相互作用,而且主要集中在配体上。为了预测分子与目标蛋白质的结合强度,模型主要'记忆'它们在训练过程中遇到的化学相似分子及其结合数据,而不管目标蛋白质是什么。然后,这些学习到的化学相似性基本上决定了预测结果"。
科学家们认为,这在很大程度上让人想起了"聪明的汉斯效应"。这一效应指的是一匹会数数的马。汉斯敲击蹄子的频率本应显示计算的结果。但后来发现,这匹马根本不会计算,而是根据同伴面部表情和手势的细微差别推断出预期结果。
这些发现对药物发现研究意味着什么?这位化学信息学家说:"一般来说,GNN 学习活性物质和蛋白质之间的化学相互作用是站不住脚的。它们的预测在很大程度上被高估了,因为利用化学知识和更简单的方法就能做出同等质量的预测。不过,这项研究也为人工智能提供了机遇。在接受 GNN 检验的模型中,有两个模型显示出一种明显的趋势,即当测试化合物的效力增加时,它们会学习到更多的相互作用。"这里值得仔细研究。也许通过修改表征和训练技术,这些 GNN 还能朝着理想的方向进一步改进。不过,对于可以根据分子图学习物理量的假设,一般来说应该谨慎对待。人工智能不是黑魔法。"
人工智能黑暗中的更多曙光
事实上,在他看来,EdgeSHAPer 和其他专门开发的分析工具之前的公开发表,是揭示人工智能模型黑箱的有希望的方法。他的团队目前的工作重点是 GNN 和新的"化学语言模型"。
"开发解释复杂模型预测的方法是人工智能研究的一个重要领域。还有一些针对语言模型等其他网络架构的方法,有助于更好地理解机器学习如何得出结果,"他希望拉马尔研究所在"可解释的人工智能"领域也能很快取得令人兴奋的成果。
参考文献:Andrea Mastropietro、Giuseppe Pasculli 和 Jürgen Bajorath 的"预测蛋白质配体亲和性的图神经网络的学习特征",2023 年 11 月 13 日,《自然-机器智能》。
DOI: 10.1038/s42256-023-00756-9
编译来源:ScitechDaily