研究人员利用被称为大型语言模型的人工智能模型,在根据蛋白质序列预测蛋白质结构方面取得了重大进展。 然而,将这种方法应用于抗体却被证明更具挑战性,这主要是由于这些蛋白质固有的高度可变性。
为了克服这一限制, 麻省理工学院的研究人员开发了一种计算技术,允许大语言模型更准确地预测抗体结构。 他们的工作可以让研究人员从数百万种可能的抗体中筛选出可用于治疗SARS-CoV-2和其他传染病的抗体。
西蒙斯数学教授、麻省理工学院计算机科学与人工智能实验室(CSAIL)计算与生物学组组长邦妮-伯杰(Bonnie Berger)是这项新研究的资深作者之一。他说:"如果我们能帮助阻止制药公司用错误的东西进行临床试验,那真的会节省很多钱"。
这项技术的重点是对抗体的超变异区进行建模,它还具有分析个体整个抗体复合物的潜力。 这可能有助于研究对艾滋病等疾病反应超强的人的免疫反应,帮助找出为什么他们的抗体能如此有效地抵御病毒。
麻省理工学院生物工程副教授、麻省总医院、麻省理工学院和哈佛大学拉贡研究所成员布莱恩-布赖森(Bryan Bryson)也是这篇论文的资深作者,该论文最近发表在《美国国家科学院院刊》上。 前CSAIL研究科学家、现任杜克大学生物统计学、生物信息学和细胞生物学助理教授罗希特-辛格(Rohit Singh)和22岁的Chiho Im是论文的主要作者。 赛诺菲公司和苏黎世联邦理工学院的研究人员也参与了这项研究。
超变异性建模
蛋白质由氨基酸长链组成,可以折叠成大量可能的结构。 近年来,利用 AlphaFold 等人工智能程序预测这些结构变得更加容易。 其中许多程序,如 ESMFold 和 OmegaFold,都是基于大型语言模型开发的,这些模型最初是为了分析大量文本而开发的,可以让它们学会预测序列中的下一个单词。 这种方法同样适用于蛋白质序列--通过学习不同的氨基酸模式最有可能形成哪些蛋白质结构。
然而,这种技术并不总是适用于抗体,尤其是抗体中被称为超变异区的部分。 抗体通常呈"Y"形结构,这些超变异区位于"Y"形结构的顶端,抗体在这里检测并与外来蛋白质(也称为抗原)结合。 Y 形结构的底部提供结构支撑,帮助抗体与免疫细胞相互作用。
超变异区的长度各不相同,但通常包含少于 40 个氨基酸。 据估计,人类免疫系统可以通过改变这些氨基酸的序列产生多达 1 万亿种不同的抗体,从而帮助确保人体能够对种类繁多的潜在抗原做出反应。 这些序列不像其他蛋白质序列那样受到进化的限制,因此大型语言模型很难学会准确预测它们的结构。
辛格说:"语言模型之所以能够很好地预测蛋白质结构,部分原因在于进化对这些序列的约束方式,而模型能够解读这些约束的含义。这类似于通过观察句子中单词的上下文来学习语法规则,让你弄清楚它的意思。"
为了给这些超变异区域建模,研究人员在现有蛋白质语言模型的基础上创建了两个模块。 其中一个模块以蛋白质数据库(PDB)中约 3000 个抗体结构中的超变序列为基础进行训练,从而了解哪些序列倾向于生成类似的结构。 另一个模块是根据约 3700 个抗体序列与三种不同抗原的结合强度相关联的数据进行训练的。
由此产生的名为AbMap的计算模型可以根据氨基酸序列预测抗体结构和结合强度。 为了证明这一模型的实用性,研究人员用它来预测能强烈中和 SARS-CoV-2 病毒尖峰蛋白的抗体结构。
研究人员从一组被预测能与这一目标结合的抗体开始,然后通过改变超变区产生了数百万个变体。 与基于大型语言模型的传统蛋白质结构模型相比,他们的模型能够更准确地识别出最成功的抗体结构。
然后,研究人员又将这些抗体分为具有相似结构的几组。 他们与赛诺菲公司的研究人员合作,从每个群组中选择抗体进行实验测试。 实验发现,这些抗体中有82%的结合强度优于模型中的原始抗体。
研究人员说,在开发过程的早期识别出各种优秀的候选药物,可以帮助制药公司避免花费大量资金测试候选药物,但最终却以失败告终。
"他们不想把所有鸡蛋都放在一个篮子里,"辛格说。"他们不想说,我打算采用这种抗体并进行临床前试验,结果却发现它是有毒的。 他们更希望有一组好的可能性,并将它们全部通过,这样如果其中一个出了问题,他们还有一些选择。"
比较抗体
利用这种技术,研究人员还可以尝试回答一些长期存在的问题:为什么不同的人对感染的反应不同? 例如,为什么有些人会患上严重得多的COVID,为什么有些人接触到艾滋病毒后从未被感染?
科学家们一直试图通过对个体的免疫细胞进行单细胞RNA测序和比较来回答这些问题,这一过程被称为抗体复合物分析。 以前的研究表明,两个不同人的抗体库可能只有10%的重叠。 然而,测序并不能像结构信息那样全面地反映抗体的性能,因为两种具有不同序列的抗体可能具有相似的结构和功能。
新模型可以快速生成个体体内所有抗体的结构,从而帮助解决这一问题。 在这项研究中,研究人员发现,当结构被考虑在内时,个体间的重叠率远远高于序列比较中的10%。 他们现在计划进一步研究这些结构如何有助于人体对特定病原体的整体免疫反应。
辛格说:"这正是语言模型非常适合的地方,因为它具有基于序列分析的可扩展性,但又接近于基于结构分析的准确性。"
编译自/scitechdaily