为何诺贝尔化学奖又颁给AI?万字详解:AI重塑结构生物学
2024 年 10 月 9 日北京时间 17 时 45 分许,戴维·贝克(David Baker)因计算蛋白质设计,戴米斯·哈萨比斯(Demis Hassabis)和约翰·江珀(John Jumper)因蛋白质结构预测共同获得 2024 年诺贝尔化学奖。
戴维·贝克(David Baker)是美国化学家、计算生物学家,华盛顿大学教授、蛋白质设计研究所主任,计算蛋白质设计和预测领域先驱。贝克1962年出生于美国华盛顿州,1984年在哈佛大学取得生物学学士学位,1989年获得加利佛尼亚大学伯克利分校生物化学博士学位, 并在加利福尼亚大学旧金山分校完成生物物理方向的博士后训练。贝克是被广泛使用的蛋白质结构从头设计和预测软件“罗赛塔”的发明人,他的团队还设计出了首个具有全新折叠结构的人工蛋白质Top7。
戴米斯·哈萨比斯(Demis Hassabis)是英国计算机科学家,人工智能研究者、前游戏设计师,DeepMind(现Google DeepMind)联合创始人及首席执行官。哈萨比斯1976年出生于英国伦敦,幼年便展现出惊人的智力天赋,13岁达 到国际象棋大师水平。青少年时代的哈萨比斯大部分时间在家由父母辅导自学,15岁时开始游戏设计师生涯,并在21岁获得剑桥大学计算机科学学位。毕业后,他继续游戏设计师工作,运用AI算法参与开发了著名游戏《黑与白》、《共和国:革命》和《邪恶天才》;在此过程中,他对神经科学产生浓厚兴趣并重返校园,2009年获得伦敦大学学院认知神经科学博士学位,其后在麻省理工学院-哈佛大学进行神经科学和人工智能研究。2010年,哈萨比斯在英国伦敦联合创立机器学习公司DeepMind,并带领团队先后发布震撼世界的AlphaGo、AlphaFold系列模型。在Google收购 DeepMind 后,哈萨比斯带领团队主导了Google最先进的人工智能模型Gemini的开发。
约翰·江珀(John Jumper)是 Google DeepMind 高级研究员。江珀 1985 年出生于美国阿肯色州,2007 年在美国范德比尔特大学取得物理学和数学学士学位, 2008 年在英国剑桥大学取得理论凝聚态物理学硕士学位。之后,江珀在美国生物化学研究公司 D. E. Shaw Research 担任了 3 年科学助理,利用计算机模拟进行分子动力学研究,并开发了一种从这些模拟中提取关键数据的算法。2017 年,江珀在美国芝加哥大学取得理论化学博士学位,利用机器学习模拟蛋白质折叠和动力学研究。之后,他又在芝加哥大学完成了博士后研究,继续从事蛋白质预测深度学习模型的研究工作。2018 年起,江珀进入英国 DeepMind 公司担任高级研究员。在 DeepMind 公司,江珀和 同事开发了AlphaFold 系列模型,他也是 AlphaFold2 开发团队的领导者。
《环球科学》杂志2024年10月新刊推出“ AI重塑结构生物学” 系列专题文章, 恰逢其时地对今年诺贝尔化学奖的成果及三位获奖者的研究进行了深入解读 。文章系统梳理了计算蛋白质设计与结构领域的发展历程,并详尽解析了其中的重大突破与前沿进展。为方便读者系统完整地了解今年的获奖成果, 我们特将两万余字的专题内容全文刊出 。
撰文 | 亚塞明·萨普拉科格卢(Yasemin Saplakoglu)
翻译 | 金烨 钟博子韬
审校 | 张阳
打破僵局的“罗塞塔”
2020年12月,上百位计算科学家端坐在各自的电脑屏幕前,见证了科学新纪元的展开。他们因为一场会议汇聚一堂。在这场友好的竞争中,一些人已经参与了近三十年,沉迷于探讨一个不变的问题——著名的“蛋白质结构预测问题”。它解释起来很简单:人们能否凭借最为简单的信息——一段蛋白质分子的一维序列,精准预测出它的三维结构?蛋白质维持着我们细胞与身体的活力和运转,由于它的行为取决于其形状与结构,因此成功解答这一问题将深刻影响我们对疾病、新药研发以及生命机制的理解。
这个会议每两年举办一次,科学家会在会议中测试自己最新研发的蛋白质结构预测工具。然而,解决方案总是遥不可及,其中一些人赌上了自己的全部科研生涯,试图提高预测的准确性。这场竞争始终处于婴儿学步阶段,所以大家并不认为2020年会有所不同。
但是,他们错了。就在那一周,一名叫约翰·江珀(John Jumper)的科学家在蛋白质结构预测这一领域崭露头角,他展示了一套全新的人工智能(AI)工具“阿尔法折叠2”(AlphaFold2),它是Google位于英国伦敦的人工智能子公司“深度思维”(DeepMind)的研发成果。在在线视频会议上,这名在该领域资历尚浅的科学家报告的数据表明,AlphaFold2的蛋白质三维结构预测模型准确率超过90%,是紧随其后的对手的5倍。
一瞬间,蛋白质结构预测从不可解的难题变成了不再令人痛苦的问题。人类思维陷入僵局,AI大获成功,一举震惊了生物学界。“我当时就惊呆了,”与会的美国哥伦比亚大学数学基因组学项目(Program for Mathematical Genomics)的系统生物学家穆罕默德·库雷希(Mohammed AlQuraishi)说,“很多人不愿意承认(AlphaFold2的成就)。”
但在总结发言中,会议组织者约翰·莫尔特(John Moult)以不容置疑的口气说道:AlphaFold2“在很大程度上解决了”蛋白质结构预测问题,自此彻底改变了蛋白质科学。莫尔特身穿黑色高领衫,坐在自家办公室的书架前,在会议软件上点击自己的幻灯片,语气激动又带着一丝不祥的口吻:“这不是终结,而是开始。”
当Google的公关部门将这一消息在全球大肆宣扬之后,媒体为之疯狂。各大头条口径一致:AlphaFold2“将改变一切”。而那些将一生贡献于探索单个蛋白质结构的结构生物学家们则心生恐惧,担心自己会失业。一些人主张AlphaFold2会革新药物研发,能让生物学家快速确定蛋白质结构,创造全新的靶向药物。其他人则反驳说这些结果大部分都是炒作,这个世界并不会因此出现什么变化。莫尔特自己也无法理解这个横空出世的新事物。会议结束时,他提出了一个每个人都想问的问题:“接下来怎么办?”
现在,时间已经过去了三年半,他这个问题终于能得到回应了。毫无疑问,AlphaFold2确实改变了生物学家研究蛋白质的方式。然而,尽管AlphaFold2是强大的预测工具,但它并非无所不能。它非常巧妙地使用不同于科学家的方法解决了一部分蛋白质结构预测问题,却无法取代生物实验,反而更加凸显了实验的必要性。
也许AlphaFold2最大的影响力是让生物学家注意到了AI的威力。它启发了新的算法,例如设计出自然界中并不存在的全新蛋白质,也催生了新的生物技术公司以及实践科学的新方法。它的新版本AlphaFold3在2024年5月上线,引领生物学预测技术进入下一阶段:构建蛋白质与其他分子(诸如DNA或者RNA)结合的复合体结构。“这是迄今为止最宏大的‘机器学习驱动科学’的故事。”库雷希说道。
不过,AI无法填补的鸿沟仍然大量存在。这类工具无法模拟蛋白质随着时间推移而发生的变化,或者说无法构建处于自身生存环境即细胞中的蛋白质的动态结构。而在科学家为AlphaFold2的预测能力折服之前,人类对蛋白质结构背后隐藏秘密的不懈追求,已经持续了半个多世纪。
问题的诞生
一张折纸不过是一层被压缩的木浆,直到以特定方式折叠,它才焕发新生。只需要几次精准地翻卷和压折,这张纸就能变成“算命大师”预言你的未来。在同一张纸上改变一些折叠步骤,一只纸鹤就此展翅而来,给收到它的人带来好运。
同样,一长串氨基酸分子链本身没有任何功能,直到它自发折叠成固有形状,生物学家称之为蛋白质结构。蛋白质的结构决定了自身与其他生命分子结合或相互作用的方式,从而定义它在细胞中的作用。
地球上已知的蛋白质种类上亿,未知的则更多。它们无所不能:血红蛋白和肌红蛋白在肌肉和身体中循环输送氧气。角蛋白为头发、指甲与皮肤提供结构框架。胰岛素协助葡萄糖进入细胞,转化成能量。蛋白质可以呈现无数形状结构,以匹配生命活动过程中无数的“工作需求”。“从原子到生态系统,(蛋白质结构)就像是一种通用语。”库雷希打比方道,“万物源自此处。”
细胞让名为氨基酸的小分子像雏菊花环一样连起来形成多肽长链,制造出蛋白质。它所选择的氨基酸取决于DNA提供的一连串指令。在这个创造过程中,多肽链一瞬之间就能弯曲扣合,精准折叠成蛋白质最终的三维结构。一旦脱离分子组装流水线,蛋白质就会立刻奔赴属于自己的生物学工作。
如果蛋白质无法顺利完成折叠过程,灾难将接踵而至,破坏身体功能。蛋白质错误折叠或展开都会产生毒性,导致细胞死亡。许多疾病与身体障碍,例如镰状细胞贫血,都由蛋白质错误折叠造成。此外,错误折叠的蛋白质还会凝聚成斑块,成为阿尔茨海默病和帕金森病等神经退行性疾病的生物学标志。
然而,无人确切知晓蛋白质折叠究竟是如何发生的。这些简单分子链中的序列信息如何编码蛋白质的复杂结构?这是“我们能够提出的最深刻的问题”,美国约翰·霍普金斯大学(Johns Hopkins University)大学的生物物理学名誉教授乔治·罗斯(George Rose)如此评价道。
科学家对这个问题的探索最早可追溯至20世纪30年代,但真正开始动手尝试解谜则是在50年代中期。当时,生物化学家克里斯蒂安·安芬森(Christrian Anfinsen)将蛋白质加入化学溶液中,试图打断化学键展开蛋白质,或者令其错误折叠。安芬森发现,被打开或错误折叠的蛋白质会自发重构成正确结构。这个后来为他赢得了诺贝尔奖的发现,表明蛋白质会根据其内部代码形成三维结构,这个代码是由它的氨基酸链书写的。
于是,安芬森假设,我们应该能找到一种方法,通过氨基酸序列来预测蛋白质的形状结构。这就是后来广为人知的“蛋白质折叠问题”。
一旦多肽链组装完成,蛋白质便能在千分之一秒内折叠成形,速度之快让分子生物学家塞勒斯·利文索尔(Cyrus Levinthal)困惑不已。在他1969年发表的论文《如何优雅折叠》(How to Fold Graciously)中,利文索尔计算出,如果蛋白质尝试每一种可能的折叠方式,那么组装完毕所需的时间可能会无限漫长。他思索着,显然一定有什么方法能更直接地“护送”蛋白走在正确折叠的道路上。
随着时间的推移,蛋白质折叠问题已经分化成了全新的类型。如今的科学家提出了三大主要问题:能否通过蛋白质氨基酸序列来预测蛋白质结构?蛋白质的折叠编码是什么?它的折叠机制又是怎样的?
20世纪60年代早期,随着首批实验确定的蛋白质结构相继问世,这些问题开始“钻入”科学家的大脑。英国剑桥大学(University of Cambridge)的两位生物学家马克斯·佩鲁茨(Max Perutz)和约翰·肯德鲁(John Kendrew)让蛋白质生长成晶体,用X射线轰击后测量射线偏折的程度,这一技术便是X射线晶体学(X-ray crystallography)。如此一来,他们就能确定血红蛋白和肌红蛋白的三维结构。这一过程耗费了两人二十多年的时间,最终为他们带来了诺贝尔奖。
自此之后,无数科研人员努力钻研,不仅想要理解不同蛋白质不同的结构形态,还想要知道它们是如何形成的。“想要看清事物的样貌是人的本性,因为只有知其然,才能知其所以然。”英国格拉斯哥大学(University of Glasgow)的结构生物学家海伦·沃尔登(Helen Walden)解释道。有些人从蛋白质化学入手,其他人则集中解决物理角度上的问题。实验科学家展开艰苦的研究工作,重构蛋白质结构;计算生物学家以各种方式结合算法进行编程和重编程,通过模型和模拟来捕捉线索。
随着被破解的蛋白质结构越来越多,这个领域需要新的方法来组织与共享信息。1971年,为蛋白质结构存档的蛋白质数据库(Protein Data Bank)成立了。这个免费的数据库成为了需要了解蛋白质结构、探索生物学问题的研究者的可靠研究工具。蛋白质数据库成立之初,里面只保存了7种蛋白质结构。50年之后GoogleDeepMind用它来训练AlphaFold2时,它所保存的蛋白质结构数量已超过14万,这都是结构生物学家在实验室内解析所得。
实验科学家的苦恼
从20世纪70年代中期开始,珍妮特·桑顿(Janet Thorntom)每隔几个月一定会收到一只邮包,里面是一盘12英寸磁带,记录着被存入蛋白质数据库的新结构数据。作为英国牛津大学(Oxford University)的生物物理学家,桑顿迫不及待地打开包裹,在新结构被发现后的第一时间展开分析。她收到的第一份磁带中只有20个结构。
每一个蛋白质结构都凝结着数年研究的心血。通常情况下,让单个蛋白质结晶,从中收集数据或解释数据以解析出折叠结构,需要一个博士生在研究生院里投入四年或更长的时间。牛津大学生物物理系当时是全球X射线晶体学的研究中心之一。1965年,蛋白质晶体学领域的先驱之一——戴维·菲利普斯(David Phillips)首先确定了溶菌酶的结构——这是我们的免疫系统用来攻击细菌的一种蛋白质。
使用X射线晶体学方法,牛津大学的生物物理学家绘制出了蛋白质电子密度图谱,图中电子集中的区域可能包含一个原子。桑顿和同事将电子密度图谱打印到塑料薄片上,一张又一张地叠放起来,创造出了蛋白质地理的 “等高线图”。
然后,他们将图片转变成物理模型。科学家将打印在塑料上的图谱放入名为“理查兹盒”(Richards box)的设备中,该设备1968年由牛津大学生物物理学家弗雷德里克·理查兹(Frederic Richards)发明,并以他的名字命名。理查兹盒的内部有一面以一定角度倾斜的镜子,能将图片反射到工作区域内,这样科学家就能真切地看清每一个原子之间的相对位置。接下来,他们使用圆球和小棍子,搭建出物理实体模型。
这一方法过程繁琐,限制颇多。1971年,后来成为著名晶体学家的路易丝·约翰逊(Louise Johnson)正在搭建磷酸酶的模型,它由842个氨基酸组成,是当时科学家研究的最大蛋白质。为了建模,约翰逊必须爬上两层楼高的理查兹盒,这是牛津为了她的研究专门建造的。
模型建成后,科学家用尺来测量各原子之间的距离,确定蛋白质结构坐标。“这个方法很古老,”桑顿说。接下来,他们将所有坐标数据输入计算机中,计算机版本的蛋白质结构看上去像一片密林,她继续解释道,原子杂乱聚集在一起,只有戴上3D眼镜,才开始能看到蛋白质的拓扑结构。“整个过程非常折磨人,”桑顿说,“但结果出来后又令人愉悦。”
经过年复一年的努力付出,一旦科研人员确信自己的蛋白质结构无误,他们就将数据提交给蛋白质数据库。1984年,数据库内存放了152种蛋白质结构,到了1992年,这一数字增长至747。
就在实验科学家努力建造物理模型的同时,另一批蛋白质生物学家——计算生物科学家却另辟蹊径。他们思考着安芬森对于可以通过氨基酸序列预测蛋白质结构的假说,并且有点儿过于自信了。
书写自己的法则
20世纪60年代初,还是本科生的约翰·莫尔特打算成为物理学家。然后,他了解到了蛋白质折叠问题。“有人举办了一场讲座,说生物太重要了,不能只留给生物学家。”他说,“我很自负地把这话当真了。”被讲座深深吸引的莫尔特将自己的职业生涯转向了另一个方向。
毕业之后,莫尔特进入了蛋白质晶体学领域。他破译出若干蛋白质结构,包括β-内酰胺酶(一种能破坏青霉素的细菌酶)。1970年他在牛津大学获得了分子生物物理学博士学位。但在开始博士后工作的时候,他厌倦了实验方法,开始转向日渐蓬勃的蛋白质计算领域。计算生物学家,可以说是实验科学家的对立面,他们编写计算机算法,尝试证明安芬森是对的:给程序投喂氨基酸链,让它生成正确的蛋白质结构。
从生物实验转向计算领域并非易事。莫尔特习惯了对每个蛋白质结构进行缓慢但细致的研究。而在新领域中,关于算法的论文一篇接一篇,常常宣称已经解决了蛋白质结构问题以及相关的子问题。
莫尔特对此持怀疑态度。“计算生物学领域发表的文章并不像我以前熟悉的研究那么严谨。”他说,“这并不是因为这个圈子里的人都是骗子,而是因为如果你进行计算研究,就是在虚拟世界中工作。”
在虚拟世界中,计算科学家编写自己的法则,而自然世界的法则在此不发挥作用。他们设计自己的算法,好让原子以某一方式凝聚在一起,或者让蛋白质总是向右或向左折叠。随着时间的推移,模型与现实越来越遥远。在一个完全处于自己掌控的世界中,人们很难始终保持严谨,莫尔特如此评价道。
尽管如此,他能看到这两个领域各自的优势。实验科学家的研究细致但缓慢;计算科学家迅速却偏离生物物理的现实,所以他们经常出错。于是,他想到,一定有一种方法,能够将这两个途径结合起来。
开始“跺脚”
20世纪90年代初,莫尔特和同事克日什托夫·菲德利斯(Krzysztof Fidelis)想出了一个办法来规范领域内混乱的形势。他们创立了一个群体性科学实验,称为“全球蛋白质结构预测比赛”(Critical Assessment of Structure Prediction,CASP)。
他们的思路很简单,作为CASP的组织者,莫尔特与菲德利斯会公布一张氨基酸序列清单,这些序列所代表的蛋白质结构已被实验科学家解析出来,但尚未公开发表。随后,全球的计算科学团队可以使用他们能想到的任何方法来预测蛋白质结构。将有一支独立的科学家团队评估后者的模型,将其与实验确定的结构做对比。
这个主意被推行开来,CASP很快成为了用计算生物学方法解决结构预测难题的试验场。当时AI还未诞生,计算方法主要涉及分子物理学模拟。对于科学家来说,这正是将自己的想法付诸实验,与同行公开测试的好机会。“这原本不是竞赛。”桑顿说,“但结果却成为了一场竞赛。”
每隔两年,科学家齐聚阿西洛玛会议中心(Asilomar conference center),这是一座位于美国加利福尼亚州蒙特利附近的古老教堂,曾是基督教新教卫理公会的静修场所。会议期间,组织者宣布竞赛结果,计算生物学家彼此交流自己的方法。如果与会者不喜欢他们听到的内容,莫尔特鼓励学者们在木地板上跺脚表达意见。
“一开始,跺脚声响成一片。”他说。曾跟随桑顿学习过的英国伦敦大学学院(University College London)生物信息学教授戴维·琼斯(David Jones)回忆道,“声响就跟打鼓一样。”如果会议陷入细节的泥沼,生物学家们就会跺脚;如果言过其实,他们也会跺脚;如果发言人不停重复或者过于啰嗦,他们还是会跺脚。当然,这些都是友好性跺脚,“并不令人生厌”。
无论出于何种原因,当嘈杂的跺脚声传入发言人的耳中,总会让人尴尬。“感谢上帝,我发言的时候从来没人跺脚。”琼斯说道,他的团队提出了一套名为“穿针引线”(threading)的计算方法,这种方法将氨基酸序列“编织”进已知的蛋白质结构中,据此来匹配正确的结构。结果还不错。“我们很满意,之后一切就顺理成章了。”琼斯笑着回忆道,“还充满乐趣。”
意大利帕多瓦大学(University of Padua)生物信息学教授西尔维奥·托萨托(Silvio Tosatto)说,当时大家都兴奋不已。“人们认为自己能成为百万富翁,因为他们掌握了正确的算法,还有一些人觉得自己马上就能得诺贝尔奖了。”
在最初几年内,什么都没发生。当被问及当时CASP的预测结果提交情况时,莫尔特顿了一下说:“随机是个不错的说法。”有些方法的表现超出预期,例如“同源性建模”(homology modeling),这种方法将已知蛋白质结构作为参照,用来推测未知的蛋白结构。其他方法则一无所获。大部分结构预测 “看上去都很折磨人”,莫尔特说道。
“我乐于看到他们失败。”荷兰癌症研究所(Netherlands Cancer Insitute)和乌特勒支大学(Utrecht University)的结构生物学家阿纳斯塔西斯·佩拉基斯(Anastassis Perrakis)开玩笑道。他向CASP组织者提供实验确定的结构,用于预测竞赛。“这不是竞争,但我们喜欢在科学上互相逗乐。”
在这一过程中,明显的领先者出现了。1996年,第二届CASP结束之后,一位名叫戴维·贝克(David Baker)的年轻人邀请琼斯一同坐车去机场。贝克听过琼斯的演讲,正在钻研自己的计算模型。虽然模型还没准备好参加CASP,但他很想先和琼斯聊一下。琼斯在车上听了他的想法,也没想过以后还会再见。
然而,1998年下一轮竞赛期间,贝克就带着自己的“罗塞塔”(Rosetta)算法一鸣惊人。他成为了“最难打败的人”,琼斯这样评价道。罗塞塔这样的算法模拟氨基酸分子中原子之间的相互作用,以此预测它们的折叠方式。这“表明你确实可以预测蛋白质结构,”贝克解释说,“但不够好,也不够精确,用途不大。”
2008年时,人类还能战胜计算机。贝克当时已经在美国华盛顿大学(University of Washington)拥有了自己的实验室。他开发了一款名为“折叠它”(Foldit)的免费在线游戏,玩家需要将给定的氨基酸链折叠成蛋白质结构。在一篇发表于《自然》(Nature)的论文中,他的团队报告说在模拟蛋白质结构方面,人类玩家的表现超越了罗塞塔算法。
然而,人类的领先优势并没有持续太久。在21世纪10年代初,“协同演化”(co-evolution)这一概念的重大突破推动了领域的发展,后来还成为了AI预测工具诞生的关键。这一概念已存在了几十年,解释起来相当简单:通过比较数百个乃至数千个密切相关但彼此不同的蛋白质的氨基酸序列,科学家能够识别出那些发生了突变氨基酸,重点是,还能确定它们是否与其他氨基酸同步突变。如果两个氨基酸共同变化,它们很可能以某种方式相连。“你就能说:‘这两个氨基酸在空间上可能很接近。’”美国劳伦斯伯克利国家实验室(Lawrence Berkeley National Laboratory)的结构生物学家保罗·亚当斯(Paul Adams)解释道。
但直到21 世纪10年代初,这种预测哪些氨基酸可能存在物理接触的准确率依然很低,徘徊在20%~24%。后来,科学家注意到自己的统计学方法会引入错误,数据表明一些氨基酸存在接触,但实际上并没有。接下来,莫尔特了解到,几十年来统计学家一直敏锐地知到这样的错误确实存在。他说,当你回头看时,你会想,“我怎么会这么蠢?”
计算生物学家改进了统计学工具。到2016年,氨基酸接触预测的准确率攀升至47%,两年之后则达到70%。贝克的算法便是建立在这一成功之上:2014年罗塞塔非常精准地生成了两个蛋白质结构,CASP评估方甚至认为贝克可能解决了蛋白质结构预测的难题。
协同演化的见解“绝妙无比”,亚当斯如此说道。在不使用机器学习的情况下,协同演化是“推动领域前进的重大事件之一”。然而,该领域的发展仍然有限。协同演化要求大量的相似蛋白质彼此比对,而实验科学家解析蛋白质结构的速度没那么快,无法满足计算科学家的需求。对此,莫尔特套用了一个演化生物学术语:研究蛋白质结构预测的进度是一种“间断平衡”。有时候,大家觉得好像几十亿年都没出现什么好想法,然后,一些令人振奋的事情就会发生。
AlphaFold2一鸣惊人
2016年,戴维·琼斯(David Jones)在《自然》(Nature)杂志发布的一篇新论文中瞥见了未来。在这篇论文中,Google(Google)旗下、位于英国伦敦的人工智能团队深度思维的研究人员详细描述了他们如何使用一种名为“深度学习”(deep learning)的算法,在古老的围棋游戏中击败了人类冠军。这一成果令琼斯十分惊讶。“形势正在变化,”他回忆起当时自己的想法,“我意识到了解深度学习迫在眉睫。”
深度学习是一种受人脑启发而开发的人工智能方法。在大脑中,分子信息通过神经元组成的一个神经网络传递。神经元是脑细胞的一种,它们有一些名为树突的小手臂,可以“抓住”邻近神经元释放的信号分子(也称为神经递质),这些信号分子会告诉接收的神经元是否激活并传播信号。“如果神经元接收到足够多的刺激,那么它就会激活并释放信号分子,”美国布朗大学计算机科学教授迈克尔·利特曼(Michael Littman)说道。这些信号分子被释放后,会传递给下一个神经元。
20世纪50年代,一些计算机科学家意识到,他们可以将电子比特连接在一起,创建一个“人工神经网络”(Artificial Neural Network,ANN)。ANN中的每个单元都是一个节点,研究人员将其比作一个人工神经元:在ANN中,人工神经元接受来自其他人工神经元的信息,并通过计算决定是否需要向下一个人工神经元传递信号。信息会通过多层人工神经元传播,以产生一个特定的结果,例如从一张图像中识别出一只狗。神经元层数越多,进行的计算就会越复杂。然而,早期的ANN仅有两层神经元。在20世纪90年代,这一数量增加到三层,并一直维持了20年。“我们无法找到可靠的方法来创建更深层的网络,”利特曼说道。
自20世纪90年代以来,包括琼斯和约翰·莫尔特(John Moult)在内的结构生物学家就一直在尝试将ANN应用于蛋白质科学。然而,浅层神经网络的局限性和稀疏的数据阻碍了他们前进。不过在大概十年之前,计算机科学家学会了如何更好地构建ANN,从而可靠地训练更多层的网络。ANN的深度从20层、50层、100层逐渐增加到数千层。“为了将这些新网络与上世纪90年代的ANN区分开来,人们开始称其为‘深度学习’,”利特曼说道,“如果说机器学习领域的人特别擅长哪件事,那一定是起一些有吸引力的名字。”深度学习彻底变革了人工智能,让算法不仅在图像和语音识别方面表现卓越,甚至在游戏中击败了人类。
2016年3月,当DeepMind的联合创始人戴米斯·哈萨比斯(Demis Hassabis)在韩国首尔观看他的AI系统“阿尔法围棋”(AlphaGo)在围棋比赛中击败一位人类世界冠军时,他突然回想起自己在大学时玩蛋白质折叠游戏Foldit的经历。他不禁思考:既然DeepMind的研究人员能够编写一个模仿围棋大师直觉的算法,他们是否也能开发出一个算法,去模拟Foldit玩家对生物学一无所知但仍能成功折叠蛋白质的直觉呢?
美国芝加哥丰田计算技术研究院(Toyota Technological Institute at Chicago)的教授许锦波(Jinbo Xu)也意识到了深度学习在解决蛋白质结构预测中的潜力。当时,计算机科学家在卷积神经网络(Convolutional Neural Networks,CNN)中取得了巨大成功,在这种网络中,算法会将图像分解为小块,并通过识别这些小块之间的模式来处理图像。受到这些图像处理网络的启发,许锦波将这一技术引入蛋白质结构预测。他使用一种叫做矩阵的数学对象,来描述在空间上彼此接近的氨基酸,然后将这个矩阵作为图像输入CNN。算法会在这些图像中寻找规律,以预测蛋白质中各个原子的三维坐标。
2016年,许锦波在预印本文库arXiv上发布了研究成果,并随后将其发表在《公共科学图书馆·计算生物学》(PLOS Computational Biology)上。莫尔特说,“这项工作在该领域产生了深远的影响,它向人们展示了‘如何使用深度学习来做这类事情(比如蛋白质结构预测)’。”没过多久,许多蛋白质结构研究小组也开始尝试深度学习。穆罕默德·库雷希(Mohammed AlQuraishi)和他的研究团队开发了首个完全依靠ANN直接预测蛋白质结构的方法,这类方法也被称为“端到端”方法——尽管预测效果并不理想。其他研究者也开始探索这种革命性的新方法。
“最初我并不完全知道自己想用深度学习来解决什么具体问题,但我意识到我需要进入这一领域,”琼斯说道。于是,他开始撰写经费申请以寻找自己的方向,就在这时,他恰巧收到了来自DeepMind的电子邮件。他们询问了琼斯关于全球蛋白质结构预测比赛(CASP)的情况,并表示愿意提供帮助。“我以为他们的意思只是想说:我们拥有很多算力,”琼斯说道。然而,在琼斯见到他们之后,他发现Google显然有更大的雄心壮志。而为了实现这些目标,这家科技巨头需要更多学术界的人才。
新秀登场
2016年,当琼斯开始作为顾问参与DeepMind的项目时——即后来的阿尔法折叠(AlphaFold),约翰·江珀(John Jumper)正在美国芝加哥大学攻读他的理论化学博士学位。江珀在青年时期不仅自学了编程,还展现出物理方面的天赋。所以当他进入大学时,尽管他的工程师父母担心他将来可能很难找到工作,但他还是坚定选择了数学和物理专业。“我一直认为自己会成为一名研究‘宇宙法则’的物理学家,”江珀说,“我一直很喜欢这种探索宇宙真理的想法。”
在美国范德比尔特大学(Vanderbilt University)就读本科期间,他与费米实验室的研究人员合作研究一种名为夸克的亚原子粒子的独特性质。一天,当他和很多研究人员一起坐在午餐桌旁时,他听到了一个令人沮丧的消息。“我们正在设计的这个实验,什么时候会启动?”江珀回忆起当时曾这样问道。一位教授表示可能要等到他退休后,而另一位更年长的教授说,他可能看不到那一天了。
“我希望从事一些时间周期更短的科学研究,”江珀说道。本科毕业后,他开始攻读凝聚态物理学的博士学位,但很快便辍学了。这之后他在位于纽约的D.E. 肖研究公司(D.E. Shaw Research)找到了一份工作,这家公司当时正在进行蛋白质动力学模拟的基础研究。通过了解蛋白质如何运动和变化,他们希望能够更好地理解各种疾病(例如肺癌)的致病机制。
这是江珀第一次了解到自己的工作具有潜在的重大意义:“这关乎人类的健康,能延长人们的生命”。在接下来的3年里,江珀在公司的超级计算机上模拟蛋白质的运动,这些超级计算机专门用于加速分子动力学模拟。“有时候我花一天时间进行的模拟比我整个博士期间的总和都要多,”他说。
2011年,他再次攻读博士学位,这次是在芝加哥大学学习理论化学。他仍然对蛋白质的结构和运动充满兴趣,但同时也为学术界缓慢的研究进展而沮丧。“我不再能使用D.E. 肖研究公司那些定制的计算机硬件了,”江珀说道。他想知道是否可以使用人工智能——“当时我们称之为统计物理学”——来实现快速的蛋白质模拟,这个过程通常需要借助先进的机器才能实现。于是他开始涉足机器学习和ANN。
也是在此期间,他开始思考蛋白质结构预测的问题。他认为利用蛋白质数据库(Protein Data Bank, PDB)中的结构作为训练数据就能解决这个问题——到2012年时,该数据库已包含超过7.6万个蛋白质结构。“我相信这些数据是足够的,”江珀说道,“但当时的方法还不够成熟。”
在博士期间,江珀一直致力于利用机器学习来模拟蛋白质的折叠和运动过程。2017年,刚获得博士学位的他听闻DeepMind正在开展蛋白质结构预测,便申请了研究科学家的职位。“当时这个项目仍然是保密的,”江珀说道。在面试中,只要他提到蛋白质结构预测,DeepMind团队就会迅速转移话题,“然而,正是因为他们这样做了太多次,我才确信他们确实在做这件事情。”
2017年10月,江珀来到了DeepMind位于伦敦的办公室。在琼斯的帮助下,团队已经在对AlphaFold进行深入的开发工作。“那段时间非常有趣,我们会不停地提出各种想法。”琼斯说道,“最终一个好的核心想法浮现出来,团队便开始沿着这个方向展开工作。”为了训练他们的算法,DeepMind团队使用了PDB中超过14万个蛋白质结构。他们将这些信息输入到一个CNN中,但对人工智能架构本身没有进行太多改动。“这是 ‘标准的机器学习’”,江珀说道。
到2018年春天,AlphaFold已经准备好参加CASP,与真正的蛋白质科学家们展开竞争。“这有点像F1赛车,”琼斯回忆道,“你以为你造了最好的车,但你不知道其他团队造了什么。”这场比赛的风险很高,DeepMind团队讨论了是否应该匿名参赛,毕竟他们不想冒着被羞辱的风险。“没有人想失败。”琼斯说,“在学术界,这是研究工作的一部分。如果你失败了就只能继续前进,因为你没有其他选择。但如果你是一家市值数十亿美元的科技公司,尝试做某事却失败了,这显然会给外界留下不好的印象。”
他们最终还是决定以DeepMind的名义提交结果。在12月召开的CASP会议的前几个月,琼斯收到了CASP组织者的消息。他们建议DeepMind团队来参加会议,因为AlphaFold表现非常好,它在超过一半的蛋白质结构预测中,给出了最好的预测。尽管这次胜利并不算特别耀眼,其蛋白质结构预测总分只比第二名高13分,但也给人留下了深刻印象。“显然,一些有趣的事情发生了,”莫尔特说道。
算法新生
这场胜利极大地鼓舞了DeepMind团队,但他们深知距离彻底解决蛋白质结构预测问题还有一段很长的路要走。哈萨比斯再次将他们聚集在一起。“我们要继续攻克这个问题吗?”江珀回忆起哈萨比斯的话,“如果不继续,那就去寻找那些我们能产生巨大影响的问题。”江珀继续说,“有那么一刻,我们决定要把这个问题彻底解决。”于是,他们重新回到起点,开始新一轮的研究。
凭借着在物理、化学、生物学和计算领域的多样化背景,江珀给那些头脑风暴会议带来了独特的见解。不久后,他开始领导这个团队,团队的规模也从最初的6人扩大到了15人。“有一些非常特别的事情正在发生,”拉斐尔·汤曾德(Raphael Townshend)说道。2019年,他曾在DeepMind实习,后来创办了由人工智能驱动的生物科技公司“原子人工智能”(Atomic AI)。
在学术界,专家们往往彼此分隔,各自研究一些独立项目,很少寻求合作。而在DeepMind,来自统计学、结构生物学、计算化学、软件工程等领域的专家们齐聚一堂,共同研究蛋白质结构预测问题。他们还拥有Google提供的庞大财力和计算资源。“我在博士期间需要花费几个月完成的事情,在这里一天就能完成,”汤曾德说道。
“位于伦敦的DeepMind办公室充满活力,而其中的大部分活力都来自江珀。”汤曾德说,“我认为他是一个真正的天才,同时也是一个非常谦逊的人。”美国计算机科学家埃伦·钟(Ellen Zhong)说道:“他深受团队的喜爱。”钟曾于2021年在DeepMind实习,现在是美国普林斯顿大学(Princeton University)的助理教授。
在江珀的领导下,团队对AlphaFold进行了重构,开发了AlphaFold2。DeepMind设计了一种新型的转换架构(Transformer)——“在过去5年中,这种深度学习模型几乎推动了所有机器学习算法实现突破”,汤曾德说道。这种ANN通过调整连接的强度来建造更精确的数据表征,在AlphaFold2中用于处理蛋白质的演化和结构数据。随后,这些数据会被第二个Transformer架构用来预测一个蛋白质的三维结构。AlphaFold2将预测的结构与一些修正数据继续输入这些架构中,以进一步优化预测的蛋白质结构。
“当我们刚开始研发AlphaFold2时,算法表现得非常糟糕,但并没有我们预期的那么糟。”江珀说,“它得到了一些看起来有点像蛋白质的螺旋结构。”但随着他们进一步优化算法,他们注意到预测的效率和准确性都大幅提高。“这确实让人有些害怕。”江珀说道,“如果它表现得太好,通常意味着你做错了什么。”但他们检查后没有发现任何问题,AlphaFold2确实在正常工作。
团队决定进行一项内部实验,看看他们的系统是否对生物学家有所帮助。他们挑选了大约50篇发表在《科学》(Science)、《自然》(Nature)和《细胞》(Cell)等顶级期刊上的论文。这些论文不仅描述了一种新的蛋白质结构,还从蛋白质的结构中得出了一些关于其功能的见解。他们想看看AlphaFold2的表现能否与实验人员费时费力获得的研究成果相媲美。
于是,他们将这些氨基酸序列输入AlphaFold2的预测引擎。对于每个序列,它给出的预测都很接近论文中的实验获得的蛋白质结构。然而,在DeepMind团队看来,这仍然不够准确,这些结构中缺少实验研究人员从蛋白质中获得的一些关键细节。“你认为自己跑完了比赛,却发现只是跑了一半,”江珀说道。在接下来的6个月里,团队进一步优化了系统,一点一点地改进细节。在2020年CASP的蛋白质结构预测名单发布前几周,他们又进行了另一次有效性测试,江珀对这次结果感到满意。DeepMind在2020年春季向CASP提交了他们的预测结果,接下来是等待最终结果。
震惊世界
到初夏时,莫尔特收到了一封来自CASP评估员的电子邮件,写着“看看这个,真是令人印象深刻”。邮件的附件是一个AlphaFold2预测的蛋白质结构。莫尔特非常惊讶,但他认为这只是一次偶然的成功。
紧接着,他收到了一封又一封这样的电子邮件。“这很不寻常,”他回忆起当时的想法。有3个、4个甚至一大堆近乎完美的蛋白质预测结构,而它们全部来自AlphaFold2。到夏末时,莫尔特说,“我们迅速意识到,有一些极其超乎想象的事情发生了。”
CASP评估员会将每个提交的蛋白质预测结构与相对应的、经过实验获得并验证的结构进行比较,给出评分。满分为100分,意味着预测的结构与实际结构中的每一个原子都能完美匹配。莫尔特一直认为,任何超过90分的结果都能表明算法已经有效地解决了蛋白质的结构预测问题。AlphaFold2预测的大多数结构都已经达到甚至超过了90分。会议召开的前几个月,莫尔特打电话告诉了江珀这个消息。“我激动得爆了粗口,”江珀回忆道,“妻子当时还问我是否还好。”
2020年12月,新冠疫情暴发不足一年之际,江珀在CASP的视频会议上展示了AlphaFold2。和其他与会者一样,琼斯在家观看了会议。“我完全呆在那里……看着一切徐徐展开,”他说,“我没有发泄情绪的途径,因为同事们都不在身边……我们都处于疫情防控中,哪也去不了。”
对于任何不是ANN专家的人来说,其中的概念听起来会都很复杂。不过即便如此,结论却很明确:DeepMind已经解决了蛋白质的结构预测问题,他们开发的AlphaFold2能够基于蛋白质的氨基酸序列来准确预测其结构。“唉,我最喜欢的课题完蛋了,”琼斯回忆道,“DeepMind杀死了比赛,一切都结束了。”多年以来,阿纳斯塔西斯·佩拉基斯(Anastassis Perrakis)一直向CASP提交未发表的蛋白质结构的实验结果以供比赛使用。当他看到AlphaFold2预测的、他的研究团队辛苦获得的一个蛋白质结构时,他心想:“完了。”AlphaFold2完全正确地预测了该蛋白质的结构。在疫情防控期间,独自在家的科学家们一致认为蛋白质科学的世界至此永远改变了。当他们展望这片新的领域时,心中只有一个问题:接下来怎么办?
从预测到创造
结构生物学家突然陷入了混乱。“一开始,许多人进行了深刻的反思”,西尔维奥·托萨托(Silvio Tosatto)说道,他从全球蛋白质结构预测比赛(CASP)的早期就开始参加这项比赛。一些结构生物学家担心,他们的工作可能会变得过时。另一些人则表现出防御性姿态,声称“阿尔法折叠2”(AlphaFold2)的预测结果并不准确。
这一刻,那些长期致力于解决蛋白质结构预测问题的计算生物学家感到苦乐参半,他们其中一些人甚至已经研究了数十年时间。CASP赛后,穆罕默德·库雷希(Mohammed AlQuraishi)撰写了一篇博客文章,其中引用了一位与会者的话,他形容这感觉就像自己的孩子第一次离开家。
尽管对这种备受瞩目的新工具感到不安,但许多科学家还是欣喜若狂。过去,那些不从事蛋白质结构研究的科学家,在进行涉及多学科问题的研究时,必须与结构生物学家合作,才能确定实验中的蛋白质结构。现在,他们只需按几个按钮,只靠自己就能得到结构。
在媒体上,AlphaFold2被形容为将“改变一切”的崭新的人工智能(AI)突破。但科学家花了数月甚至数年的时间,才终于理清AlphaFold2的能力和局限性。大约是在约翰·江珀(John Jumper)演讲的6个月后,Google子公司“深度思维”(DeepMind)发表了他们的结果,并公开了AlphaFold2的底层代码。生物学家开始尝试使用这个工具。阿纳斯塔西斯·佩拉基斯(Anastassis Perrakis)说:“AlphaFold2发布的第二天,我们就试着把它装到了我们的图形处理单元(GPU)服务器上。”
珍妮特·桑顿(Janet Thornton)表示:“我原本以为AlphaFold2会失败,但它实际上取得了惊人的成功。”渐渐地,人们开始意识到,AlphaFold2不仅不是一种威胁,反而可能成为加速研究的催化剂。它没有让结构生物学家失业,而是给他们提供了一个新的工具,让他们更好地完成工作。海伦·沃尔登(Helen Walden)说:“如果你只是把结构生物学家看作解析蛋白质结构的技术专家,那么是的,结构生物学家当然会失业。”但这样说就好比认为,人类基因组计划让基因组学家变得多余了,因为他们不再能发表解析单个基因序列的论文了。
在许多情况下,结构生物学家的目标是通过研究蛋白质的结构来发现其功能。有了AlphaFold2,他们就能基于这种工具在几分钟内生成的蛋白质结构,提出关于蛋白质功能的假设,而不必事先通过数月甚至数年的实验来解析结构。保罗·亚当斯(Paul Adams)说:“它在许多方面都推动结构生物学向着更好的方向发展,这并非一件坏事,反而会让这个研究领域变得更加令人兴奋。”
然而,AlphaFold2并未像一些人预测的那样立即带来各种新药。研究人员很快了解到,这个工具也有局限性:AlphaFold2的预测并不完美。佩拉基斯说,它预测的结果仍需通过实验验证,但你“可以更快地开始具体结构的研究”。现在,当他的学生开始一个新课题时,他们会首先使用AlphaFold2预测特定蛋白质的结构,然后再用实验验证。
佩拉基斯认为,他和其他研究人员仍会在一定程度上继续使用X射线晶体学。但是,为了得到初始的蛋白质结构,许多人已经开始将深度学习预测的蛋白质结构与先进的电子显微镜技术(例如冷冻电子显微术)结合使用。冷冻电子显微术(cryo-EM)又称冷冻电镜术,是一种用于分析快速冷冻的含水生物样品的透射电镜成像技术,通过电子轰击样品进行分析。将这两种技术相结合之后,研究人员就能迅速开展对蛋白质功能的研究,专注于研究更有趣的科学问题。库雷希表示,AlphaFold2“极大推动了”冷冻电子显微术的应用。
转变已经开始了。2022年6月,《科学》(Science)的一期特刊揭示了人类核孔复合体近原子水平分辨率的结构。对于这个由30种不同蛋白质组成的庞大而复杂的蛋白质复合体,其结构解析几十年来一直是生物学中的难题。这群科学家使用AlphaFold2的预测结果,填补了核孔复合体中未能用冷冻电子显微术解析的部分。江珀表示,当他读到这篇论文,看到其他科学家利用AlphaFold2取得了生物学上的突破,就是在那一刻,他意识到“AlphaFold2确实非常重要”。
过去三年中,类似核孔复合体这样的发现点缀了蛋白质科学领域的发展历程。AlphaFold2已经预测了许多蛋白质结构,它们帮助科学家研究疾病并创造了新的药物递送工具。美国博德研究所(Broad Institute)的分子生物学家张锋说:“它对我们非常有帮助。”他用AlphaFold2设计了一种分子注射器,用于将药物递送到人体细胞中。除了药物递送,了解蛋白质的结构也有助于药物开发:例如,如果研究人员能找到紧密贴合靶标蛋白形状并能改变其功能的分子,它就有潜力作为药物。尽管一些研究表明,AlphaFold2的预测结果并不如实验得到的结构有用,但也有研究表明AlphaFold2的预测结果同样有效。总的来看,AI工具对药物发现的全面影响仍在逐步显现。
然而,在预测已知蛋白质的结构和功能之外,一些生物学家已经在尝试将AlphaFold2用于其他用途。他们转而用人工智能设计自然界中不存在的蛋白质,这一技术对设计新型药物至关重要。
开拓新领域
观看了江珀在2020年CASP会议上的演讲后,戴维·贝克(David Baker)几乎立即就回到了他的罗塞塔(Rosetta)算法工作中。当时,Google尚未公开AlphaFold2的底层源代码。即便如此,“我们开始尝试他们介绍的一些想法”,贝克说道。就在GoogleDeepMind在《自然》(Nature)上发表AlphaFold2的同一天,贝克和团队宣布了AlphaFold2的竞争对手“罗塞塔折叠”(RoseTTAFold),它也有极高的蛋白质结构预测精确度。RoseTTAFold同样使用深度学习来预测蛋白质结构,但其底层架构与AlphaFold2非常不同。托萨托说:“科学想法一旦被提出,人们就可能对其进行逆向工程并尝试在其基础上进行构建,至少对那些拥有足够资源的人而言是这样。”
RoseTTAFold并不孤单。包括美国元宇宙(Meta)公司在内的其他AlphaFold2竞争者也开发了自己的算法,用于解决蛋白质结构预测或相关问题。一些公司已经扩展到了蛋白质以外的领域,例如拉斐尔·汤曾德(Raphael Townshend)所在的美国生物科技初创公司“原子人工智能”(Atomic AI),就使用深度学习来解析RNA的结构。然而,在单分子结构预测领域,目前还没有算法能达到AlphaFold2的精度,桑顿说道。“我相信他们最终会做到这种精度,但我认为要再现另一个那样的‘AlphaFold2时刻’将会非常困难。”
CASP建立了一种卓有成效的竞争传统。至少在大众眼中,贝克和江珀将这种竞争延续了下去。贝克说:“他们可能觉得我在与他们竞争,但我觉得他们只是启发了我们。”江珀则对此表示欢迎,他说:“让人们在这个科学基础上继续开发是非常重要的。如果AlphaFold2没有知识上的传承,那对我来说将是一件很悲哀的事。”
贝克已经在发展他的项目传承,重点关注蛋白质科学的新前沿领域——蛋白质设计。此前,生物学家受限于研究自然界中已经存在的蛋白质,但在贝克设想的科学中,他们可以设计全新的蛋白质,这些人为设计的蛋白质可以专门用于利用阳光、分解塑料或作为药物和疫苗的基础。
荷兰胡布雷赫特研究所(Hubrecht Institute)的结构生物学家丹尼·萨托(Danny Sahtoe)曾在贝克的指导下完成博士后研究,他说:“对于目前自然界中不同类型的蛋白质而言,其结构或形状的数量相当有限。理论上,还存在更多的可能性。如果能有更多形状,那也意味着蛋白质可以拥有更多功能。”
现任美国华盛顿大学(University of Washington)蛋白质设计研究所(Institute for Protein Design)所长的贝克说,蛋白质设计本质上是“蛋白质结构预测的逆向问题”。使用蛋白质结构预测算法时,科学家会将氨基酸序列输入深度学习算法,并让它输出蛋白质结构。而蛋白质设计则不同,蛋白质设计师是将特定的蛋白质结构输入算法,然后让它输出氨基酸序列。紧接着,他们会基于模型输出的序列,再在实验室中构建出设计的蛋白质。
AlphaFold2和RoseTTAFold本身无法生成这些序列,因为它们的编程逻辑执行的是相反的操作。但贝克基于RoseTTAFold的神经架构,创建了一个专门用于设计蛋白质的迭代版本,名为“RoseTTAFold扩散”(RoseTTAFold diffusion),简称“RF扩散”。萨托说,蛋白质设计领域已经存在了很长时间,但深度学习加速了这一进程,它使切实可行的蛋白质计算机模型的设计过程变得“极其快速”。过去,训练有素的蛋白质设计师需要数周或数月的时间,才能创建一个新蛋白质的骨架。而现在,他们几天之内甚至一夜之间就能完成。
贝克还更新了Foldit游戏,将他的执念融入其中:玩家不再是构建蛋白质结构,而是设计蛋白质。这一尝试确实富有成效。基于一些玩家设计的蛋白质,贝克实验室已经撰写了多篇论文。而且一名世界顶级Foldit玩家如今正就读于华盛顿大学,是贝克一位同事的研究生。
贝克说:“我们真的理解蛋白质的折叠过程吗?如果我们设计出能折叠成新结构的新序列,那就表明我们对蛋白质折叠有了相当多的了解。从某种意义上说,你也可以将它看作蛋白质折叠问题的一种解决方案。”
相信与怀疑
AlphaFold2的成功无疑改变了生物学家对人工智能的态度。长期以来,许多实验生物学家并不相信计算方法,他们觉得一些机器学习方法可能会让数据看起来很好,而实际使用时并非如此。然而,GoogleDeepMind的成功明确证明了“你可以用它进行严肃的科学研究”,库雷希说道。现在,任何对这件事的怀疑都会被人反问:“那AlphaFold2呢?”许锦波,那位曾推进卷积神经网络研究的计算生物学家说:“现在,生物学家开始相信我们的预测结果。而在以前,生物学家总是怀疑我们的预测是否可靠。”
这种信任的建立要归功于AlphaFold2平台的一个特性:它不仅能生成蛋白质的三维模型,还会自我评估预测的准确性,对结构中的每个部分给出从0到100的置信度评分。2022年7月,GoogleDeepMind发布了2.18亿种蛋白质的结构预测,几乎涵盖了世界上所有已知蛋白质。之后,亚当斯便决定开始分析AlphaFold2的自我评估结果。他将这些预测的结构与已通过实验解析的蛋白质结构进行比较,并独立评估它们的准确性。
亚当斯说:“好消息是,当AlphaFold2认为自己正确的时候,它通常非常正确。当它认为自己不对时,它通常也确实不对。”然而,在AlphaFold2对其预测结果“非常有信心”(置信度评分不低于90分,满分为100分)的情况下,大约在10%的例子中,预测结果与实验结果不一致。
AI系统似乎具有一定的自我怀疑能力,这可能会导致人们过度依赖其结论。大多数生物学家将AlphaFold2视为一种预测工具,但也有一些人走得太远了。一些过去与结构生物学家合作的细胞生物学家和生物化学家,甚至用AlphaFold2取代了结构生物学家,并将其预测视为真理。佩拉基斯说,有些科学家在发表论文中展示的蛋白质结构显然是错误的,任何结构生物学家都能看出来。“但他们会说:‘好吧,那是AlphaFold2预测的结构。’”美国国立卫生研究院(NIH)的研究员劳伦·波特(Lauren Porter)表示:“一些人对这些深度学习模型的能力过于自信了。我们应该尽可能多地使用这些深度学习模型,但也需要以谨慎和谦逊的态度来对待它们。”
戴维·琼斯(David Jones)听说,有些从事计算解析蛋白质结构的科学家在争取资金时遇到了困难。他说:“你知道的,普遍的看法是,DeepMind已经做到了,那为什么你还在做这个方向?”但琼斯认为,这项工作仍然是必要的,因为AlphaFold2并非无懈可击,他说:“(距离真正解决该领域的所有问题)依旧存在非常大的差距,有些事情它显然做不到。”
虽然AlphaFold2在预测小型、简单蛋白质的结构方面表现出色,但在预测包含多个组成部分的蛋白质复合体时,其准确性仍然较低。它也无法考虑蛋白质的环境因素或蛋白质与其他分子的结合,而这些因素会在自然状态下改变蛋白质的形状。例如,有时蛋白质需要被特定的离子、盐或金属包围才能正确折叠。沃尔登说:“目前,AlphaFold2在理解蛋白质所处环境方面还有些问题。”她的团队已经通过实验解析了几个AlphaFold2无法预测的结构。
自然界中还存在几类动态的蛋白质,它们的功能十分重要,但AlphaFold2对它们的结构预测准确性较差。这些会发生形变的蛋白质,也被称为折叠转换蛋白质(fold-switching protein),它们的结构并不是静态的,其形状会在与其他分子相互作用时发生变化。即使是相同的氨基酸序列,有些蛋白质也会折叠成截然不同的形状。波特说,折叠转换蛋白质“挑战了序列编码单一结构的范式,因为它们显然不只有一种结构”。与用于训练DeepMind算法的数十万种静态、单一结构的蛋白质相比,用于训练的折叠转换蛋白质只有大约100个例子,尽管肯定还有更多此类蛋白质存在。波特表示,“一般来说,这些算法是为了预测单个折叠结构而设计的”,因此有这样的表现也许并不令人意外。
还有一些蛋白质会像汽车专卖店外的充气人偶一样胡乱摆动。固有无序蛋白(IDP)或固有无序蛋白质区域缺乏稳定的结构,它们会不断地摇摆和重新形成。丹麦哥本哈根大学(University of Copenhagen)的计算蛋白质生物物理学教授克雷斯滕·林多夫-拉森(Kresten Lindorff-Larsen)说:“它们在很多方面都被人忽视了,仅仅是因为它们有点烦人。”大约44%的人类蛋白质都包含一个由至少30个氨基酸组成的无序区域,“这是一个相对较大的比例”,林多夫-拉森表示。AlphaFold2能预测某个区域可能是固有无序的,但它不能告诉你这种无序状态具体是什么样的。
对于江珀来说,AlphaFold2最让他失望的点在于,它无法显示两种仅相差一个氨基酸(即点突变)的蛋白质之间的结构差异。他说,点突变“有时会对蛋白质的结构和功能产生相当显著的影响,但AlphaFold2常常会忽视这些区别”,它会为两个序列生成相同的结构。2023年9月,DeepMind发布了AlphaMissense,这是一种能预测此类点突变影响的深度学习算法。它无法展示结构上的变化,但会根据已知致病蛋白质中类似突变的信息,告知用户该突变是否可能导致蛋白质致病或出现功能障碍。
然而,就算AlphaFold2能够完美地预测所有蛋白质的结构,它仍然远未达到模拟生命的程度。因为在细胞中,蛋白质从来都不是单独行动的。
AlphaFold3诞生
细胞内部复杂而混乱。细胞的外膜包裹着细胞内的生化环境,这里密集地挤满了各种分子部件——蛋白质、信号分子、信使RNA和细胞器等等。蛋白质彼此之间以及与其他分子相互结合,这会改变它们的形态与功能。
尽管AlphaFold2在预测单个蛋白质结构方面表现出色,但它并未帮助生物学家更深入地理解蛋白质在这种复杂天然环境中的表现。这正是该领域当前研究的方向。蛋白质科学领域的两大人工智能巨头——GoogleDeepMind和贝克领导的蛋白质设计研究所,目前正在改进他们的深度学习算法,用于预测蛋白质在与其他分子相互作用时的结构。2024年春天,两个机构都发表了论文,描述了他们在该领域的类似进展。他们更新的算法——AlphaFold3和RoseTTAFold All-Atom,使他们能预测蛋白质与蛋白质、DNA、RNA和其他小分子结合时的结构。
生物学家才刚刚开始测试这些更新。库雷希表示,到目前为止,AlphaFold3的准确性远高于RoseTTAFold All-Atom,但这次并不像“AlphaFold2时刻”那样是一次巨大的飞跃。对于预测一些大分子,例如RNA的结构,它的准确性仍低于其他基于物理的系统和实验方法。
即便如此,这些新算法仍朝着正确的方向迈出了一步。蛋白质与其他分子之间的相互作用对其在细胞中的功能至关重要。为了开发出能与蛋白质结合并按需改变其活性的药物,研究人员需要了解两者形成的复合体的结构。不过亚当斯表示,两种算法都不太可能在短期内带来新药。他说:“这两种方法的准确性仍然有限,但它们都在原有基础上有了巨大进步。”
DeepMind的新产品还有一个重大变化。AlphaFold2的底层代码是开源的,因此其他研究人员可以研究该算法并将其改造后用于自己的项目。然而,Google目前仍选择将AlphaFold3的源代码作为商业机密保护起来,而不是公开分享。库雷希说:“至少目前,没人能像使用AlphaFold2那样运行和使用AlphaFold3。”
早在AlphaFold3发布之前,研究人员就已经在测试AlphaFold2,看它能否提供有关蛋白质在不同构象下的有用信息。美国布朗大学(Brown University)的化学与物理学副教授布伦达·鲁本斯坦(Brenda Rubenstein)对激酶很感兴趣,这是一类能激活其他蛋白质的蛋白质。具体来说,她想了解一种会导致癌症的激酶的作用机制,以便她针对这种激酶开发更精确的药物。鲁本斯坦的实验室使用了一种基于物理的方法,通过牛顿定律映射原子的三维坐标来对激酶的结构建模。这项研究已经耗费了两年半的时间。
“大约一年前,我们说:能不能更快地完成这个过程呢?”鲁本斯坦说道。于是,他们尝试以一种新的方式使用AlphaFold2。通过给算法输入相关蛋白质的数据,她发现AlphaFold2能以超过80%的准确性,预测该激酶在不同构象下的结构。库雷希说,“如果用正确的方式使用AlphaFold2,你就能让它输出多个不同构象”,鲁本斯坦的实验室是发现这一点的几个实验室之一,“这件事非常振奋人心”。
库雷希希望,深度学习能在2040年前实现模拟整个细胞及其内部的所有结构和动力学。然而,要实现这一目标,需要在实验和计算两个方面都取得飞跃性进展。
捷足先登
对许多生物学家而言,AlphaFold2是他们一直在等待的突破。CASP的目标一直都是:创建能根据序列预测蛋白质结构的计算工具。尽管如此,许多人忍不住要问:在如此多专家已经奋斗了几十年的情况下,为何一个相对较新的团队却能破解蛋白质的代码呢?不可否认,GoogleDeepMind的计算机和蛋白质科学家团队为这个问题带来了全新的见解。与此同时,蛋白质科学的土壤已变得肥沃,已经准备好迎接深度学习的革命,库雷希说道,“这些事情不是凭空出现的”。
在2020年CASP赛前,许多研究人员都已经预料到,蛋白质结构预测的突破会通过人工智能实现。汤曾德说:“一切都在朝那个方向发展。”但他们没想到这种突破会来自一家市值数十亿美元的科技公司,也没想到它会来得这么快。一些人认为,AlphaFold2并不是什么新的科学成就,不过是巧妙的工程设计。一些人对贝克的算法没能夺冠感到惊讶,而另一些人则并不意外,因为GoogleDeepMind拥有无与伦比的资源。桑顿说,每年大约有100个实验室参加CASP,尽管他们已经开始采用AI技术,但他们“可能没有DeepMind那样的AI专业知识,也没有那样的算力,而DeepMind基本上可以使用无限的算力”。
桑顿还推测,Google在蛋白质科学方面缺乏专业知识,这反而可能释放了他们的创造力。她表示,“他们心无旁骛”,专注于构建一个出色的人工神经网络。而蛋白质生物学家则背负了很多包袱:在开发AI工具时,他们总希望能捕捉到蛋白质折叠过程中原子层面的分子物理和化学过程。DeepMind则采用了不同的方法:把氨基酸序列数据转化为三维结构,至于如何实现,这并不重要。沃尔登表示:“他们并没有试图解决蛋白质折叠问题,我想这是此前许多预测方法尝试在做的事。相反,他们实际上只是简单粗暴地将原子的最终位置映射到空间中。有趣的是,他们可能正是因此才解决了蛋白质结构预测问题。”
对一些生物学家而言,这种方法没能解决蛋白质折叠问题。从结构生物学的早期阶段开始,研究人员就希望能了解氨基酸链折叠成蛋白质这一过程背后的规则。随着AlphaFold2的出现,大多数生物学家认为,结构预测问题已经解决。然而,蛋白质折叠问题并未解决。埃伦·钟(Ellen Zhong)说:“现在,你只是有了这个黑箱,它能以某种方式告诉你折叠后的状态,却无法告诉你究竟如何到达那个状态。”布朗大学的计算机科学家迈克尔·利特曼(Michael Littman)则表示,“这不是科学家解决问题的方式。”
美国约翰·霍普金斯大学(Johns Hopkins University)的生物物理学荣誉退休教授乔治·罗斯(George Rose)说,这听起来可能像是“语义上的争论,但当然不是这样”。AlphaFold2可以基于它对数十万个蛋白质结构的分析,识别出给定氨基酸序列可能的折叠模式。但它无法告诉科学家关于蛋白质折叠过程的任何信息。罗斯说:“对许多人而言,你并不需要知道这些,他们也不在乎。但科学,至少在过去500年左右的时间里,它一直致力于理解事情的发生过程。”罗斯认为,要理解以蛋白质为基础的生命动态、机制、功能和本质,你需要一个完整的故事,而这正是深度学习算法无法告诉我们的。
对约翰·莫尔特(John Moult)而言,机器做到了一些自己无法理解的事情,这没什么关系。他说:“我们都习惯了让机器做我们做不到的事情。比如说,我没法跑得像我的车那么快。”而对于那些试图研究蛋白质,并且只需要大致了解其外观的分子生物学家来说,如何达到这个目标也并不重要。
波特表示:“但在我们真正了解蛋白质折叠的原理之前,我们永远不会有100%可靠的预测方法。我们必须了解基本的物理原理,才能做出最有依据的预测。”库雷希则说:“我们一直在调整目标。我确实认为,核心问题已经解决了。所以现在的重点是,接下来会发生什么。”
即使生物学家还在继续争论这些话题,但对于这个无疑已经发生改变的领域,其他人已经开始展望未来,同时也回顾了其近来的发展历程。有时,佩拉基斯会对过去的工作方式产生一阵怀旧之情。2022年,他的团队用X射线晶体学解析了一种参与微管(为细胞提供结构支撑的巨型棒状结构)修饰的酶的结构。佩拉基斯说:“我意识到,我再也不会那样做了。过去,在工作了几个月之后,第一次看到结构被解析出来的时候,会让人有一种非常特别的满足感。”
AlphaFold2并没有让那些实验变得过时,相反,它凸显了这些实验的必要性。它将历史上截然不同的两个学科联系在了一起,开启了一场新的、激动人心的对话。
新世界
波特感叹道,70年前,人们认为蛋白质是一种胶状物质。“再看看现在我们能看到什么”,无论是自然界中存在的还是人为设计的蛋白质,这样一个庞大的蛋白质世界,在我们眼中变成了一个又一个结构。佩拉基斯表示,“相比于AlphaFold诞生之前,如今的蛋白质生物学领域变得更加令人兴奋了。”这种兴奋来自许多方面,包括基于结构的药物发现可能会重新振兴,科学家提出假设的速度会变快,以及它给理解细胞内复杂的相互作用带来了希望。库雷希说:“这种感觉就像是当年基因组学的那场革命。”对于生物学家,无论是实验科学家还是在电脑前运行程序的计算科学家,这里的数据都太多太多了,他们才刚开始弄清楚如何处理这些数据。
但正如世界各地由人工智能带来的其他突破一样,这一突破也可能存在上限。AlphaFold2的成功建立在训练数据的基础上,即那些由耐心的实验人员精心解析的数十万个蛋白质结构。尽管AlphaFold3和相关算法在预测分子复合体结构方面已经取得了一些成功,但其准确性仍落后于它的前辈在单一蛋白质结构上的表现,部分原因是可用的训练数据显著减少了。
桑顿说,蛋白质结构预测问题“几乎是AI解决方案的一个完美案例”,因为算法可以在数十万个以统一方式收集的蛋白质结构数据上进行训练。然而,蛋白质数据库(PDB)可能只是生物学中有组织的数据共享的特例。如果没有高质量的数据用于训练算法,它们也无法做出准确的预测。江珀表示:“我们很幸运,在我们遇到这个问题时,它正好已经到了可以解决的时机。”
没人知道深度学习在解决蛋白质结构预测问题上的成功能否延续到其他科学领域,哪怕只是生物学的其他领域。但像库雷希这样的一些人对此持乐观态度,他说:“蛋白质结构预测真的只是冰山一角。”例如,化学家也需要进行成本高昂的计算。库雷希说,借助深度学习,这些计算的速度已经比以前快了一百万倍。
人工智能显然能推动解决特定类型的科学问题,但在推进知识进展方面,它对科学家的帮助可能是有限的。库雷希表示,“历史上,科学一直是关乎理解自然的”,也就是理解生命和宇宙背后的过程。深度学习工具揭示的是解决方案而并非过程。如果科学通过这些工具向前发展,那它还是真正的科学吗?库雷希继续说,“如果你能治愈癌症,你还会在乎所使用的疗法是如何起效的吗?未来几年,这将是我们会不断争论的问题。”如果许多研究人员决定放弃理解自然的过程,那么人工智能不仅会改变科学,它也会改变科学家。
与此同时,CASP的组织者们正面临一个不同的问题:如何延续他们的竞赛和会议。AlphaFold2是CASP的产物,它解决了人们组织这个会议原本要解决的主要问题。莫尔特说:“如今的CASP到底是为了什么?对我们而言,这是一个巨大的冲击。”2022年,CASP会议在土耳其安塔利亚市举行。尽管GoogleDeepMind并未参赛,但该团队的存在感依然很强。琼斯说:“无非就是人们使用了或多或少的AlphaFold。”他表示,从这个意义上说,Google还是赢了。
如今,一些研究人员对参加CASP的兴趣也减弱了。许锦波说:“一看到那个结果,我就转变了研究方向。”也有一些人仍在继续改进自己的算法。比如琼斯仍然涉足结构预测领域,但这对现在的他来说更多只是一种爱好。诸如库雷希和贝克等其他人,则在继续开发新的结构预测和设计算法。在与一家市值数十亿美元的公司竞争的前景面前,他们毫不畏惧。
莫尔特和会议的组织者们也在努力改进。下一轮CASP已于2024年5月开放报名。他希望深度学习能征服结构生物学的更多方面,比如RNA或生物分子复合体。莫尔特说:“这种方法已经在蛋白质结构预测这个问题上奏效了,而结构生物学领域还有许多其他相关问题。”
下一次CASP会议将于2024年12月在加勒比海碧蓝的海水旁举行。届时,微风和煦,或许讨论的氛围也会十分和睦。曾经激烈的跺脚声早已平息,至少表面上是这样。今年的竞赛会是什么样子,谁也无法预测。但如果从过去几届CASP中寻找线索的话,莫尔特知道,他只能期待一件事,“那就是惊喜”。
本文选自《环球科学》10月刊专题报道“AI重塑结构生物学”。