人工智能从头设计了大量全新蛋白质,还获得了诺贝尔奖,但它们真能发挥作用吗?

编译丨王聪

编辑丨王多鱼

排版丨水成文

最近几年里,蛋白质设计先驱David Baker,以及蛋白质结构预测工具 AlphaFold 的开发者Demis Hassabis和John Jumpe荣获了科学突破奖、拉斯克奖、引文桂冠奖等科学大奖。

2024年10月9日,他们将科学界最高奖——诺贝尔奖收入囊中,他们三人分享了2024年诺贝尔化学奖。

2021年7月16日,DeepMind公司的Demis Hassabis和John Jumpe等人在Nature发表论文,正式推出了蛋白质结构预测工具——AlaphaFold2,而在同一天,华盛顿大学的David Baker实验室则在Science发表论文,推出了蛋白质结构预测工具——RoseTAAFold。他们在论文中详尽细致地说明了如何做到精确预测蛋白质3D结构的,并将这两款预测工具开源。

实际上,在此之前的2020年第14届结构预测的关键评估(Critical Assessment of Structure Prediction,CASP)竞赛中,AlaphaFold2已经展示了其强大的蛋白质结构预测能力,并震惊了学术界。

而在过去一年里,至少出现了5项蛋白质设计比赛,参赛者大多使用人工智能(AI)工具,从头设计出全新蛋白质,以作为更有效的药物、工业酶或实验室试剂。

但蛋白质设计领域的繁荣在很大程度上造成了一些混乱,利用AI工具设计蛋白质的速度远超在实验室制造和测试它们的速度,这使得人们很难判断哪些设计方法或者工具真正有效。

在过去,竞赛推动了关键科学进展,特别是在蛋白质结构预测领域,例如,AlaphaFold2 就是在第14届CASP竞赛中一战成名。

而现在,一系列新比赛通过降低进入门槛吸引了来自世界各地的人们进入蛋白质设计相关领域。但一些科学家指出,这些竞赛必须克服一些障碍,例如确定要解决哪些问题,以及如何客观地选出获胜者。否则,这些竞赛反而会对蛋白质设计领域造成损害。

蛋白质设计比赛的部分灵感来自于一场开始于30年前的竞赛,这一竞赛帮助开启了生物学人工智能的革命。

这一竞赛就是结构预测的关键评估(Critical Assessment of Structure Prediction,CASP),该竞赛始于1994年,每两年举行一次,由马里兰大学的计算生物学家John Moult和加州大学戴维斯分校的计算生物学家Krzysztof Fidelis发起,该竞赛旨在挑战从蛋白质的氨基酸序列计算预测其蛋白质三维结构,预测结构与真实结构最接近者获胜。

2018年,DeepMind 公司(后被谷歌收购)凭借其第一版蛋白质结构预测工具AlphaFold在当年的CASP竞赛中成为第一名。两年后,新一代的AlphaFold2表现堪称炸裂,以至于CASP竞赛的发起人John Moult当场宣布——预测简单蛋白质结构的问题基本上解决了。

如今,CASP竞赛的焦点已经转移到了新的挑战上,例如,预测一个复合体中多个相互作用的蛋白质的结构。

现在,许多人希望新出现的蛋白质设计比赛能够推动蛋白质设计领域的发展,正如CASP竞赛帮助激发了蛋白质结构预测的革命一样,如果没有CASP竞赛,就不会有AlphaFold。

今年6月份,德国慕尼黑工业大学的计算生物学家Burkhard Rost赢得了国际开放科学非营利组织“创新联盟”(Align to Innovate)举办的蛋白质工程锦标赛(Protein Engineering Tournament)。该竞赛分为两轮,首先,参赛者要预测不同酶变体的特性,在这一轮表现最好的那些团队在第二轮中尝试从头设计一种能够分解淀粉的酶,通过实验室验证来确定最佳设计者。

今年4月份,生物技术公司Liberum Bio和维护蛋白质设计工具Rosetta的科学家团体Rosetta Commons共同举办了冬季蛋白质设计游戏大赛,并宣布了获胜者,参赛者被要求重新设计一种现有的蛋白质——一种广泛用于蛋白质纯化的植物病毒酶,以使其分子更高效。

而今年的BioML挑战赛,则是要求设计出一种用于CAR-T细胞治疗的蛋白质,根据设计蛋白与抗原靶点的结合、通过CAR发出信号、激活CAR-T细胞增殖和肿瘤杀伤反应的程度来评选获胜者。

一项最近推出的蛋白质设计竞赛尤为引人注目——进化2024(Evolved 2024),该竞赛的获胜者将获得价值25000美元的亚马逊云服务以及OpenAI等公司的价值数千美元的服务。对于蛋白质结构预测竞赛,对结果的评估很简单——预测结果与通过实验解析的真实结构的相似程度。而对于蛋白质设计而言,评估的标准显然复杂的多,例如,如果要求设计一种蛋白酶,设计出来的酶的活性、稳定性以及对蛋白质的水解效率,都影响对设计结果的评估,因此,需要从多个维度进行评估,这就导致确定获胜者并不容易。

在Nature发表的一项报道中,今年8月份,蛋白质工程师Alex Naka利用他的笔记本电脑和大约80个基于云计算的AI处理器,设计了几十种蛋白质,这些蛋白质旨在靶向抑制肿瘤中发生突变的受体——EGFR(表皮生长因子受体),他选出了其中最有前景的10种设计,参加了一项新发起的蛋白质设计竞赛,并登上了排行榜榜首。

然而,9月下旬公布的竞赛结果让他感到很失望,他设计的这10个蛋白看起来很出色,但没有1个在实验室中显示出效果,147种设计中,只有5个能与目标受体结合,其中甚至有50个设计的蛋白质压根就无法制造出来。

参考资料:

https://www.nature.com/articles/d41586-024-03335-z