2024年又一个诺贝尔奖给了AI!这次是化学奖!
一半归华盛顿大学的戴维·贝克(David Baker),“因其在蛋白质计算设计方面的贡献”;另一半归谷歌DeepMind的戴米斯·哈萨比斯(Demis Hassabis)和约翰·M·江珀(John M.Jumper),“因其在蛋白质结构预测方面的贡献”。
你相信昨天获奖的辛顿是物理学家,而今天获奖的哈萨比斯是化学家吗?
确切地说,这次是关于蛋白质——生命中精巧的化学工具。贝克完成了一项几乎不可能的壮举:构建全新种类的蛋白质。哈萨比斯和江珀开发出了人工智能模型,解决了一个长达50年的难题:预测蛋白质的复杂结构。这些发现具有巨大潜力,应用前景无限广阔。
生命的多样性证明了蛋白质作为化学工具的惊人能力。它们控制和驱动着构成生命基础的所有化学反应。蛋白质还可以作为激素、信号物质、抗体以及不同组织的构建块。
“今年获得认可的发现之一涉及构建令人惊叹的蛋白质。另一个则是实现了一个50年的梦想:从氨基酸序列预测蛋白质结构。这两项发现都开启了广阔的可能性。”诺贝尔化学奖评委会主席海纳·林克说。
蛋白质通常由20种不同的氨基酸组成,这些氨基酸可以被描述为生命的“乐高积木”。2003年,贝克成功利用这些构建块设计出了一种与其他蛋白质完全不同的新蛋白质。从那时起,他的研究团队不断创造出富有想象力的蛋白质,包括可用作药物、疫苗、纳米材料和微型传感器的蛋白质。
第二项发现涉及蛋白质结构的预测。在蛋白质中,氨基酸以长链的形式连接在一起,并折叠形成三维结构,这种结构对蛋白质的功能起着决定性作用。自20世纪70年代以来,研究人员一直试图从氨基酸序列预测蛋白质结构,但这项工作出了名的困难。然而,四年前出现了一个惊人的突破。
2020年,哈萨比斯和江珀推出了一个名为AlphaFold2的人工智能模型。借助该模型,他们能够预测研究人员已确定的近2亿种蛋白质的结构。自突破以来,来自190个国家的超过200万人使用了AlphaFold2。在众多科学应用中,研究人员现在可以更好地理解抗生素耐药性,并创建可以分解塑料的酶的图像。
没有蛋白质,生命就无法存在。现在我们能够预测蛋白质结构并设计自己的蛋白质,这为人类带来了最大的福祉。
继昨天诺贝尔物理奖颁发给为AI基础理论做出贡献的霍普菲尔德和辛顿之后,化学奖颁发给用AI设计和预测蛋白质结构的三位非典型的“化学家”。有人说物理学不存在了,也有人说化学在蹭AI的热点。这些都不对。它说明的是AI正在给科学发现带来的深刻变革:物理奖是Science for AI,而化学奖则是AI for Science,它们将引领科学前沿。
下面,我们详细介绍下这次诺贝尔化学奖的奥秘:
蛋白质可以由几十种氨基酸到几千种氨基酸组成
这是一张教育性很强的示意图,清晰地展示了从基本构建块(氨基酸)到最终产物(蛋白质)的概念。
左侧是一个环形排列,显示了20种基本氨基酸(Amino Acids)的名称:
包括甘氨酸(Glycine);
谷氨酸(Glutamic acid);
谷氨酰胺(Glutamine);
半胱氨酸(Cysteine);
天冬氨酸(Aspartic acid);
等等……
右侧展示了从氨基酸到蛋白质的形成过程:
氨基酸首先以“串珠子”的方式连接成一条链(STRING OF AMINO ACIDS);
这条氨基酸链最终会折叠成特定的三维结构,形成功能性蛋白质(PROTEIN);
这张图很好地诠释了2024年诺贝尔化学奖的两个核心发现:
如何利用这20种氨基酸设计新的蛋白质(David Baker的工作);
如何预测氨基酸链最终会折叠成什么样的三维结构(Hassabis和Jumper的AlphaFold2的工作)。
AlphaFold2如何工作?
这张图很好地展示了AlphaFold2如何将生物学知识、进化信息和深度学习技术结合起来,解决了困扰科学界50年的蛋白质结构预测问题。
首先,作为AlphaFold2开发的一部分,这个AI模型已经在所有已知的氨基酸序列和已确定的蛋白质结构上进行了训练。
工作流程分为四个主要步骤:
1. 数据录入和数据库搜索
将一个结构未知的氨基酸序列输入AlphaFold2。
系统会搜索数据库中类似的氨基酸序列和蛋白质结构。
2. 序列分析
AI模型会对比所有相似的氨基酸序列(通常来自不同物种)。
研究在进化过程中哪些部分被保留下来。
AlphaFold2探索氨基酸在三维蛋白质结构中如何相互作用:
带电荷的氨基酸会相互吸引;
疏水性氨基酸会聚集在一起。
生成一个距离图,估计氨基酸之间在结构中的距离。
3. AI分析
使用迭代过程,AlphaFold2不断完善序列分析和距离图。
AI模型使用称为转换器(transformers)的神经网络。
这些网络能够识别重要元素并利用第一步获得的其他蛋白质数据。
4. 假设结构生成
AlphaFold2将所有氨基酸拼接成一个整体。
通过三个循环周期测试不同的路径。
最终得出一个特定结构。
AI模型计算这个结构不同部分与实际情况相符的概率。
图中还展示了一些重要的可视化内容:
序列分析中的共同进化模式。
距离图显示氨基酸之间的空间关系。
神经网络的示意图。
多个循环周期如何逐步完善最终结构。
第一种人类设计的蛋白质结构