1972年,诺贝尔化学奖获得者克里斯蒂安·安芬森在获奖感言中提出了一个假设来说明酶进行化学合成的可能性。他猜测蛋白质复杂的三维结构是由它的一维结构所决定的,也就是说,由DNA控制细胞内RNA所搭建的特定氨基酸序列,从理论上来讲,应该决定了这类蛋白质拥有怎样的结构。这就是著名的蛋白质折叠结构预测。
没想到,这个假设竟成为了生物学界近50年来一个重大难题。要解决这个难题最大的挑战在于:在自然界,蛋白质折叠的方式实在太多了,据估算,一个典型的蛋白质有10300次方种可能的构型,它们可以自个儿把自个儿扭成一幅六亲不认的样子,即便是物理规则来了也要流泪,因为有些形状实在难以想象。
蛋白质是生命的基础,这些碳基分子负责处理细胞内部发生的大部分事情,比如面对病毒的入侵,细胞内的DNA就开始忙活起来,生产与之对抗的抗体来抵御病毒。从某种角度而言,它们和现实生活中的打工人没什么区别,每天的工作就如同流水线一般重复进行着。而它们的工作方式和作用都取决于其3D结构,“结构即功能”是分子生物学不变的真理。
自1950年开始,科学家已经可以通过X射线照射结晶的蛋白质并将其产生的衍射光转化为蛋白质的三维原子坐标,从而获得准确的蛋白质结构。但这种方式需要花费的大量时间和资金,于是科学家一直想知道蛋白质的组成部分(一串氨基酸长链)如何在极短时间内变形成曲折的三维结构。在上世纪八九十年代,计算机开始应用于模拟蛋白质结构,得益于计算机强大的算力,科学家们提出了许多理论的预测方法,然而,很快就被现实打脸了,当他们将论文中的方法在实验室应用时,发现自己鼓捣出的蛋白质与实际情况相去甚远。不过这并不代表计算机退出了舞台,相反,来自马里兰大学学院公园分校的计算生物学家约翰·穆尔特与其他人共同创立了CASP,致力于改进精确预测蛋白质结构的计算方法。
从氨基酸序列预测蛋白质结构变化的能力将对生命科学及医学领域带来巨大好处,德国马克斯·普朗克发展生物学研究所的进化生物学家安德烈·卢帕斯直言:“AlphaFold帮助他解决了困扰十几年的难题,通常情况下,破解一个蛋白质的结构需要耗费数年时间,而现在,几天之内就能得到一个非常接近的结构,这无疑会极大加速对细胞组成部分的工作,也将改变我的工作方式”。