下棋下哭柯洁的DeepMind 又要让生物界大地震-快科技-科技改变生活

最近，我又被 AI 新闻给刷屏了，当年开发出 AlphaGo ，下棋下哭柯洁的谷歌DeepMind 公司，在 Nature 上公布了最他们新一代 AlphaFold 3 模型。

AlphaFold ，这个听起来有点像折叠屏手机型号的名字，是他家专门预测蛋白质结构的新 AI 。

生物体内几乎所有的分子结构，它都可以预测。

这意味着生物医学研究从此开了真 · 上帝视角，任何生物分子作用机理都将从黑盒中打开，变成透视模式。

不少媒体和网友开始欢呼， 21 世纪，这下真要成生物的世纪了。

要看懂这次新发布的 AlphaFold 3 有多牛，咱们就得先知道， DeepMind 和它的 AlphaFold ，曾给了分子生物圈多大的震撼。

我们在九年义务教育里都学过，生物体内最多的物质就是蛋白质，而要搞清楚生物分子的底层原理，就必须知道每个蛋白质具体长啥样。

这么说吧，在 AlphaFold 之前，大伙们预测蛋白质结构主要两种办法，

一是用 X 光照蛋白质晶体，也就是先拍片子再分析片子，再来搞懂它长啥样。

二是核磁共振 ( NMR ) 光谱，拍出大体形状轮廓，再推测它的结构。

这些传统办法不仅慢，适用范围小，需要不断试错，还费钱，每拍一次片子就花好几万美金，抵一辆小米 su7 。

这也是为啥蛋白质研究方向生物学家，费钱且需要大量经验。

只有那些经验的老师傅，蛋白质仙人，才能更快猜到蛋白质的准确形状，少拍点片子。

下棋下哭柯洁的DeepMind 又要让生物界大地震

所以人们就琢磨，这种需要经验总结的工作能不能靠 AI 解决呢？

DeepMind 就来干这事了，为了克服传统拍片子的问题，第一代 AlphaFold 选择技术路线的时候就摊牌了：

不拍片子！

蛋白质既然由氨基酸构成，初代 AlphaFold 用的方法就是，利用来自各处公开的已知蛋白质结构，把这些蛋白质中每一对氨基酸的距离，链接角度，汇总起来做成一张图， AI 用神经网络消化完他们，再让 AI 做出自己的预测。

而 2018 年第一代 AlphaFold 一经发布，就技惊四座，力压一众实验室老师傅，获得第 13 届蛋白质结构预测大赛 ( CASP ) 冠军。

AI ，很神奇吧。

不过，初代 AlphaFold 有个问题，它更依赖局部数据的特征来训练，它不太能提取到较远元素之间的关系。

就好像一个只会写短文，但学不会写长篇小说的作家。

问题是，很多蛋白质分子有长距离的依赖性，这让初代 AlphaFold 的实力就有点捉襟见肘了。

好在 2020 年发布的 AlphaFold2.0 ，用上了后来在 ChatGPT 上大火的 Transformer 模型。

Transformer 模型的注意力机制，则完美解决了长距离氨基酸的问题，进步有多大呢？

2018 年蛋白质结构预测大赛里 1.0 版本准确度得分不到 60 分，但是 2020 年大赛里 2.0 版本拿到了惊人的 92.4 分，它能生成的范围已经涵盖了人类已知蛋白质的 98% ，更重要的是它完全开源。

可以说， 2.0 版本已经基本解决了单链蛋白质的预测问题。

到 2021 年，基于 2.0 改版的 AlphaFold-Multimer 发布，也支持上了多链，准确度上也取得了突破，蛋白质之间作用的预测准确率超过 70% 。

所以现在很多公司也用上了它们，甚至助力了国外一些新冠疫苗研发。

但在 DeepMind 看来，蛋白质结构预测上的胜利，还远远没发挥完 AI 的潜力，因为生物体内的复杂分子结构不止有蛋白质，还有核酸，小分子配体等等，

这就好比你花了十年时间学刻钥匙开锁技术，结果一出师，发现大家用的都是指纹锁密码锁，用传统钥匙的人太少了！

所以这次 AlphaFold 3 ，他们更新了一个更牛逼的全方位模型，不仅能预测蛋白质 DNA RNA 等各种小分子，还能揭示他们之间的互相作用。

那这是怎么干的呢？答案是，他们用了 Diffusion 。

对，就是大名鼎鼎的扩散模型，在 AI 绘画大火的时候，想必大家就听说过。

它的原理就是把原图像不断打码，再让 AI 学会预测这些马赛克的生成过程，然后反过来实现从马赛克到图像的生成。

不过，就像 AI 画画生成不好手指， Sora 椅子视频会穿模一样， Diffusion 加持下的 AlphaFold 3 也会预测错误，特别是在一些长得相似难以区分的结构上，比如各位高中有机化学里学过的手性分子。

所以在这些容易出错的地方， DeepMind 用了一个叫做交叉蒸馏的操作，说白了就是让有 Transform 模型的 2 代版本先预测，再把预测数据添加到 AlphaFold 3 的训练中，也就是相当于让 2 代扮演教师，领着 3 代去做，这样就能减少预测失误。

生成的效果有多好？直接看官方图吧。

AlphaFold 3 对 7BBV - 酶 ( 存在于一种土壤真菌体内 ) 的预测，其中酶蛋白（蓝色）、离子（黄色球体）和单糖（黄色）与真实结构（灰色）几乎重合

AlphaFold 3 对感冒病毒刺突蛋白（蓝色）与抗体（绿松石色）和单糖（黄色）相互作用时的结构预测，与真实结构准确匹配（灰色的）

AlphaFold 3 对蛋白复合物的预测，其中蛋白质（蓝色）与 DNA （粉色）结合，预测模型与实验测定的真实分子结构（灰色）近乎完美匹配

除了生成质量相当哇塞，精度也是遥遥领先的原子级。在蛋白质与核酸配体的模拟上全面优于其他产品，抗原抗体的模拟也同样优秀。

而操作 AlphaFold3 就更容易了。

用 ChatGPT ，咱还得想办法提个好问题、写好提示词，而在 AlphaFold 3 ，你只需要输入一些分子列表，它就能预测出它们是如何组合在一起的。

试想一下，原先需要花大量时间精力和资金才能观察到的现象，现在只需要在网站输入参数再单击，几分钟后就能产生极高清晰度和准确度的生物大分子模型。

甚至细胞系统内部的生化过程，现象， DNA 如何发挥作用，药物和激素的反应如何进行，也全都能在极短时间内被整明白。

这些遥遥领先的数据，和大家的热情好像都在说：这次发布已经不是跨越式进步了，而是革命性的突破，整个传统生物医疗的科研方式，似乎都要被改变了。

不过我觉得，乐观是好的，但是科学这玩意儿除了乐观，要的还得是中肯和严谨。

在各路媒体和网友都在 “ 炸裂 ” “ 颠覆 ” “ 改变世界 ” 的时候，圈内对的不少大佬，也发表了些对 AlphaFold 3 的评价。

比如颜宁教授团队就发现， 3.0 版本在一个糖蛋白预测中就翻车了，表现甚至不如前代版本。

也有不少科学家吐槽 3.0 相比 2.0 它还不开源了，使用次数也有限制。

甚至，还有人质疑 DeepMind 的老板 Hassabis ，他自己就创立过一家 “ 专注人工智能的药物公司 ” ，号称要 “ 利用人工智能重新定义药物发现 ” ，但从 2021 年到，今天他们还没有推出任何药物。

当然这就有点在尬黑了，毕竟药物研发过程中，蛋白质结构问题只是其中一小部分，这并不能对药物研发进度产生决定性影响。

总之，我觉得 AlphaFold 的三代产品确实喜人，但在生命科学的漫漫实践长路上，它依旧有着不少难题需要去突破。

不过说到底，进步总还是好事，希望 DeepMind 能再多搞点，搞快点吧。

文章出处：差评

相关报道

最热文章排行查看排行详情

邮件订阅

分享到