最新发布的AlphaFold 3有多厉害?我们请使用者聊了聊

蛋白质结构预测的里程碑式事件是在2020年的CASP14上,AlphaFold2预测蛋白质的分辨率达到了近原子级别。有了更深更强网络的加持,AlphaFold2使人类第一次可以预测原子级分辨率的蛋白质结构。

AlphaFold让我们的研究发生了以下改变:

提高效率

对于结构生物学的研究者来说,在AlphaFold出现之前,大量的精力是用来进行模型搭建的。

最近,谷歌Deepmind发布了重磅消息:他们的蛋白质分析AI工具AlphaFold全新升级,迎来了第三代版本。

和前代相比,AlphaFold 3的分析准确性又有了显著提升,而且在蛋白质本身以外,它还能够预测“几乎所有分子类型”的蛋白质复合物结构。新闻报道声称,这一工具将会在生物医药研究领域带来“戏剧性”的改变。

AlphaFold 3到底有多厉害?它能帮助人类尽快用上新药吗?我们与一位实际使用AI工具的结构生物学研究者聊了聊。

知道蛋白质结构为什么重要?

如果生命科学是一部书,那在书的扉页能看到一段费曼的寄语:一切生命世界的行为都可以被理解为原子的颤动和扭动。这意味着想要真正地理解蛋白质,就必须从三维空间深入到原子分辨率,这才是蛋白质发挥功能的尺度。结构生物学就是在这样一种理念下诞生的。

在AI参与之前,蛋白质结构是怎么研究的?

获取蛋白质结构的主要方式分成实验测定和计算预测两个流派。

在AI入局之前,其实人们就已经在用计算机分析蛋白质了。但是,那时候预测准确率较低,结构的细节往往不被采信,但是这些预测结构有时会被当作晶体结构解析的模板使用。

真正确认蛋白质结构要靠实验测定,方法包括蛋白质晶体X射线衍射、冷冻电镜、核磁共振等等。通过实验获得高分辨率的蛋白质结构又慢又困难:在晶体时代,弄清一个晶体结构往往就会消耗一个博士生的整个求学生涯。

实验解析的结构会被上传到蛋白质数据库(https://www.rcsb.org/),过去五十年间,大约有二十万个结构被提交到这个数据库。这些既往数据是训练AlphaFold时重要的学习材料,可以说AlphaFold的诞生是对几代结构生物学家辛勤工作的一种报偿。

AlphaFold诞生,让研究发生了多大改变?

蛋白质结构预测的里程碑式事件是在2020年的CASP14上,AlphaFold2预测蛋白质的分辨率达到了近原子级别。更重要的是,这些结构在细节上是“对”的——也就是说,在药物筛选等研究场合,AI的预测结果变得很有用。

在速度上,AlphaFold2也远远甩开了实验手段:消耗一个博士生几个月甚至几年的时间才能得到的结构,一张GPU花半个小时就可以得到一个近似的,这在之前是无法想象的。

正是依靠这样的效率,AlphaFold在很短的时间内就预测了六七亿个蛋白质结构。而在这之前,经过几代结构生物学家的努力,人类在半个世纪内仅仅只累积了二十万个蛋白质的结构。

从1代到3代,AlphaFold改进了什么?

和过去的预测模型相比,1代AlphaFold的出现就好比从“流水线”变到了“一体成型”

以往的结构预测方法是同源建模,它更像一个流水线,由很多个模块构成。模块A处理完交给B,B处理完交给C,这导致每个步骤产生的误差会相互累积放大,导致最终的模型偏差比较大。

而AlphaFold是一个神经网络方法,它是‘端到端’的,原来的流水线换成了一体成型的工艺,误差累积的问题被完美解决。初始的AlphaFold是一个很简单的模型,但在当时它的表现已经十分领先。

此后的AlphaFold 2更是一个划时代的工程——它做到了史无前例的准确。AlphaFold采用了经典的卷积神经网络架构,而Alphafold2则将能力更强的Transformer架构引入进来。有了更深更强网络的加持,AlphaFold2使人类第一次可以预测原子级分辨率的蛋白质结构。

而AlphaFold3的进步则在于它不只可以处理蛋白质,还可以同时输入核酸、小分子、金属离子等物质,并预测它们会如何与蛋白质结合。拥有这种能力对于结构预测是极其重要的,因为蛋白质不可能孤立地发挥作用,它一定要与其他物质产生交流。而这个与其他物质交流的过程,往往是科学家最关心的,也是药物设计中最重要的过程。

对于使用者,这意味着什么?

AlphaFold让我们的研究发生了以下改变:

提高效率

对于结构生物学的研究者来说,在AlphaFold出现之前,大量的精力是用来进行模型搭建的。尤其在晶体时代,由于方法本身的限制,并不是所有的衍射数据都能获得蛋白质结构,往往需要一个相对正确的模板。可以说AlphaFold完全解决了这个问题,自从它诞生以来,由于缺少模板无法求解的晶体结构变得凤毛麟角。并且它将科研工作者从繁重的模型搭建工作里解放出来,甚至从源头减少了模型搭建错误的产生。

工作流程简化

对于结构生物学家和药物设计工程师来说,工作的起点往往是一个高分辨率的结构。在过去,他们耗费很大的精力和努力去获得结构,然后进行实验的设计和验证。

但是现在,这个最耗时的过程可以省略或者先绕过,通过预测得到的蛋白质结构进行实验的设计、机理的阐释、药物的开发。Alphfold的出现已经从根本上改变了和简化了工作的流程。

窥探“终极秘密”

如果将生命体比作一个拼好的乐高积木,那蛋白核酸等大分子就像一个个独立的乐高零件。在过去的五十年里,理解每一个乐高零件的形状就是结构生物学家的主要工作。他们并非不关心零件是如何拼成整个积木的,只是并不具备这种能力——如果连零件长成什么样子都不清楚就想知道整个积木的形状,那是天方夜谭。在很长的时间里,理解清楚每个零件的形状是结构生物学家的梦想。

AlphaFold让梦想成真。如今的AlphaFold不止告诉我们每个零件的形状,它也开始告诉我们零件和零件之间是怎样拼接的。它给研究者提供了一种可能性:也许今天我们可以窥探从零件到整个积木的秘密了。

这些技术有什么厉害的应用进展吗?我们普通人也能感受到吗?

AI参与药物设计的案例和进展已经有了不少,它在药物研发早期的表现也很亮眼。

但是,药物研发是一个很漫长的过程,AI参与的蛋白质研究和药物分子筛选只是其中最初的步骤。这些研究成果后续还需要大量时间进行临床研究验证,然后才能进行应用。所以我们大概还要过些年才能用上AI参与开发的药物。

不过,更有可能让人体会到变化的也许是蛋白质工程领域。随着技术的进步,AI引导的合成生物学可能会彻底改变人们的生活。

AlphaFold3好用吗,使用起来是什么感觉?

实际试用后,有如下几点感受:

UI设计更人性化

AlphaFold2提供了开源版和colab版本,没有经过封装,可视化效果比较简陋。但是AlphaFold3提供了网页版的AlphaFold server,对于不熟悉代码的使用者非常友好。

AlphaFold2 Colab version

AlphaFold3 server

小分子-蛋白复合物预测精准

一直以来,小分子-蛋白质复合物预测是一个重要但艰巨的任务。从目前跑完的几个案例来看,AlphaFold3在这项任务上的完成度很好,与实验结果非常接近,令人惊喜。

但是,目前的测试版本并没有开放所有的小分子输入,其他没有列出的分子表现如何还需要进一步测试来验证。

实验结构(蓝色)与预测结构(绿色橙色)的对比

抗体-蛋白复合物预测准确度有所提高

抗体-蛋白复合物预测是另一类难度很大但是非常有意义的任务,因为这项任务直接指向了生物大分子药物的开发。相比较AlphaFold2,新版本在这项任务上结合模式向着准确迈进,但是细节上仍有很大的差异。这方面未来仍需要更多改进。

蛋白质-DNA复合物预测精准

从测试结果来看,AlphaFold3在这方面的表现相当精准。如果非常乐观的话,可以认为AlphaFold3已经解决这个问题了,以后DNA结合蛋白的研究方式和逻辑可能会发生根本性的变化。

蓝色预测 vs绿色实验

可以肯定的是上图的任务并未出现在它的训练集里。

速度变快

不可思议的是相比较AlphaFold2,AlphaFold3的运行速度提高非常明显。这可能是因为模型的构架更加合理,或者谷歌提供了更多的算力支持。

不过,目前的AlphaFold3还只是并不能自由使用的beta版本,它究竟能对研究产生多大影响,还要看后续的更新与开源情况才能确定。

本文来自微信公众号:果壳 (ID:Guokr42),作者:腺嘌呤核苷三磷酸,编辑:窗敲雨

声明: 该内容为作者独立观点,不代表新零售资讯观点或立场,文章为网友投稿上传,版权归原作者所有,未经允许不得转载。 新零售资讯站仅提供信息存储服务,如发现文章、图片等侵权行为,侵权责任由作者本人承担。 如对本稿件有异议或投诉,请联系:wuchangxu@youzan.com
Like (0)
Previous 2024年5月10日
Next 2024年5月10日

相关推荐

  • 水温80度:AI行业真假繁荣的临界点

    我们从来没拥有过这么成功的AI主导的产品。

    (这种分析统计并不那么准,但大致数量级是差不多的)

    这两个产品碰巧可以用来比较有两个原因:

    一个是它们在本质上是一种东西,只不过一个更通用,一个更垂直。

    蓝海的海峡

    未来成功的AI产品是什么样,大致形态已经比较清楚了,从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时“罢工”,全网打工人都慌了

    美西时间午夜12点开始,陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载,忽然无法正常工作了。

    因为发现AI用久了,导致现在“离了ChatGPT,大脑根本无法运转”。”

    等等,又不是只有一个聊天机器人,难道地球离了ChatGPT就不转了。

    大模型连崩原因猜想,谷歌躺赢流量激增6成

    GPT归位,人们的工作终于又恢复了秩序。

    未来科技 2024年6月5日
  • ChatGPT宕机8小时,谷歌Gemini搜索量激增60%

    ChatGPT一天宕机两次

    谷歌Gemini搜索量激增近60%

    ChatGPT在全球拥有约1.8亿活跃用户,已成为部分人群工作流程的关键部分。

    过去24小时内提交的关于OpenAI宕机的问题报告

    图片来源:Downdetector

    ChatGPT系统崩溃后,有网友在社交媒体X上发帖警告道:“ChatGPT最近发生的2.5小时全球中断,为我们所有依赖AI工具来支持业务的人敲响了警钟。

    未来科技 2024年6月5日
  • ChatGPT、Perplexity、Claude同时大崩溃,AI集体罢工让全网都慌了

    接着OpenAI也在官网更新了恢复服务公告,表示“我们经历了一次重大故障,影响了所有ChatGPT用户的所有计划。Generator调查显示,在ChatGPT首次故障后的四小时内,谷歌AI聊天机器人Gemini搜索量激增60%,达到327058次。

    而且研究团队表示,“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关,显示出用户把Gemini视为ChatGPT的直接替代选项。

    未来科技 2024年6月5日
  • 深度对话苹果iPad团队:玻璃的传承与演变

    iPad最为原始的外观专利

    没错,这就是iPad最初被设想的样子:全面屏,圆角矩形,纤薄,就像一片掌心里的玻璃。

    2010年发布的初代iPad

    好在乔布斯的遗志,并未被iPad团队遗忘。

    初代iPad宣传片画面

    乔布斯赞同这一想法,于是快速将资源投入平板电脑项目,意欲打造一款与众不同的「上网本」,这就是iPad早年的产品定义。

    iPad进化的底色

    苹果发布会留下过很多「名场面」,初代iPad发布会的末尾就是一例。

    未来科技 2024年6月5日
  • 底层逻辑未通,影视业的AI革命正在褪色…

    GPT、Sora均为革命性产品,引发了舆论风暴,但它在上个月发布的“多模态语音对谈”Sky语音,却由于声音太像电影明星斯嘉丽·约翰逊,被正主强烈警告,被迫下架。

    华尔街日报也在唱衰,认为“AI工具创新步伐正在放缓,实用性有限,运行成本过高”:

    首先,互联网上已经没有更多额外的数据供人工智能模型收集、训练。

    03、

    如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向,那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

    但分歧点正在于此,电影公司希望通过使用AI技术来降低成本,但又不希望自己的内容被AI公司所窃取。

    未来科技 2024年6月5日
  • KAN会引起大模型的范式转变吗?

    “先变后加”代替“先加后变”的设计,使得KAN的每一个连接都相当于一个“小型网络”, 能实现更强的表达能力。

    KAN的主要贡献在于,在当前深度学习的背景下重新审视K氏表示定理,将上述创新网络泛化到任意宽度和深度,并以科学发现为目标进行了一系列实验,展示了其作为“AI+科学”基础模型的潜在作用。

    KAN与MLP的对照表:

    KAN使神经元之间的非线性转变更加细粒度和多样化。

    未来科技 2024年6月5日
  • 这个国家,也开始发芯片补贴了

    //mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
    [4]中国安防协会:欧盟批准430亿欧元芯片补贴计划:2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
    [6]潮电穿戴:印度半导体投资大跃进,一锤砸下1090亿,政府补贴一半.2024.3.5https。

    未来科技 2024年6月5日
  • 大模型的电力经济学:中国AI需要多少电力?

    这些报告研究对象(数字中心、智能数据中心、加密货币等)、研究市场(全球、中国与美国等)、研究周期(多数截至2030年)各不相同,但基本逻辑大同小异:先根据芯片等硬件的算力与功率,计算出数据中心的用电量,再根据算力增长的预期、芯片能效提升的预期,以及数据中心能效(PUE)提升的预期,来推测未来一段时间内智能数据中心的用电量增长情况。

    未来科技 2024年6月5日
  • 你正和20万人一起接受AI面试

    原本客户还担心候选人能否接受AI面试这件事,但在2020年以后,候选人进行AI面试的过程已经是完全自动化的,包括面试过程中AI面试官回答候选人的问题,AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

    以近屿智能与客户合作的校验周期至少3年来看,方小雷认为AI应用不太可能一下子爆发,包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

    未来科技 2024年6月4日