AI能够重写人类基因组了？

2024年4月24日 16:23 • 未来科技

生成基因编辑器，在人类细胞中发挥作用

然后，研究者进一步将关注范围缩小到CRISPR-Cas9系统，并在CRISPR-Cas图谱中的238，917个Cas9蛋白上，训练了蛋白质语言模型。

多种生成的核酸酶（绿色），包括OpenCRISPR-1（深绿色），具有与SpCas9（蓝色）相当或更高的靶向活性，但脱靶活性要低得多

研究者们还发现，当与脱氨酶配对时，OpenCRISPR-1和SpCas9在精确编辑靶基因组中的单个碱基时，具有相似的活性和特异性。

AI，能够重写人类基因组了？

就在刚刚，初创公司Profluent宣布，完全由AI设计的基因编辑器，已经成功编辑了人类细胞中的DNA。

也就是说，世界上首个使用AI从头设计的分子级精确基因编辑器诞生了。

就像ChatGPT能生成诗歌一样，Profluent这个全新的AI系统，可以让我们编辑自己DNA的微观机制生成蓝图。

在迄今最广泛的基于CRISPR的基因编辑系统数据集上，研究者训练了LLM。这些LLM产生的蛋白质，将几乎所有天然存在的CRISPR-Cas家族的多样性，扩大了4.8倍。

并且，基因编辑器在人类细胞中显示出了与SpCas9（一个示例基因编辑器）相当或更好的活性和特异性，同时距离超过400个突变。

这也就意味着，我们掌握了自己的基因组密码。未来的科学家，会比今天更精确、更快速地对抗疾病。

而且，公司还决定，会在OpenCRISPR协议下，自由释放这些DNA分子。

OpenCRISPR-1的物理结构，OpenCRISPR-1即是由Profluent的AI技术创建的基因编辑器

Profluent联创Ali Madani表示，“尝试用AI设计的生物系统，编辑人类DNA是一次科学登月之旅”。

“我们的成功表明，在未来，AI可精准设计出一系列定制的疾病治疗方案”。

有网友表示，“是时候重新编程人类了吗？AI驱动的CRISPR技术进步，正挑战着基因伦理的边界”。

如果你可以改变自己的DNA，你会这么做吗？

贫血、失明疾病的基因，由我们自己修改

初创公司Profluent在刚刚发表的这篇论文中，详细描述了这项技术。

论文地址：https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1.full.pdf

论文预计将于下月，在美国基因与细胞治疗学会年会上发表。

这项技术和驱动ChatGPT的方法是一样的，它在分析大量生物数据后，创造了新的基因编辑器，包括科学家已经用于编辑人类DNA的微观机制。

这些基因编辑器基于的是诺奖的获奖方法，涉及一种名叫CRISPR的生物机制。

基于CRISPR的技术诞生后，即在业界引起轰动。它改变了科学家研究疾病的方式。

在以前，如果我们不幸得了镰状细胞性贫血和失明这样的遗传性疾病，往往束手无策，而现在，CRISPR技术可以直接让我们修改导致这些疾病的基因了。

CRISPR方法使用的是我们在自然界中发现的机制：从细菌中收集的生物材料，竟然神奇地赋予了这些微生物抵抗细菌的能力。

加州大学旧金山分校生物工程和治疗科学系教授兼系主任James Fraser介绍说，这些生物材料从未在地球上存在过，而Profluent的AI系统，正是从大自然中学习如何创造这些全新的东西。

如果这些技术继续发展，所产生的基因编辑器，或许会比我们人类经过数十亿年进化磨练的基因编辑器更灵活、更强大。

现在，Profluent表示正在开源OpenCRISPR-1编辑器，这也就意味着，个人、学术实验室和公司都能免费使用这些技术。

AI界常见的开源，可以加速新技术的产生。不过，对于生物实验室和制药公司来说，像OpenCRISPR-1这样的开源并不常见。

当然，Profluent也只是开源了其AI技术生成的基因编辑器，并没有开源AI技术本身。

由OpenCRISPR-1编辑的人类细胞延时摄影

AI编辑蛋白质，为何意义重大

目前，蛋白质工程界想要复制功能性蛋白质，或者用“定向进化”来迭代修饰，通常还是需要从自然界中复制。

许多对人类有重大意义的蛋白质，都是我们偶然发现的，比如狗的胰岛素、酸奶中的Cas9和经常造成食物中毒的肉毒杆菌毒素。

大型生成蛋白质语言模型的作用，就是可以捕获使天然蛋白质发挥作用的基本蓝图。它们勾勒出一条捷径，可以绕过进化的随机过程，推动人类有意识地为特定目的设计蛋白质。

Cas9蛋白，是CRISPR-Cas9基因编辑系统的核心组成部分，它是一种RNA引导的核酸酶，可以搜索人类基因组中的所有30亿个核苷酸，并在一个特定位点进行切割。

这种核酸酶与单导RNA（sgRNA）复合在一起，sgRNA由一个在结构上与蛋白质相互作用的支架和一个间隔序列组成，后者可通过编程靶向基因组中的任何位点。

棘手的是，大多数Cas9蛋白的长度超过1000个氨基酸，整个设计空间包含20^1000种可能的序列，比起可观测宇宙中的原子数量，它都要高出几个数量级。

而且，由于这些蛋白质必须以精确的顺序协调许多相互作用，才能实现精确切割，因此即使是单个错位突变，也可能完全消除蛋白质的功能。

如果通过实验穷尽所有可能的序列变异，许多科学家几辈子时间都做不完。

然而，AI系统却能很轻松地探索整个搜索空间，发现功能性的基因编辑器。而且，只需要花几个小时。

全球首个开源基因编辑器，改写人类DNA

基因编辑器OpenCRISPR-1，由一个Cas9样蛋白质和引导RNA（guide RNA）构成。

正如之前所述，它是完全由Profluent的AI大模型开发的。

在具体实现过程中，研究人员对26TB组装的“基因组”和“元基因组”数据库系统进行挖掘，整理出超过100万个CRISPR操纵子（operon）的数据集。

通过训练OpenCRISPR，AI从大规模序列和生物背景中学习，生成了自然界不存在的数百万种CRISPR样蛋白。

研究人员称，AI生成了自然界中已发现的“CRISPR-Cas家族”的4.8倍的蛋白质集群，完全实现了指数级扩展。

而且，语言模型还为类Cas9效应蛋白定制了单引导RNA序列。

与原型基因编辑效应器SpCas9相比，几个生成的基因编辑器显示出，可比或改进的活性和特异性，同时在序列上相差400个突变。

最后，研究人员还证明AI生成的基因编辑OpenCRISPR-1与碱基编辑的兼容性。

这项研究中的关键结果，具体如下：

AI生成4.8倍“CRISPR-Cas”蛋白质宇宙

生成蛋白质语言模型通常是在，大型涵盖多种系统发育和功能的天然蛋白序列的数据集上，进行预训练。

这些模型能够生成，反映天然蛋白质分布和特性的真实蛋白质序列。

然而，对于特定的应用，例如新型基因编辑器的生成，有必要将生成过程导向特定的感兴趣的蛋白家族子集。

对此，研究人员进行了详尽的数据挖掘来构建数据库。

他们搜索了26.2TB的组装微生物基因组和宏基因组，发现了1246163个CRISPR-Cas操纵子。

与CRISPRCasDB和CasPDB等精选数据库，以及世界上最大的蛋白质资源UniProt相比，最新创建的数据库显示出更大的多样性。

通过总结共性，研究人员发现了所有CRISPR-Cas蛋白的单一模型，能够生成跨家族的不同序列。

为了生成新型CRISPR-Cas蛋白，作者在CRISPR-Cas Atlas上微调了基于ProGen2的语言模型，由此平衡了蛋白家族的表示和序列簇大小。

从这个模型中，研究者生成了400万个序列。

其中一半是直接从模型生成的，另一半是由天然蛋白质N或C末端的最多50个残基提示，以引导向特定蛋白的生成。

为了评估其新颖性和多样性，作者使用MMseqs2对每个家族的生成序列和天然序列按70%的同一性进行了聚类。

结果发现，与CRISPR-Cas图谱中的天然蛋白相比，生成序列实现了4.8倍的多样性扩展。

对于天然蛋白质很少的家族，比如Cas13和Cas12a，生成序列的多样性分别增加了8.4倍和6.2倍。

另外，只需要极少的上下文，即提供50个或更少的残基，就能针对某一特定科引导序列生成与感兴趣的科保持一致。

100万个类Cas9蛋白全部生成

虽然许多CRISPR-Cas蛋白已被用于基因组编辑，但Cas9仍是应用最广泛的一种。

为了生成类Cas9的新序列，研究人员从CRISPR-Cas图谱中采样，Cas9的N端或C端50个残基，对CRISPR-Cas模型进行了提示。

这里，作者使用了CRISPR-Cas Atlas中238917条Cas9序列，对另一个语言模型进行了微调。

这一模型生成可行的类Cas9序列的速度是CRISPR-Cas模型的2倍（54.2%），而且需要任何提示。

为了探索II型效应器的潜在序列分布，研究人员使用Cas9模型生成了100万个Cas9蛋白。

生成的可存活代（n=542，042）与同一性为40%的天然Cas9聚类在一起，并用作构建最大似然系统发育树的输入（图2a）。

引人注目的是，生成的蛋白质主导了系统发育的格局，占系统发育总多样性的94.1%。

与整个CRISPR-Cas图谱相比，多样性增加了10.3倍（图2b）。

新的系统发生群分布在整个树中，这表明该模型捕捉到了Cas9的全部多样性，并没有过度拟合任何特定系统。

生成的序列与CRISPR-Cas图谱的差异很大，与任何自然序列的平均同一性只有56.8%（图2c）。

总体而言，生成的序列与同一蛋白质簇中天然蛋白质的长度密切匹配，皮尔逊相关性为0.97（图2d）。

此外，图2e显示了，天然Cas9、祖先序列重建和48个生成蛋白的靶上和脱靶的编辑效率。图2f展示了自然Cas9、祖先序列重建，以及生成蛋白在靶向编辑效率和特异性方面的对比。

生成基因编辑器，在人类细胞中发挥作用

然后，研究者进一步将关注范围缩小到CRISPR-Cas9系统，并在CRISPR-Cas图谱中的238，917个Cas9蛋白上，训练了蛋白质语言模型。

使用这些模型，研究者生成了可与SpCas9互操作的Cas9样蛋白。也就是说，它们与基因组的相同部分（PAM）结合，并与相同的sgRNA相容，因此，它们可用于相同的应用。

研究者选择了其中48个生成的序列，用于在人类细胞中进行严格的功能表征。

最热门的OpenCRISPR-1，在靶向位点的活性与SpCas9相当（OpenCRISPR-1的编辑率为55.7%，SpCas9的编辑率为48.3%），但令人惊讶的是，在脱靶位点的编辑减少了95%（OpenCRISPR-1的编辑率为0.32%，SpCas9为6.1%）。

此外，作为一种非常新的蛋白质，OpenCRISPR-1与SpCas9相距403个突变，与 CRISPR-Cas图谱中的任何天然蛋白质相距182个突变。

多种生成的核酸酶（绿色），包括OpenCRISPR-1（深绿色），具有与SpCas9（蓝色）相当或更高的靶向活性，但脱靶活性要低得多

研究者们还发现，当与脱氨酶配对时，OpenCRISPR-1和SpCas9在精确编辑靶基因组中的单个碱基时，具有相似的活性和特异性。

他们还能保持碱基编辑活性，同时通过用由另一种Profluent训练的蛋白质语言模型生成的脱氨酶，来提高特异性。

使用ABE8.20（一种高活性工程脱氨酶）以及生成的脱氨酶PF-DEAM-1和PF-DEAM-2进行碱基编辑时，OpenCRISPR-1的功能与SpCas9非常相似

最后，为了进一步优化所生成的核酸酶的活性，研究者还训练了一个模型来为任何给定的Cas9样蛋白生成相容的sgRNA。

与SpCas9的sgRNA相比，这些生成的sgRNA可以提高所测试的五种蛋白质中四种产生的核酸酶的活性。

对于测试的5种生成的核酸酶中的4种，使用模型生成的sgRNA提高了编辑效率

AI正在改善医疗保健

现在，全世界都有很多项目，在用AI技术改善医疗保健。

比如，华盛顿大学的科学家们正在用ChatGPT和Midjourney背后的方法来，创造全新的蛋白质，并且正在努力加速新疫苗和药物的开发。

如今大火的许多生成式AI，背后都是由神经网络驱动的。通过分析大量数据，神经网络就习得了某些技能。

比如，Midjourney以神经网络为基础，分析了数百万张数字图像，以及描述每张图像的标题。这样，系统就学会了识别图像和文字之间的联系，可以画出“犀牛从金门大桥上跳下来”这样的画。

Profluent的技术，也是由一个类似的AI模型驱动的。

这个模型从氨基酸和核酸序列中学习，正是这些化合物，定义了科学家用来编辑基因的微观生物学机制。

本质上而言，它就是分析了从自然界中提取的CRISPR基因编辑器的行为，学习了如何生成全新的基因编辑器。

Profluent的CEO Ali Madani介绍道，这些AI模型都是从序列中学习的，无论是字符、单词、计算机代码，还是氨基酸的序列。

Madani先生在加州伯克利Profluent实验室内，此前他曾在软件巨头Salesforce的人工智能实验室工作

人类编辑基因，还有多远

目前，Profluent尚未对这些合成基因编辑器进行临床试验，因此尚不清楚它们是否能与CRISPR的性能相媲美，甚至超过CRISPR。

但他们的研究表明了，AI模型可以产生能够编辑人类基因组的东西。

尽管如此，这项成果还不太可能在短期内影响医疗保健。

UC伯克利创新基因组学研究所的基因编辑先驱兼科学主任费Fyodor Urnov表示，科学家们并不缺乏天然存在的基因编辑器，用来对抗疾病。

真正的瓶颈在于，这项编辑器在用于临床治疗之前，还会因安全性、制造、监管审查产生极高的成本。

但是，随着学习越来越多的数据，生成式AI系统的潜力不可小觑。

如果Profluent的技术继续改进，终有一天，科学家们可以用更精确的方式编辑基因。

到那时，我们可能身处这样一个世界——许多药物和治疗方法，都能快速为个人量身定制。这是今天的人们所不敢想的。

“我梦想着这样一个世界，我们可以在几周内按需提供CRISPR。” Urnov博士说。

还有一个重大的问题就是，CRIPSR有风险吗？

长期以来，科学家们一直在警告：不要使用CRISPR进行人类肉体机能增强。

因为，这是一项相对较新的技术，很可能会产生不良的副作用，比如引发癌症。而且还有些人会用于非道德的用途，比如转基因人类胚胎。

合成基因编辑器，也面临着这项问题。而如今，科学家们已经掌握了编辑胚胎所需的一切技术。

但Fraser博士表示，如果真的有人想用它们做坏事，也只会使用现有的东西，而非AI创建的编辑器。

参考资料：

https://www.profluent.bio/blog/editing-the-human-genome-with-ai

https://www.nytimes.com/2024/04/22/technology/generative-ai-gene-editing-crispr.html

本文来自微信公众号：新智元（ID：AI_era），作者：新智元

声明：该内容为作者独立观点，不代表新零售资讯观点或立场，文章为网友投稿上传，版权归原作者所有，未经允许不得转载。新零售资讯站仅提供信息存储服务，如发现文章、图片等侵权行为，侵权责任由作者本人承担。如对本稿件有异议或投诉，请联系：wuchangxu@youzan.com

Like (0)

AI“速”不可挡，算力巨变，你准备好了吗？

Previous 2024年4月24日 16:02

租金堪比劳斯莱斯，新能源豪车租赁生意有多火？

Next 2024年4月24日 16:23

水温80度：AI行业真假繁荣的临界点

我们从来没拥有过这么成功的AI主导的产品。

（这种分析统计并不那么准，但大致数量级是差不多的）

这两个产品碰巧可以用来比较有两个原因：

一个是它们在本质上是一种东西，只不过一个更通用，一个更垂直。

蓝海的海峡

未来成功的AI产品是什么样，大致形态已经比较清楚了，从智能音箱和Copilot这两个成功的AI产品上已经能看到足够的产品特征。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时“罢工”，全网打工人都慌了

美西时间午夜12点开始，陆续有用户发现自己的ChatGPT要么响应超时、要么没有对话框或提示流量过载，忽然无法正常工作了。

因为发现AI用久了，导致现在“离了ChatGPT，大脑根本无法运转”。”

等等，又不是只有一个聊天机器人，难道地球离了ChatGPT就不转了。

大模型连崩原因猜想，谷歌躺赢流量激增6成

GPT归位，人们的工作终于又恢复了秩序。

未来科技 2024年6月5日
ChatGPT宕机8小时，谷歌Gemini搜索量激增60%

ChatGPT一天宕机两次

谷歌Gemini搜索量激增近60%

ChatGPT在全球拥有约1.8亿活跃用户，已成为部分人群工作流程的关键部分。

过去24小时内提交的关于OpenAI宕机的问题报告

图片来源：Downdetector

ChatGPT系统崩溃后，有网友在社交媒体X上发帖警告道：“ChatGPT最近发生的2.5小时全球中断，为我们所有依赖AI工具来支持业务的人敲响了警钟。

未来科技 2024年6月5日
ChatGPT、Perplexity、Claude同时大崩溃，AI集体罢工让全网都慌了

接着OpenAI也在官网更新了恢复服务公告，表示“我们经历了一次重大故障，影响了所有ChatGPT用户的所有计划。Generator调查显示，在ChatGPT首次故障后的四小时内，谷歌AI聊天机器人Gemini搜索量激增60%，达到327058次。

而且研究团队表示，“Gemini”搜索量的增长与“ChatGPT故障”关键词的搜索趋势高度相关，显示出用户把Gemini视为ChatGPT的直接替代选项。

未来科技 2024年6月5日
深度对话苹果iPad团队：玻璃的传承与演变

iPad最为原始的外观专利

没错，这就是iPad最初被设想的样子：全面屏，圆角矩形，纤薄，就像一片掌心里的玻璃。

2010年发布的初代iPad

好在乔布斯的遗志，并未被iPad团队遗忘。

初代iPad宣传片画面

乔布斯赞同这一想法，于是快速将资源投入平板电脑项目，意欲打造一款与众不同的「上网本」，这就是iPad早年的产品定义。

iPad进化的底色

苹果发布会留下过很多「名场面」，初代iPad发布会的末尾就是一例。

未来科技 2024年6月5日
底层逻辑未通，影视业的AI革命正在褪色…

GPT、Sora均为革命性产品，引发了舆论风暴，但它在上个月发布的“多模态语音对谈”Sky语音，却由于声音太像电影明星斯嘉丽·约翰逊，被正主强烈警告，被迫下架。

华尔街日报也在唱衰，认为“AI工具创新步伐正在放缓，实用性有限，运行成本过高”：

首先，互联网上已经没有更多额外的数据供人工智能模型收集、训练。

03、

如果说训练“数字人”、使用AI配音本质上瞄向的仍是影视行业固有的发展方向，那么还有另外一群人试图从根本上颠覆影视行业的生产逻辑和产品形态。

但分歧点正在于此，电影公司希望通过使用AI技术来降低成本，但又不希望自己的内容被AI公司所窃取。

未来科技 2024年6月5日
KAN会引起大模型的范式转变吗？

“先变后加”代替“先加后变”的设计，使得KAN的每一个连接都相当于一个“小型网络”，能实现更强的表达能力。

KAN的主要贡献在于，在当前深度学习的背景下重新审视K氏表示定理，将上述创新网络泛化到任意宽度和深度，并以科学发现为目标进行了一系列实验，展示了其作为“AI+科学”基础模型的潜在作用。

KAN与MLP的对照表：

KAN使神经元之间的非线性转变更加细粒度和多样化。

未来科技 2024年6月5日
这个国家，也开始发芯片补贴了

//mp.weixin.qq.com/s/tIHSNsqF6HRVe2mabgfp6Q
[4]中国安防协会：欧盟批准430亿欧元芯片补贴计划：2030年产量占全球份额翻番.2023.4.19.https。//mp.weixin.qq.com/s/VnEjzKhmZbuBUFclzGFloA
[6]潮电穿戴：印度半导体投资大跃进，一锤砸下1090亿，政府补贴一半.2024.3.5https。

未来科技 2024年6月5日
大模型的电力经济学：中国AI需要多少电力？

这些报告研究对象（数字中心、智能数据中心、加密货币等）、研究市场（全球、中国与美国等）、研究周期（多数截至2030年）各不相同，但基本逻辑大同小异：先根据芯片等硬件的算力与功率，计算出数据中心的用电量，再根据算力增长的预期、芯片能效提升的预期，以及数据中心能效（PUE）提升的预期，来推测未来一段时间内智能数据中心的用电量增长情况。

未来科技 2024年6月5日
你正和20万人一起接受AI面试

原本客户还担心候选人能否接受AI面试这件事，但在2020年以后，候选人进行AI面试的过程已经是完全自动化的，包括面试过程中AI面试官回答候选人的问题，AI面试官对候选人提问以及基于候选人的回答对候选人进行至多三个轮次的深度追问。

以近屿智能与客户合作的校验周期至少3年来看，方小雷认为AI应用不太可能一下子爆发，包括近屿智能在内的中国AI应用企业或许要迎来一个把SaaS做起来的好机会。

未来科技 2024年6月4日

AI能够重写人类基因组了？

相关推荐