将 AlphaFold2 的基于人工智能的蛋白质结构与旧的计算工具相结合是找到以前未被发现的 Cas13 酶的关键。
自从发现 CRISPR-Cas9Jennifer Doudna 的实验室和世界各地的其他实验室一直在研究 CRISPR 系统的进化,并试图发现新的系统。 《科学》杂志上的新论文 今天,杜德娜和同事们揭开了 CRISPR 基因编辑技术的历史。CAS号 系统并描述一种使用机器学习工具来发现新方法 酶.
科学家们希望在自然界中发现不同的 CRISPR-Cas 系统,通常 基因组 序列数据库寻找同源性,即 蛋白质 具有高度相似的 氨基酸 序列。这种方法已经发现了新的基因组编辑工具,这些工具具有新的特性,包括尺寸更小,更容易输送到 细胞 以及已经发展成新技术的不同属性。
随着时间的推移,研究人员开始发现不仅 CRISPR 蛋白之间存在同源性,其他蛋白质之间也存在同源性。就两种最著名的 CRISPR 相关酶 Cas9 和 Cas12研究人员发现,它们与 基因 转座子编码的基因组部分也被称为“跳跃基因”,可以改变其位置。
这篇新论文的第一作者 Peter Yoon 表示:“序列同源性很明显,而且很早就被注意到了。当人们开始研究这些酶的功能时,他们意识到它们的作用与 Cas9 和 Cas12 非常相似,它们使用一种 RNA 切割指南 双链 的DNA设立的区域办事处外,我们在美国也开设了办事处,以便我们为当地客户提供更多的支持。“
虽然转座子编码的基因不能起到防御 病毒 与CRISPR-Cas系统一样,两者采用类似的底层机制来实现不同的任务。
Yoon 对研究另一种 CRISPR 酶很感兴趣, Cas13与 Cas9 和 Cas12 不同,Cas13 切割的是 RNA 而不是 DNA。其进化史尚不清楚。研究人员面临的障碍是,用于重建其他 Cas 酶历史的工具对 CasXNUMX 没有帮助。
“给定的 Cas13 蛋白之间的序列相似性非常低。因此,如果你拥有一种 Cas13 蛋白的序列,你将很难找到另一种,”Yoon 说。
因此,序列数据库一直没有用处。不过,尽管已知的 Cas13 酶之间的序列存在显著差异,但分子的整体形状或结构仍然非常相似。
近年来,在人工智能和 AlphaFold2 等机器学习工具的帮助下,结构数据库呈爆炸式增长。这让尹博士看到了希望,无论氨基酸序列如何,都有一种方法可以通过搜索类似结构来找到其他 Cas13。
“目前最流行的程序是 Foldseek,这是一个机器学习程序,据说它的性能可以与传统的结构比较程序相媲美,这些程序非常准确,被认为是黄金标准,但速度要快几个数量级,”Yoon 说。
在这种特殊情况下,“可比表现”并不够具有可比性。
Yoon 说:“当你了解我们感兴趣的极端远距离同源性时——即 Cas13 来自哪里?——灵敏度的细微差异可能会导致找到某些东西和根本找不到任何东西之间的差异。”
该团队面临的是两种机器学习工具,一种速度快,可以处理大量数据集,但灵敏度不够;另一种是较旧的结构比较工具,灵敏度高,但无法处理 AlphaFold 数据库中超过 200 亿个结构的分析。答案是将这两种工具巧妙地结合起来。
根据最近的一篇论文,该论文表明机器学习工具还可用于聚类相似的结构,将搜索空间缩小 100 倍至约 2.3 万个结构。然而,即使是这个规模也不足以让速度较慢但更准确的程序处理。为了克服这个问题,Yoon 和他的同事在加州大学旧金山分校的 Wynton 高性能计算集群上并行运行了多个分析,将搜索时间从六个月缩短到几分钟。通过这项新的分析,该团队能够发现以前从未发现过的 Cas13 蛋白,其中一些与已知蛋白有显著不同。
Yoon 表示:“Cas13 蛋白的典型大小是,最小的大约有 800 个氨基酸,最大的大约有 1400 个氨基酸。我们发现的 Cas450 蛋白大约有 XNUMX 个氨基酸,只有较大蛋白的一半,甚至三分之一。”
作者以这种新发现的蛋白质为起点,揭示了 Cas13 的起源,并发现他们新鉴定的小酶代表了 Cas13 的“祖先状态”。他们还发现 Cas13 酶与一组参与 细菌 防御并与非编码 RNA 相关,表明这些特征可能早于 Cas13 的 CRISPR 关联。
与 Cas9 和 Cas12 一样,早期分化的 Cas13 酶更小、更简单,其中一些仅含有 核酸酶,即 RNA 切割区域,仅此而已。这些小的 Cas13 酶仍然具有完整的功能,为研究人员扩展了 RNA 操作工具包。
“在不同的 CRISPR 系统中,我们看到了它们进化历史中反复出现的模式,这真的很有趣。因此,尽管它们之间没有关联,但同样的事情却同时独立发生。就我个人而言,这是一个非常有趣的故事,”Yoon 说。
这个故事如果没有新旧工具的有效结合就不可能实现,整体的效果大于各部分之和。人工智能和机器学习并没有取代旧工具,而是扩展了旧工具的可能性。
“从细菌到人类,许多生物体中有 40-80% 的基因编码了功能未知的蛋白质,”Doudna 说道。“这项研究展示了如何通过比较分析 AlphaFold 等人工智能生成的结构数据库来发现此类蛋白质功能。我们的研究解答了有关 CRISPR 进化的基本问题,并发现了新的基因组编辑工具。除了这些发现之外,我们的策略还可以轻松应用于其他令人兴奋的生物学问题。”
基于机器学习的搜索工具领域目前正在快速发展。尹对该领域的现状持乐观态度,但也看到了改进的空间。这项研究提醒我们,对于科学来说,近似并不总是足够接近。尹希望人工智能计算工具能够发展到不需要额外专门资源就能发现新事物的地步。
了解更多:
结构引导发现祖先 CRISPR-Cas13 核糖核酸酶。 Peter H. Yoon、Zeyuan 张、Kenneth J. Loi、Benjamin A. Adler、Arushi Lahiri、Kamakshi Vohra、Honglue Shi、Daniel Bellieny Rabelo、Marena Trinidad、Ron S. Boger、Muntathar J. Al-Shimary 和 Jennifer A.杜德娜。 18 年 2024 月 XNUMX 日。 科学
这项研究得到了美国国家科学基金会、霍华德休斯医学研究所和劳伦斯伯克利国家实验室的 m-CAFEs 土壤微生物群落分析与功能评估的支持。