IGI 开发的 RNA 语言模型使研究人员能够探索生物工程的新前沿。
核糖体是微型工厂 细胞 用来制作 蛋白质。多年来,科学家们一直在寻找设计这些细胞工厂的方法,以帮助我们制造药物、聚合物,甚至通过生物修复来净化环境。在 一篇新论文 自然通讯,创新研究中心的研究人员 基因组学 研究所 (IGI)、NSF 基因编码材料中心 (C-GEM) 以及加州大学伯克利分校电气工程和计算机科学系 (EECS) 以及计算生物学中心,由 IGI 和 C-GEM 研究员 Jamie Cate 领导,分享深度学习模型使我们更接近将核糖体用作多功能工厂。
核糖体由以下物质组合而成 RNA, 的DNA“ 单链 表弟和蛋白质。与 DNA 一样,RNA 也是由 核苷酸 基础 由四个字母表示。尽管研究人员已经利用 AlphaFold2 和 ESMFold 等突破性工具在利用深度学习预测蛋白质结构方面取得了进展,但 RNA 却没有受到太多关注。
利用现有的测序方法,研究人员可以比较来自不同生物体的 RNA,并发现 突变 这可能会导致不同的功能,但是寻求扩展核糖体功能的研究人员只能从这种方法中学到很多东西,特别是因为核糖体中发现的自然变异相对较小。
“仅使用这些序列比较方法我们就达到了极限,所以我们开始思考,我们是否可以应用深度学习方法来解决这个问题?”凯特说。
看到了将专业知识结合起来的机会 基因组 IGI 的研究人员和 EECS 系的计算机科学家,2023 年秋季 举办了一场黑客马拉松 与两个小组一起开始开发工具,将机器学习应用于 RNA 领域。
他们的第一个成就是整合了高质量的 RNA 数据集,用于训练深度学习模型。与DNA和蛋白质相比,RNA的数据相对匮乏,好的模型依赖于大量的高质量数据。
“如果你看一下试图解决 RNA 折叠问题的类似论文,我们都会得出相同的结论,即只有大约 1000 个 RNA 具有高质量的经验结构。 IGI 杜德纳实验室的生物信息学家、该研究的第一作者 Marena Trinidad 说:“数据库和文献中关于已解决的 RNA 结构的数据确实非常少,与表型相匹配的 RNA 结构的数据就更少了。”纸。
在比较多种方法之后,出现的最成功的深度学习模型是语言模型,类似于 GPT 或 Llama。在这些系统中,单词(无论是人类语言还是 RNA)都被转换为包含高维信息的标记。
“机器学习还有其他选择,但我们选择了生成语言模型,”特立尼达说。 “当然,测试所有可能的突变组合会很棒,但我们实际上做不到。语言模型为我们提供了可以在实验室中开始运行的结果。”
该小组的重大突破是意识到,他们需要查看重叠的 3 个核苷酸组来获取预测信息,而不是查看单个核苷酸字母。
“我对其工作原理的解释是,它反映了 RNA 结构的实际情况,而 RNA 结构取决于这些碱基如何相互堆叠,”Cate 说。 “RNA 序列就像一堆板,所以你不会真的想在不考虑单个板上方和下方的板的情况下如何定位单个板。它与蛋白质不同,因为在 RNA 中,碱基、那些板堆中的部分是驱动结构的。”
每个单核苷酸字母可以直接在两侧被 16 种不同的核苷酸组合包围。通过包含有关核苷酸如何堆叠的信息,该模型可以获得更深入、更有影响力的信息来进行预测。这些预测已在实验室的初步实验中得到证实:该小组根据嗜热生物的 RNA 序列训练了名为 Garnet DL 的深度学习模型 — 微生物 它们在高温环境中茁壮成长,并且能够预测会增加核糖体在高温下稳定性的突变。
Cate 和 Trinidad 都强调将 IGI 和计算机科学领域的研究人员聚集在一起并发挥他们在基因组学和机器学习方面的互补优势是多么重要。
“这是非常协同的。老实说,我认为如果没有双方专家的帮助,我们不可能完成这篇论文,真正能够找出论文的最佳方法,尤其是克服数据稀缺的障碍,”特立尼达说。
目前,该团队可以使用 Garnet DL 预测 RNA 序列突变将如何影响核糖体的结构和功能。未来,他们希望将工作范围扩大到预测核糖体以外的 RNA 结构和功能,并使研究人员能够设计出具有全新定制功能的 RNA。
了解更多: RNA 语言模型预测可改善 RNA 功能的突变。 Yekaterina Shuglina、Marena Trinidad、Conner Langeberg、Hunter Nisonoff、Seyone Chithrananda、Petr Skopintsev、Amos Nissley、Jaymin Patel、Ron Boger、Honglue Shi、Peter Yoon、Erin Doherty、Tara Pande、Aditya Iyer、Jennifer Doudna 和 Jamie Cate。 自然通讯 (2024)。 https://doi.org/10.1038/s41467-024-54812-y
这项工作得到了 NSF 基因编码材料中心 (C-GEM) 和 NSF 研究生研究奖学金计划的部分支持。
媒体联络: 安迪·默多克 andy.murdock@berkeley.edu
上图:使用 RNA 语言模型生成的 23S rRNA 序列比对。更多详细信息请参阅上述链接的论文。
更新日期:6 年 2024 月 XNUMX 日。