
Investigadores del IGI descubren nuevas enzimas CRISPR mediante una búsqueda inteligente en bases de datos estructurales de IA
La combinación de estructuras proteicas basadas en IA de AlphaFold2 con herramientas computacionales más antiguas fue clave para encontrar enzimas Cas13 no identificadas previamente.
Desde el descubrimiento de CRISPR-Cas9, el laboratorio de Jennifer Doudna y otros en todo el mundo han estado estudiando la evolución de edición del sistemas y tratar de descubrir otros nuevos. En un nuevo artículo en ciencia Hoy, Doudna y sus colegas descubren la historia de un sistema CRISPR-Cas único y describen un nuevo método de uso de herramientas de aprendizaje automático para descubrir nuevas enzimas.
Los científicos que buscan descubrir diferentes sistemas CRISPR-Cas en la naturaleza generalmente exploran bases de datos de secuencias genómicas en busca de homología, es decir, proteínas que tienen características muy similares. aminoácidos secuencias. Este enfoque ha llevado al descubrimiento de nuevas herramientas de edición genómica con características novedosas, como un tamaño más pequeño para facilitar su introducción en las células y propiedades diferentes que se han desarrollado en nuevas tecnologías.
Con el tiempo, los investigadores comenzaron a encontrar homología no solo entre las proteínas CRISPR, sino también entre otras proteínas. En el caso de las dos enzimas asociadas a CRISPR más conocidas, Cas9 y Cas12Los investigadores descubrieron que compartían similitudes con los genes codificados en los transposones, las partes de un genoma, También conocidos como “genes saltarines” que pueden cambiar su ubicación.
"La homología de secuencia fue clara y se notó desde el principio", dice Peter Yoon, primer autor del nuevo artículo. “Cuando la gente empezó a investigar la función de esas enzimas, se dieron cuenta de que actúan de manera muy similar a Cas9 y Cas12, donde utilizan un moléculas de ARN Guía para cortar cables de doble hebra letra singular."
Si bien los genes codificados por transposones no funcionan como defensa contra virus como los sistemas CRISPR-Cas, ambos utilizan un mecanismo subyacente similar para lograr diferentes tareas.
Yoon estaba interesado en ver otro CRISPR enzima, Cas13, que a diferencia de Cas9 y Cas12 corta el ARN, no el ADN. Su historia evolutiva ha sido menos clara. La barrera para los investigadores ha sido que las herramientas utilizadas para reconstruir la historia de las otras Proteínas Cas Las enzimas no son útiles con Cas13.
“La similitud de secuencia entre proteínas Cas13 dadas es muy baja. Por lo tanto, si tienes una secuencia de una proteína Cas13 proteína"Vas a tener dificultades para encontrar otro", dice Yoon.
Debido a esto, las bases de datos de secuencias no han sido útiles. Pero si bien las secuencias cambian significativamente entre las enzimas Cas13 conocidas, la forma o estructura general de las moléculas sigue siendo bastante similar.
En los últimos años, con la ayuda de la inteligencia artificial y herramientas de aprendizaje automático como AlphaFold2, las bases de datos estructurales se han disparado. Esto le dio a Yoon la esperanza de que habría una manera de encontrar otros Cas13 buscando estructuras similares independientemente de la secuencia de aminoácidos.
"El programa más popular hoy en día se llama Foldseek, un programa de aprendizaje automático que se supone que tiene un rendimiento comparable a los programas tradicionales de comparación estructural que eran realmente precisos y se consideraban el estándar de oro, pero mucho más rápido", dice Yoon.
En este caso particular, el “rendimiento comparable” no era lo suficientemente comparable.
“Cuando se llega a la homología extremadamente remota que nos interesa comprender, es decir, ¿de dónde viene Cas13? — la ligera diferencia en la sensibilidad puede marcar la diferencia entre encontrar algo y no encontrar nada en absoluto”, dice Yoon.
El equipo se enfrentó a una herramienta de aprendizaje automático que era rápida y podía manejar enormes conjuntos de datos pero no era lo suficientemente sensible, o una herramienta de comparación estructural más antigua que era muy sensible pero no podía manejar un análisis del tamaño de más de 200 millones de estructuras. en la base de datos AlphaFold. La respuesta resultó ser una inteligente combinación de ambas herramientas.
Basado en un artículo reciente que demostró que la herramienta de aprendizaje automático también podría usarse para agrupar estructuras similares, reduciendo el espacio de búsqueda 100 veces a alrededor de 2.3 millones de estructuras. Sin embargo, ni siquiera esto era lo suficientemente pequeño para que lo manejara el programa más lento pero más preciso. Para superar esto, Yoon y sus colegas realizaron múltiples análisis en paralelo en el Wynton High-Performance Compute Cluster de la UCSF, reduciendo el tiempo de búsqueda de seis meses a cuestión de minutos. Con este nuevo análisis, el equipo pudo descubrir proteínas Cas13 que nunca antes se habían encontrado, algunas de las cuales eran notablemente diferentes de las proteínas conocidas.
“El tamaño típico de una proteína Cas13, las más pequeñas que se encuentran tienen alrededor de 800 aminoácidos y las más grandes tienen alrededor de 1400 aminoácidos. Los que encontramos tenían alrededor de 450 aminoácidos, la mitad o incluso un tercio del tamaño de los más grandes”, dice Yoon.
Los autores utilizaron esta proteína recién descubierta como punto de partida para descubrir los orígenes de Cas13 y descubrieron que su pequeña enzima recién identificada representa el "estado ancestral" de las Cas13. También descubrieron que las enzimas Cas13 están más estrechamente relacionadas con un grupo de otras enzimas involucradas en la defensa bacteriana y asociadas con un ARN no codificante, lo que sugiere que estas características pueden haber existido antes de la asociación de Cas13 con CRISPR.
Al igual que con Cas9 y Cas12, las enzimas Cas13 divergentes anteriores son más pequeñas y simples, y algunas de ellas contienen solo el nucleasa, es decir, la región de corte del ARN, y poco más. Estas pequeñas enzimas Cas13 todavía son completamente funcionales, lo que amplía el conjunto de herramientas de manipulación de ARN para los investigadores.
“Es realmente interesante ver que dentro de los diferentes sistemas CRISPR vemos patrones recurrentes en sus historias evolutivas. Entonces, a pesar de no estar relacionados, lo mismo estaba sucediendo de forma independiente y en paralelo. Personalmente, es una historia realmente fascinante”, dice Yoon.
También es una historia que no podría haberse contado sin una combinación productiva de herramientas antiguas y nuevas, donde el todo resultó ser mayor que la suma de sus partes. La inteligencia artificial y el aprendizaje automático no reemplazaron la herramienta anterior, pero ampliaron las posibilidades de lo que podía hacer.
“En muchos organismos de bacterias fotosintéticas “Entre el 40 y el 80 por ciento de los genes de los seres humanos codifican proteínas de función desconocida”, afirma Doudna. “Este estudio demuestra cómo se pueden descubrir estas funciones proteínicas mediante el análisis comparativo de bases de datos de estructuras generadas por IA, como AlphaFold. Nuestro estudio respondió a preguntas fundamentales sobre la evolución de CRISPR y descubrió nuevas herramientas de edición del genoma. Y más allá de estos hallazgos, nuestra estrategia se puede aplicar fácilmente a otras cuestiones biológicas apasionantes”.
El campo de las herramientas de búsqueda basadas en aprendizaje automático está creciendo rápidamente. Yoon es positivo acerca de dónde se encuentra el campo, pero también ve margen de mejora. Este estudio es un recordatorio de que una aproximación cercana no siempre es lo suficientemente cercana para la ciencia. La esperanza de Yoon es que las herramientas computacionales de IA avancen hasta el punto en que no sean necesarios recursos especializados adicionales para realizar nuevos descubrimientos.
Más información:
Descubrimiento guiado por la estructura de ribonucleasas ancestrales CRISPR-Cas13. Peter H. Yoon, Zeyuan Zhang, Kenneth J. Loi, Benjamin A. Adler, Arushi Lahiri, Kamakshi Vohra, Honglue Shi, Daniel Bellieny Rabelo, Marena Trinidad, Ron S. Boger, Muntathar J. Al-Shimary y Jennifer A. Doudna. 18 de julio de 2024. Ciencias:
Esta investigación fue apoyada por la Fundación Nacional de Ciencias, el Instituto Médico Howard Hughes y el Análisis de la comunidad microbiana y la evaluación funcional en suelos de m-CAFE en el Laboratorio Nacional Lawrence Berkeley.