noticias
Los modelos de lenguaje de IA permiten a los investigadores explorar nuevas fronteras en bioingeniería
Los modelos de lenguaje de ARN desarrollados en UC Berkeley pueden predecir mutaciones que mejoran la función del ARN
Los ribosomas son pequeñas fábricas que células utilizar para hacer proteínas. Durante años, los científicos han buscado formas de diseñar estas fábricas celulares para ayudarnos a fabricar medicamentos, polímeros o incluso limpiar el medio ambiente mediante biorremediación. En una nueva preimpresión, investigadores del Innovative Genómica Institute (IGI), el Centro NSF para Materiales Genéticamente Codificados (C-GEM) y el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) de UC Berkeley y el Centro de Biología Computacional, dirigido por IGI y el investigador de C-GEM Jamie Cate, comparten Modelos de aprendizaje profundo que nos acercan al uso de ribosomas como fábricas multipropósito.
Los ribosomas están formados por una combinación de moléculas de ARN, letra singular, monocatenario prima y proteína. Al igual que el ADN, el ARN está formado por nucleótido bases representado por cuatro letras. Si bien los investigadores han avanzado en el uso del aprendizaje profundo para predecir estructuras de proteínas con herramientas innovadoras como AlphaFold y ESMFold, el ARN ha recibido menos atención.
Con los métodos de secuenciación existentes, los investigadores podrían comparar el ARN de diferentes organismos y encontrar mutaciones eso podría dar como resultado diferentes funciones, pero los investigadores que buscan expandir las capacidades del ribosoma solo pudieron aprender mucho de ese enfoque, particularmente porque la variación natural que se encuentra en los ribosomas es relativamente pequeña.
"Llegamos al límite de lo que podíamos hacer simplemente usando ese tipo de enfoques de comparación de secuencias, así que comenzamos a pensar, bueno, ¿podríamos aplicar enfoques de aprendizaje profundo a esto?" dice Cate.
Para abordar el problema, Cate se dedicó a aprender los últimos avances en inteligencia artificial y redes neuronales y comenzó a experimentar con el código nanoGPT del experto en inteligencia artificial Andrej Karpathy en GitHub. Al ver la oportunidad de combinar la experiencia de genómico investigadores del IGI e informáticos del departamento de EECS, en el otoño de 2023 Cate convocó un hackathon con los dos grupos para comenzar a desarrollar herramientas para aplicar el aprendizaje automático al universo del ARN.
Su primer logro fue reunir un conjunto de datos de ARN de alta calidad para entrenar los modelos de aprendizaje profundo. En comparación con el ADN y las proteínas, los datos sobre el ARN son relativamente escasos y los buenos modelos dependen de grandes cantidades de datos de alta calidad.
“Si nos fijamos en artículos similares que intentan resolver el plegamiento del ARN, todos llegamos a la misma conclusión de que sólo unos mil ARN tienen estructuras empíricas de alta calidad. Realmente hay muy pocos datos en bases de datos y literatura sobre estructuras de ARN resueltas, y menos aún sobre estructuras de ARN que coincidan con fenotipos”, dice Marena Trinidad, bioinformática del laboratorio Doudna del IGI y primera autora del estudio. papel.
Después de comparar múltiples enfoques, el modelo de aprendizaje profundo más exitoso que surgió fue un modelo de lenguaje, similar a GPT o Llama. En estos sistemas, las palabras, ya sea en lenguaje humano o en ARN, se convierten en tokens que contienen información de alta dimensión.
"Existen otras opciones para el aprendizaje automático, pero elegimos modelos de lenguaje generativo", dice Trinidad. “Por supuesto, sería fantástico probar todas las combinaciones posibles de mutaciones, pero físicamente no podemos. El modelo de lenguaje nos brinda resultados con los que es posible comenzar a ejecutar en el laboratorio”.
El gran avance del grupo fue darse cuenta de que, en lugar de observar letras de nucleótidos individuales, necesitaban observar grupos de 3 superpuestos para obtener información predictiva.
"Mi interpretación de por qué funciona es que refleja lo que realmente está sucediendo con la estructura del ARN, que depende de cómo estas bases se apilan entre sí", dice Cate. “Una secuencia de ARN es como una pila de placas, por lo que realmente no conviene pensar en cómo se coloca una sola placa sin considerar las placas que están encima y debajo de ella. Y es diferente de las proteínas porque en el ARN, las bases, las partes que están en esas pilas de placas, son las que impulsan la estructura”.
Cada letra de nucleótido puede estar rodeada por 16 combinaciones diferentes de nucleótidos directamente en cada lado. Al incluir esta información sobre cómo se apilan los nucleótidos, el modelo tiene información más profunda e impactante a partir de la cual hacer predicciones. Estas predicciones se confirmaron en el laboratorio en sus experimentos iniciales: el grupo entrenó sus modelos de aprendizaje profundo, llamados Garnet DL, en secuencias de ARN de termófilos. microbios que prosperan en ambientes de alta temperatura y pudieron predecir mutaciones que aumentarían la estabilidad del ribosoma a temperaturas más altas.
Tanto Cate como Trinidad enfatizan lo importante que fue reunir a investigadores tanto del IGI como de las ciencias informáticas y aprovechar sus fortalezas complementarias en genómica y aprendizaje automático.
“Fue muy sinérgico. Sinceramente, no creo que hubiésemos podido elaborar el documento sin que los expertos de ambas partes fueran realmente capaces de determinar cuál era el mejor enfoque para el documento y, especialmente, para superar el obstáculo de la escasez de datos”, afirma Trinidad.
En este momento, el grupo puede utilizar Garnet DL para predecir cómo las mutaciones en la secuencia del ARN afectarán la estructura y función de los ribosomas, y están trabajando en validaciones más experimentales de sus hallazgos en el laboratorio. En el futuro, esperan ampliar su trabajo para predecir la estructura y función del ARN más allá del ribosoma, y permitir a los investigadores diseñar ARN con funciones personalizadas completamente nuevas.
Preimpresión en biorXiv: Los modelos de lenguaje de ARN predicen mutaciones que mejoran la función del ARN de Yekaterina Shuglina, Marena Trinidad, Conner Langeberg, Hunter Nisonoff, Seyone Chithrananda, Petr Skopintsev, Amos Nissley, Jaymin Patel, Ron Boger, Honglue Shi, Peter Yoon, Erin Doherty, Tara Pande, Aditya Iyer, Jennifer Doudna y Jamie Cate.
Este trabajo fue apoyado en parte por el Centro de Materiales Codificados Genéticamente (C-GEM) de la NSF y el Programa de Becas de Investigación para Graduados de la NSF.
Contacto para los medios: Andy Murdock andy.murdock@berkeley.edu
Foto superior: Marena Trinidad hablando con el equipo en el hackathon IGI-EECS. Todas las fotografías de Andy Murdock, Innovative Genomics Institute.