Investigadores de la Universidad de Stanford y el Instituto Arc han desarrollado Evo, una inteligencia artificial capaz de generar secuencias genómicas sintéticas desde cero. La herramienta, entrenada con datos genómicos microbianos, tiene potenciales aplicaciones en biotecnología y biología sintética.
Los modelos de inteligencia artificial (IA) han revolucionado la manera en la que se trabaja en múltiples disciplinas, especialmente en las ciencias biomédicas y la biología molecular. En los últimos años, se han desarrollado interesantes herramientas de IA con amplias aplicaciones en estas dos áreas: identificación de dianas terapéuticas, predicción de estructuras proteicas o incluso predicción de la respuesta al tratamiento oncológico. Estas estrategias son solamente una muestra del enorme potencial de los modelos de inteligencia artificial en Ciencias de la Salud y, cada año se incorporan nuevas herramientas que amplían mucho más sus aplicaciones en esta área.
Recientemente, un estudio publicado en la revista Science ha presentado “Evo”, una nueva herramienta basada en inteligencia artificial capaz de generar genomas completos desde cero. A diferencia de otras IAs, Evo está basado en modelos de lenguaje de gran tamaño, lo que le permite generar incluso secuencias genómicas bacterianas completas. Su desarrollo abre nuevas oportunidades para el diseño de proteínas y genomas sintéticos mediante inteligencia artificial.
Diseño y funcionamiento de la herramienta Evo
Evo es una inteligencia artificial generativa basada en modelos de lenguaje de gran tamaño que es capaz de identificar patrones en el ADN y generar nuevas secuencias. Durante el desarrollo de esta herramienta, el equipo liderado por el Dr. Brian Hie, investigador en la Universidad de Stanford y el Instituto Arc, la entrenó con datos de más de 27 millones de genomas procariotas, virus bacteriófagos y plásmidos. Este enfoque ha permitido que Evo sea capaz de identificar patrones evolutivos en el ADN.
La novedad de Evo respecto a anteriores modelos basados en inteligencia artificial es su amplia longitud de contexto, es decir, su capacidad de procesar largas secuencias de ADN. Mientras que otras inteligencias artificiales solamente analizan fragmentos cortos de ADN, Evo es capaz de analizar secuencias largas, lo que le permite identificar mejor las conexiones entre genes y secuencias genómicas.
Predicción del impacto de mutaciones mediante inteligencia artificial
Tras el diseño y desarrollo de Evo, el equipo de investigadores analizó la eficacia de esta herramienta en la predicción del impacto de las mutaciones en el funcionamiento de las proteínas. Para ello, los autores introdujeron ciertas mutaciones en el genoma de células procariotas y compararon las predicciones de Evo con los resultados de otros trabajos en los que se habían generado las mismas mutaciones. Los resultados demostraron que Evo es más eficaz en la predicción de los efectos de las mutaciones que otros modelos basados en IA.
Diseño de proteínas Cas9 mediante inteligencia artificial
En una segunda parte del estudio, el equipo del Dr. Hie evaluó el potencial de Evo para diseñar versiones optimizadas de la proteína Cas9, una herramienta indispensable para la edición genética mediante CRISPR. Para ello, los autores entrenaron el modelo con más de 70.000 secuencias bacterianas que codifican proteínas Cas y sus ARN asociados.
Tras el entrenamiento, Evo fue capaz de generar millones de secuencias sintéticas codificantes de enzimas Cas9. El Dr. Hie y su equipo analizaron estas secuencias y su potencial y seleccionaron las 11 versiones más prometedoras para sintetizarlas en el laboratorio y evaluar su potencial. Los resultados demostraron que algunas de las proteínas Cas9 que fueron sintetizadas por Evo eran tan eficientes como la versión comercial de la proteína Cas9.
Hasta ahora, obtener nuevas versiones más eficaces de Cas9 suponía un importante desafío para los investigadores. Para conseguirlas, se debía encontrar bacterias que hubiesen evolucionado para tener versiones más potentes de esta enzima. “No tenemos que esperar a la evolución para crear una nueva Cas9”, explica el Dr. Hie.
Generar genomas mediante inteligencia artificial: desafíos y próximos pasos
Uno de los retos más importantes de la biología sintética es la generación de genomas sintéticos. Es decir, la creación de secuencias genómicas desde cero. El Dr. Hie y su equipo se preguntaban si Evo sería capaz de generar secuencias genómicas completas desde cero, por lo que pidieron a la Inteligencia Artificial que generase secuencias de genomas sintéticos bacterianos. El modelo generó correctamente gran parte de las secuencias genómicas e incluyó genes importantes para el funcionamiento celular. Sin embargo, la inteligencia artificial omitió total o parcialmente algunas regiones genómicas imprescindibles para la supervivencia.
Otro ejemplo de las limitaciones de Evo fue descrito en la generación de secuencias de proteínas Cas9 sintéticas. Según detallan los investigadores, el modelo de inteligencia artificial propuso algunas secuencias de Cas9 que no eran funcionales. Este tipo de errores se pueden observar en muchas otras inteligencias artificiales generativas basados en modelos de lenguaje de gran tamaño, como el conocido ChatGPT.
Pese a sus limitaciones, Evo se postula como un importante avance en el uso de herramientas basadas en inteligencia artificial generativas. Futuras investigaciones servirán para mejorar esta herramienta y utilizarla en el diseño de proteínas y genomas sintéticos.
Artículo Original:
Nguyen E, et al. Sequence modeling and design from molecular to genome scale with Evo. Science. 2024 Nov 15;386(6723):eado9336. doi: https://doi.org/10.1126/science.ado9336
Fuente: Evo: Creating Generative AI for Genomes. Arc Institute.https://arcinstitute.org/news/blog/evo-science
Si te ha gustado esta noticia y quieres aprender más sobre Genética en Medicina, te interesa nuestra formación, como el “Máster de Medicina de Precisión y Genética Clínica“, o el “Experto Universitario en Genética Clínica y Enfermedades Raras“.