Genética Médica News

Evo 2: inteligencia artificial para interpretar y escribir el lenguaje del ADN

Evo 2, un modelo de inteligencia artificial entrenado con más de 9 billones de nucleótidos permite analizar y diseñar secuencias genómicas de organismos de todos los dominios de la vida.

Una de sus principales aplicaciones es predecir el impacto de variantes genéticas sobre la salud humana.

En los últimos años, la biología computacional ha intentado replicar el éxito de los grandes modelos de lenguaje aplicándolos a la lectura del ADN. Las primeras herramientas de inteligencia artificial en este campo permitían analizar proteínas aisladas o genomas bacterianos específicos. Sin embargo, la complejidad de la vida eucariota y las interacciones entre elementos dentro de genomas como el humano seguían representando un desafío técnico difícil de alcanzar. 

El modelo de inteligencia artificial Evo 2, marca un punto de inflexión para la interpretación del ADN. Evo 2 se basa en la idea de que las secuencias de ADN pueden analizarse de forma similar al lenguaje. De la misma forma que los modelos de lenguaje aprenden patrones en textos, un modelo genómico puede aprender regularidades presentes en secuencias de nucleótidos. En este caso, el modelo fue entrenado con más de 9,3 billones de nucleótidos procedentes de más de 128 000 genomas completos y datos metagenómicos que incluyen bacterias, arqueas, eucariotas y bacteriófagos. 

Los detalles del modelo, publicados hace unos días en Nature, muestran un sistema capaz de identificar patrones funcionales en el ADN y utilizar esa información tanto para interpretar variantes genéticas como para generar nuevas secuencias biológicas.

Evo 2 aprende del lenguaje que comparten los genomas de todos los organismos vivos
Evo 2 aprende del lenguaje que comparten los genomas de todos los organismos vivos. Imagen: Instituto Arc.

Cómo se desarrolló Evo 2

Evo 2 ha sido desarrollado por investigadores del Arc Institute y NVIDIA, en colaboración con científicos de la Universidad de Stanford, la Universidad de California en Berkeley y la Universidad de California en San Francisco.

El modelo se entrenó utilizando el conjunto de datos OpenGenome2, que reúne secuencias genómicas curadas y no redundantes de organismos de todos los dominios de la vida. Durante el entrenamiento, realizado durante varios meses con la plataforma NVIDIA DGX Cloud AI y más de 2000 unidades GPU H100, se procesaron billones de nucleótidos con el objetivo de aprender relaciones entre secuencias y funciones biológicas.

Para poder manejar secuencias genómicas de gran tamaño, los investigadores desarrollaron una arquitectura computacional específica denominada StripedHyena 2.  

Gracias a su arquitectura, Evo 2 puede analizar secuencias de hasta un millón de nucleótidos en una sola entrada. Esta capacidad permite detectar relaciones entre elementos genéticos separados por largas distancias en el genoma, algo especialmente relevante en organismos con genomas complejos.

Predicción del impacto de variantes genéticas con Evo 2

Evo 2 tiene múltiples aplicaciones dentro de la biología computacional. Entre ellas destacan la identificación de elementos funcionales del genoma, la generación de nuevas secuencias de ADN, el estudio de la organización de los genomas o la predicción del efecto de mutaciones sobre proteínas y organismos.

Esta última aplicación es especialmente para la genética humana, ya que conocer el impacto funcional de variantes genéticas es un problema central para la interpretación de datos genómicos en investigación biomédica y diagnóstico molecular.

El modelo aprende patrones evolutivos presentes en grandes conjuntos de secuencias genómicas. Y cuando se introduce una mutación en una secuencia, Evo 2 puede calcular cómo cambia la probabilidad de que esa secuencia sea compatible con los patrones observados en la evolución. Las mutaciones que reducen esta probabilidad pueden estar asociadas a efectos perjudiciales sobre la función biológica.

Un ejemplo de esta capacidad se observa en el análisis de variantes del gen BRCA1, asociado al cáncer de mama y ovario hereditario. En el estudio, los investigadores evaluaron el rendimiento de Evo 2 utilizando conjuntos de variantes de BRCA1 con efectos funcionales conocidos. El modelo fue capaz de diferenciar variantes benignas de variantes con pérdida de función a partir de los cambios en la probabilidad de la secuencia cuando se introduce una mutación. 

Además, Evo 2 mostró capacidad para analizar variantes tanto en regiones codificantes como en regiones no codificantes cercanas a sitios de procesado del ARN mensajero, lo que sugiere que este tipo de modelos podría contribuir a priorizar variantes con posible relevancia clínica en estudios genómicos. 

Evo 2 permite diseñar secuencias genómicas

Además de analizar variantes genéticas, Evo 2 puede utilizarse para generar nuevas secuencias de ADN. Esta capacidad se basa en el aprendizaje de patrones presentes en los genomas de diferentes organismos, lo que permite al modelo producir secuencias que mantienen características similares a las observadas en la naturaleza.

El modelo es capaz de producir secuencias coherentes a escala genómica, incluyendo secuencias mitocondriales humanas completas y genomas bacterianos de cientos de miles de pares de bases. En pruebas realizadas con el genoma mínimo de la bacteria Mycoplasma genitalium, los investigadores lograron generar secuencias de aproximadamente 580 kilobases que contenían genes con características estructurales similares a los genes naturales.

Finalmente, Evo 2 también ha sido utilizado para diseñar bacteriófagos sintéticos funcionales como posibles alternativas terapéuticas frente a bacterias resistentes a antibióticos. 

Estos resultados sugieren que Evo 2 puede generar secuencias genómicas con características biológicas plausibles. Esta capacidad abre la puerta al diseño computacional de componentes biológicos. Por ejemplo, Evo 2 puede generar secuencias reguladoras capaces de modificar la accesibilidad de la cromatina en células humanas, lo que podría facilitar el desarrollo de herramientas de ingeniería genética o terapias génicas con mayor especificidad.

Si se dispone de una terapia génica que se desea activar solo en neuronas o en células hepáticas, sería posible diseñar un elemento genético que solo sea accesible en esos tipos celulares”, ha señalado, Hani Goodarzi, investigador del Arc Institute y coautor del estudio.

Una nueva generación de modelos genómicos

El desarrollo de Evo 2 ilustra cómo la inteligencia artificial puede contribuir a integrar distintos niveles de información biológica a partir de las secuencias genómicas. Al aprender patrones conservados en organismos muy diversos, el modelo permite explorar el genoma desde una perspectiva comparativa que abarca desde pequeños elementos reguladores hasta genomas completos.

En este sentido, Evo 2 no solo amplía las herramientas disponibles para analizar la función del ADN, sino que también plantea nuevas posibilidades para el diseño computacional de sistemas biológicos. Tal y como señalan los autores del estudio:

La serie de modelos Evo establece las bases para el modelado y diseño biológico que unifica las distintas escalas de longitud de la biología mediante una representación común. Estas capacidades, combinadas con tecnologías de manipulación del ADN a gran escala, podrían permitir el diseño programable de funciones biológicas más complejas. Esperamos que futuros trabajos que integren datos de secuencias genómicas con otras modalidades puedan dar lugar a modelos capaces de simular de forma útil fenotipos complejos en salud y enfermedad.

A medida que se desarrollen modelos que integren diferentes tipos de datos biológicos —como información transcriptómica, epigenómica o proteómica—, herramientas como Evo 2 podrían contribuir a avanzar hacia modelos computacionales capaces de predecir con mayor precisión cómo las variaciones genéticas influyen en los fenotipos y en la aparición de enfermedades.

El modelo Evo 2 se ha publicado como recurso abierto, incluyendo el código, los parámetros del modelo y el conjunto de datos de entrenamiento OpenGenome2. Esto permitirá que otros grupos de investigación utilicen y desarrollen nuevas aplicaciones basadas en este sistema. Junto a AlphaGenome, herramienta desarrollada por el equipo de Google DeepMind para interpretar el genoma humano, Evo 2 promete importantes avances para la biología y la medicina.

Artículo científico

Brixi, G., Durrant, M.G., Ku, J. et al. Genome modelling and design across all domains of life with Evo 2. Nature (2026). https://doi.org/10.1038/s41586-026-10176-5

Fuentes

With Evo 2, AI can model and design the genetic code for all domains of life. https://www.eurekalert.org/news-releases/1118060 

Máster en Medicina de Precisión y Genética Clínica

Comparte esta noticia en tus redes

Categorías
Cursos relacionados

Contacto

¿Quieres publicar con nosotros? ¿Tienes dudas?
Contacta con nosotros de la manera que prefieras y te responderemos a la mayor brevedad.

Scroll al inicio