popEVE es un modelo de inteligencia artificial que puede diagnosticar enfermedades raras en pacientes que tengan mutaciones únicas en todo el mundo.
Es el primer IA que funciona con solo la información genética del propio paciente, sin la necesidad de datos de los progenitores.
Se ha creado un modelo de inteligencia artificial capaz de identificar qué mutaciones en proteínas humanas son más propensas a causar enfermedad, incluso cuando las mutaciones no se habían observado nunca en ninguna persona en todo el mundo.
El modelo, denominado popEVE, se desarrolló utilizando datos procedentes de cientos de miles de especies distintas y de la variación genética existente en la población humana. El amplio registro evolutivo permite que la herramienta identifique qué partes de cada una de las aproximadamente 20.000 proteínas humanas son esenciales para la vida y cuáles pueden tolerar cambios.
Esto permite que popEVE no solo identifique mutaciones causantes de enfermedad, sino que también clasifique su gravedad en todo el organismo. Los resultados, publicados hoy en Nature Genetics por investigadores de la Harvard Medical School y del Centro de Regulación Genómica (CRG) en Barcelona, podrían transformar la manera en que los médicos diagnostican enfermedades genéticas.
Una de cada dos personas con una enfermedad rara o ultra rara nunca recibe un diagnóstico claro. popEVE podría cambiar esta situación ayudando a los médicos a centrarse primero en las variantes más perjudiciales. Otro beneficio radica en que puede funcionar únicamente con la información genética del propio paciente.
“En las consultas no siempre se dispone del ADN de los progenitores y muchos pacientes acuden solos. popEVE puede ayudar a estos médicos a identificar mutaciones causantes de enfermedad, y ya estamos observando este beneficio en nuestras colaboraciones con clínicas”, señala la Dra. Mafalda Dias, coautora principal del estudio e investigadora del CRG.

El reto del diagnóstico de enfermedades ultra raras
El genoma de cada persona contiene numerosas pequeñas diferencias que la hacen única. Entre ellas se encuentran las mutaciones de sentido erróneo, cambios que alteran un aminoácido en una proteína. Muchas son inocuas, pero otras provocan afecciones o trastornos graves. El reto consiste en determinar cuáles son benignas y cuáles resultan perjudiciales.
Sin embargo, no todas las mutaciones perjudiciales lo son en la misma medida. Algunas causan síntomas leves, otras provocan discapacidades graves y algunas son letales en la infancia. Existen múltiples herramientas de inteligencia artificial destinadas a predecir si una mutación es peligrosa, pero no suelen ofrecer una escala gradual de este comportamiento.
Para afecciones “tan raras como únicas”, no existen antecedentes clínicos a los que recurrir. Incluso si se secuenciara a toda la población mundial, las mutaciones de estos pacientes serían completamente nuevas. Los métodos tradicionales que dependen de detectar patrones en grupos de pacientes o en grandes cohortes no pueden ayudar en estos casos individuales.
Por ello, un equipo dirigido por Debora Marks en la Harvard Medical School y por Jonathan Frazer y Mafalda Dias en el Centro de Regulación Genómica (CRG) recurrió a la evolución.
Utilizar la evolución para identificar cambios críticos en las proteínas
A lo largo de miles de millones de años, la evolución en la Tierra ya ha llevado a cabo innumerables experimentos, poniendo a prueba qué cambios puede tolerar una proteína y cuáles son demasiado dañinos para permitir la supervivencia. Los modelos computacionales pueden aprender qué posiciones de los aminoácidos son críticas para la vida comparando secuencias de proteínas de muchas especies distintas.
Esta idea inspiró EVE (Evolutionary model of Variant Effect), un algoritmo presentado por los mismos autores del estudio en 2021. Utilizaba patrones evolutivos para clasificar mutaciones en genes humanos asociados a enfermedades como benignas o perjudiciales. EVE alcanzó un rendimiento igual o superior al de muchos experimentos de laboratorio y, desde entonces, se utiliza en genética clínica para ayudar a interpretar variantes de significado incierto.
Sin embargo, aunque EVE podía evaluar el impacto de las mutaciones dentro de un mismo gen, sus puntuaciones no eran directamente comparables entre genes. Una variante que parecía grave en una proteína no podía compararse de forma justa con otra en una proteína distinta. Esto representaba un problema porque en la medicina se necesita saber cuál es la mutación más dañina en el genoma de un paciente.
El modelo más reciente de la familia EVE, popEVE, resuelve este problema combinando datos evolutivos con información procedente del UK Biobank y de gnomAD, dos vastos repositorios de datos genéticos. Estos conjuntos muestran qué variantes están presentes en personas sanas, lo que permite calibrar sus predicciones específicas para los seres humanos.
El resultado es el primer modelo capaz de clasificar mutaciones de forma significativa en todo el proteoma humano, el conjunto completo de aproximadamente 20.000 proteínas codificadas en el genoma. Una mutación en el gen A puede compararse directamente con otra en el gen B en la misma escala de gravedad. Esto permite, por primera vez, que se pueda centrar en las variantes potencialmente más dañinas.
Buen rendimiento diagnóstico
Para validar popEVE, se analizaron datos genéticos de más de 31.000 familias con hijos e hijas afectados por trastornos graves del desarrollo. En el 98% de los casos en los que ya se había identificado una mutación causal, popEVE clasificó correctamente esa variante como la más perjudicial del genoma del niño. Superó a competidores de vanguardia como AlphaMissense, desarrollado por DeepMind.
Cuando se buscaron nuevos genes candidatos asociados a enfermedades, popEVE identificó 123 que previamente nunca se habían vinculado a trastornos del desarrollo. Muchos están activos en el cerebro en desarrollo e interactúan físicamente con proteínas relacionadas con enfermedades. De estos, 104 se observaron en solo uno o dos pacientes.
Diagnóstico de enfermedades ultra raras independiente de la ancestría
Una de las fortalezas de popEVE es que evita penalizar a personas cuyas ancestrías están infrarrepresentadas en las bases de datos genéticas, predominantemente sesgadas hacia poblaciones de ascendencia europea. Esto resulta problemático en otras herramientas que señalan posibles mutaciones causantes de enfermedad simplemente porque no se habían visto antes.
popEVE evita este problema tratando todas las variantes humanas por igual. Al preguntar si una mutación se ha observado antes en seres humanos, ya sea una vez en una población específica o mil veces en poblaciones europeas, se predijeron menos falsos positivos.
“Nadie debería recibir un resultado alarmante solo porque su comunidad no esté bien representada en las bases de datos globales. popEVE contribuye a corregir ese desequilibrio, algo que el campo llevaba mucho tiempo necesitando”, afirma el Dr. Jonathan Frazer, coautor corresponsal del estudio e investigador en el CRG.
Los autores del estudio subrayan que popEVE únicamente interpreta cambios en el ADN que alteran proteínas. Existen muchos otros tipos de mutaciones, por lo que no abarca toda la variación genética. Tampoco sustituye al criterio clínico: los médicos deben recurrir a historiales médicos y análisis de síntomas para orientar el diagnóstico.
Artículo científico
Orenbuch et al.Proteome-wide model for human disease genetics. Nature Genetics. 2025. DOI:10.1038/s41588-025-02400-1


