Carlos del Cacho: “Se están empezando a aplicar en genética modelos que han funcionado muy bien para el procesamiento de texto”

Carlos del Cacho: “Se están empezando a aplicar en genética modelos que han funcionado muy bien para el procesamiento de texto”

Amparo Tolosa, Genotipia

 

Carlos del Cacho (Madrid, 1980) es experto en inteligencia artificial y Big Data. Persona muy curiosa trabaja como consultor en proyectos tan diversos como los modelos de previsión de ventas, modelos de riesgo en banca, sistemas de recomendación…

genetica modelos
Carlos del Cacho (Madrid, 1980) es experto en inteligencia artificial y Big Data.

En la actualidad, con el objetivo de utilizar su conocimiento en nuevas áreas, e impactar positivamente sobre la salud de las personas, Carlos del Cacho se está formando en el Máster de formación permanente en Medicina de Precisión y Genética Clínica y colabora en un proyecto de biopsia líquida para el diagnóstico de cáncer analizando patrones de ADN libre circulante.

Hablamos con él para conocer su perspectiva sobre las aplicaciones de la inteligencia artificial en la genética clínica y las expectativas de esta disciplina en los próximos años.

Procedes de un campo eminentemente informático ¿Por qué decidiste formarte en Genética?

Vi un documental sobre CRISPR hace un tiempo y me llamó mucho la atención. Pensé “qué cosas más chulas hacen en biotecnología”. Que un mecanismo de defensa de las bacterias de repente se reutilice para otro propósito y que sirva para terapias me pareció súper interesante. Empecé a leer y profundizar, acabé leyendo sobre epigenética y finalmente decidí matricularme en el máster.

Gran parte de los avances que tenemos hoy en día en genética proceden del salto de secuenciar y analizar pequeños fragmentos a hacerlo a gran escala. ¿Es la inteligencia artificial el siguiente gran salto?

De hecho, se está usando ya. En secuenciación de nanoporos miden diferencias de voltaje según pasa la cadena de nucleótidos y el algoritmo que hace el “base calling” que dice “esto es una guanina y esto es una citosina” eso es inteligencia artificial.Yo creo que hay bastante camino por recorrer, pero se están haciendo cosas. Y algunas bastante punteras.

Ahora que se han recopilado un montón de datos, para interpretar todas las variantes identificadas también se estará utilizando inteligencia artificial…

Claro, el tema es que hacer experimentos en genética hasta hace unos años era carísimo. Entonces las muestras eran muy pequeñas. Y a lo mejor se secuenciaba solo una parte del genoma para ver si estaba relacionada con el fenotipo que estabas buscando.

Del porcentaje de mutaciones que puede haber en el ser humano, las que están estudiadas son una mínima parte del total. Aprovechando los resultados de Alphafold, un algoritmo basado en redes neuronales para predecir la estructura de las proteínas desarrollado por Google, ahora han sacado un nuevo modelo que estima si una mutación en un gen que codifica proteínas y afecta a un aminoácido es benigna o maligna.

Basándose en la estructura que predice Alphafold se pueden hacer predicciones sobre muchas mutaciones posibles de aminoácidos. Utilizando resultados de análisis clínicos que ya están publicados y afectan a un porcentaje reducido de mutaciones, los investigadores se han dedicado a hacer predicciones sobre muchas mutaciones posibles de aminoácidos y los resultados son bastante espectaculares. Han encontrado alrededor de un 90% de aciertos.

Ciertamente, Alphafold ha sido una revolución. Y haciendo predicciones sobre proteínas tarde o temprano iba a repercutir en el efecto de las mutaciones.

Sí, se están haciendo bastantes cosas. Un problema es que para hacer ese tipo de estudios necesitas un cómputo bastante considerable. Entonces, al final hay cuatro o cinco empresas en el mundo que se lo pueden permitir y Google es una de ellas. Es un problema bastante grave que hay con la inteligencia artificial del que se habla poco. Se va a generar concentración de riqueza y concentración de poder, porque las barreras de entrada son muy altas.

Cualquier sistema o modelo que se esté creando se alimenta de nueva información conforme va surgiendo o depende de la información que ya existe. Esta situación, ¿no puede derivar en que existan sesgos relacionados con los procesos anteriores, como el diseño de estudios, la toma de muestras?

Claro, de hecho, eso pasa en cualquier tratamiento estadístico y al final el aprendizaje automático no deja de ser estadística vitaminada, por decirlo de alguna forma. Las redes neuronales optimizan un objetivo. Y si tus datos están sesgados, pues igual no están haciendo lo que tú esperabas que hicieran.

Me ha pasado, por ejemplo, haciendo modelos de genética, que si se mezclan datos de pacientes de distintos estudios y los protocolos de preparación son distintos, puede ocurrir que si hay contaminación con los ADN de los adaptadores de secuenciación, la red neuronal en lugar de aprender un problema, como puede ser el que estaba intentando resolver yo, que era el diagnóstico de cáncer, acabe distinguiendo muy bien entre el ADN del adaptador de Illumina y el de otro sistema de secuenciación.

Esto es una cosa que desde el punto de vista de conocimiento de genética lo puedes ver muy claro, pero seguro que hay muchos otros sesgos que pueden ocurrir y que también pueden afectar a los resultados.

Justo esta semana el Biobanco del Reino Unido acaba de publicar la información genómica de 500.000 personas. ¿Cómo va a contribuir esto a todos estos proyectos e iniciativas?

Yo creo que va a tener bastante impacto. Ya hay bastantes artículos sobre el Biobanco de Reino Unido, por ejemplo de puntuaciones de riesgo poligénico. Y el que hayan secuenciado genomas completos y los abran a la investigación, lo veo como una evolución bastante positiva.

Al final, un problema bastante considerable en genética, es que si quieres tener un volumen importante de pacientes y tú no eres el que controlas la secuenciación, tienes que pedir acceso a 20 o 30 estudios, lo que complica el conseguir información. El Biobanco de Reino Unido te da acceso a medio millón y solamente lo tienes que pedir en un sitio. Después ya puedes empezar a probar tus hipótesis y hacer tus modelos.

 

Carlos del Cacho destaca que la utilización en genética de modelos para el procesamiento del lenguaje podría suponer un importante avance para la disciplina.

 

Estás especialmente interesado en las biopsias líquidas, ¿qué avances se están produciendo en este sector?

Tradicionalmente, la manera de diagnosticar cáncer con biopsia líquida es, “yo tengo mi muestra de tumor, que secuencio, y tengo mi muestra de tejido sano, las comparo e intento contar mutaciones somáticas”. Sin embargo, detectar mutaciones somáticas, que son las adquiridas a lo largo de la vida, es moderadamente complicado.

¿Por qué es tan complicado? El problema es que al analizar la sangre se encuentran trozos muy pequeños de ADN. Son trozos de 150 a 160 nucleótidos de longitud. Y saber si una mutación en estos fragmentos es una mutación somática o una mutación germinal no es del todo sencillo. A esto se añade que a veces hay errores de lectura. Entonces, tienes que determinar si un cambio es un error de lectura o si resulta que es un cáncer que tiene muy poca proporción de ADN tumoral en sangre.

Como detectar mutaciones no funciona del todo bien, se han buscado otros métodos. Una estrategia que funciona bastante bien es mirar patrones de metilación. Hay bastantes estudios de la FDA aprobados con mutaciones, pero yo creo que el estado del arte va hacia intentar mirar patrones epigenéticos que no solamente te permitan diagnosticar cáncer, sino que te permitan saber dónde está el tumor con un análisis de sangre.

Hay patrones específicos de metilación que te ayudan a diagnosticar cáncer. Por ejemplo, hay una empresa adquirida por Illumina que se llama Grail, que desarrolló un test que detecta varios cánceres a la vez. Obviamente, con menos sensibilidad que un test específico para un cáncer concreto, pero es una herramienta de diagnóstico muy útil en el sentido de que puede acortar los ciclos de diagnóstico.

Si hay sospecha de que un paciente puede tener cáncer porque se han visto anomalías en biomarcadores en una analítica normal de sangre, se le hace un test de biopsia líquida y este puede dar una indicación de si este paciente tiene un cáncer de estómago o un cáncer de pulmón.

¿Y las biopsias líquidas más allá del cáncer?

Bueno, la biopsia líquida, como concepto, se utiliza para muchas cosas. Por ejemplo, se utiliza para detección prenatal no invasiva de trisomías en el feto. También se usa para trasplantes. Si se analiza la sangre de un paciente con un trasplante y empieza a detectarse que hay una proporción inusitada de ADN del donante puede significar que a lo mejor va a rechazar ese órgano. Esto permite anticipar el problema.

Dentro del cáncer también se utiliza, por ejemplo, para saber si el tratamiento está surtiendo efecto e incluso para detectar metástasis. Al poder detectar el tejido de origen si se observan células tumorales de varios sitios, puede ser indicativo de que el cáncer se ha extendido a otros órganos.

La base bioinformática de todo esto, de estas diferentes aplicaciones, ¿es la misma y luego se va adaptando a cada problema?

Puede ser la misma. Un problema es que el método tradicional de analizar metilaciones individuales o agrupar varias posiciones que estimamos van juntas es un proceso bastante manual y laborioso.

Lo que estamos tratando de hacer nosotros basándonos en artículos previos es que esos patrones que se buscan de manera manual puedan ser aprendidos por una red neuronal no supervisada. El objetivo es que, sin tener que alinear el genoma de estudio contra el genoma de referencia, viendo patrones en la secuencia de nucleótidos, podamos saber si un determinado fragmento es de cáncer o no.

Serán secuencias que cuando están modificadas no se puedan confundir con secuencias normales.

Hay una disciplina en biopsia líquida que se llama fragmentómica, que estudia los patrones en las longitudes de los trozos o si la cadena de ADN termina en determinados nucleótidos. Se pueden generar modelos a partir de estos datos. Sin embargo, el problema es que también es muy manual.

Lo interesante es que hay patrones en los fragmentos de ADN detectados y las redes neuronales son muy buenas buscando patrones. Esto ha pasado en el procesamiento del lenguaje natural. Ahora los modelos que han funcionado muy bien para trabajar con texto se están aplicando a la genética también.

¿Y se te ocurre algún otro ejemplo de aplicación de inteligencia artificial en genética médica o en medicina de precisión?

Hay muchas enfermedades que dejan huella en temas de la metilación. De hecho, de la misma manera que tienes puntuaciones de riesgo poligénico, están empezando a surgir puntuaciones de riesgo basadas en metilación.

También hay muchos hábitos en el estilo de vida como la alimentación, si haces ejercicio o no… que luego se van a ver reflejados y eso, obviamente también correlaciona con el riesgo de enfermedades.

¿Cómo trasladar esto a la práctica clínica?

Bueno, ya hay test aprobados por la FDA. Otra cosa es que a lo mejor no han llegado a España por temas de distribución. Pero yo creo que como el coste de la secuenciación y el coste de la biopsia líquida tiende a caer con el tiempo, esto va a ser una realidad en el mundo clínico en breve. En unos años va a estar bastante expandido. De hecho, un problema que ha habido con Grail, es que como Illumina tiene un monopolio muy importante en la parte de secuenciación, la Unión Europea les ha pedido que deshagan la adquisición

¿Qué cuestiones crees que todavía quedan por resolver?

Yo creo que hay un montón de temas por resolver. Por ejemplo, cuando tengamos datos de cientos de miles de pacientes, que ahora mismo lo vemos como ciencia ficción, ¿cómo se procesa eso? Seguramente, cuando eso ocurra, habrá más poder estadístico cuando vaya a intentar mirar si algo está asociado con el sistema, o con un SNP o con determinados genes. Pero las técnicas analíticas para llegar ahí, yo creo que seguramente van a tener que cambiar, porque el volumen de datos va a ser bastante considerable.

La genética es un campo que tiene mucho recorrido. Si lo piensas, desde que se secuenció el genoma humano, aunque hubiera habido investigación previa, estamos andando el camino en un plazo de tiempo relativamente corto. Hay muchas tecnologías que no existían hace 10 o 15 años.

¿Cómo ves el escenario de la inteligencia artificial y la genética dentro de 5 años?

Tengo una teoría al respecto. La genética es un sistema de datos no estructurado: cadenas de texto muy largas, con nucleótidos, pero no dejan de ser cadenas de texto.

Hay modelos que han funcionado muy bien para el procesamiento de texto que se están empezando a aplicar en genética y que no se habían usado antes, bien por desconocimiento, bien porque no había volumen de datos suficiente, porque secuenciar el genoma era muy caro.

Lo que ha ocurrido en otros campos es que cada vez que entran esos modelos, arrasan con todo. Se convierten en el estado del arte. Procesamiento de vídeo, procesamiento de imágenes, procesamiento de voz…Yo creo que en genética va a ocurrir lo mismo.

Hay campos de investigación que conocemos hoy en día, como por ejemplo el de la fragmentónica, que creo que van a tener complicado el sobrevivir. Se seguirá buscando patrones, pero de otra manera. Y seguramente, fuertemente apoyada por este tipo de modelos que ahora mismo no se usan mucho.

Por otra parte, las bases de datos tienen la problemática de que deben actualizarse constantemente y ser lo más completas posible. Quizás hay un exceso de fragmentación del conocimiento. Hay una base de datos casi para cada problema que quieras mirar. Cada área de conocimiento tiene su base de datos. Hace falta que alguien estandarice eso, porque si no, también se vuelve un poco inmanejable. Ese tipo de cosas van a llegar.

Luego está el problema de que muchos estudios se contradicen entre sí. Hay que buscar el consenso de la investigación. De momento no hay sustitución a leerse la fuente original y ver qué estaban analizando. Pero creo que habría que estandarizar esto un poco.

Un chatGPT de genética que mire todas esas bases de datos…

Y que te lo responda a todo. Sería estupendo. De hecho, Google está trabajando en cosas de estas. Tienen un modelo de lenguaje que se llama Med-PaLM, al que alimentan de toda la literatura científico-médica y supuestamente es capaz de hacer diagnósticos.

No sé muy bien cómo lo han entrenado porque es multimodal, pero parece que es capaz, desde interpretar una radiografía, a hacer un “variant calling” de un fragmento de ADN y decir cuál es la variante que hay ahí de interés.

Pero como con chatGPT, tendrá que haber alguien que revise los resultados de alguna forma.

Sí. Hoy en día estos modelos tampoco son 100% precisos. Entonces, en función del riesgo clínico, pues siempre va a haber alguien ahí, intentando eliminar un poco el sesgo que pueda tener el modelo.

¿Y qué crees que te va a aportar el Máster de formación permanente en Medicina de Precisión y Genética Clínica ?

Yo creo que me va a dar una visión general de lo que se está haciendo en cada campo. Hay muchas cosas que yo no conocía. Y también acceso a muchos expertos en cada campo a los que pueda hacer preguntas.

 

 

Si te ha gustado esta noticia y quieres aprender más sobre Genética en Medicina, te interesan nuestros cursos y formación universitaria, así como nuestro canal audiovisual, Genotipia TV.

CURSOS RELACIONADOS
CON ESTE ARTÍCULO
Abrir chat