Las IAs, o inteligencias artificiales, se han convertido en unas herramientas de gran utilidad en diversos campos, como son la Robótica, las Finanzas o incluso las Ciencias de la Salud. Hoy, quiero hablarte acerca de este tipo de sistemas informáticos en el ámbito de la Genómica y, en concreto, de la Secuenciación Masiva. ¿Te interesa? ¡Sigue leyendo!
¿Qué es la Inteligencia Artificial?
La Inteligencia Artificial (IA) es un campo de la informática que se centra en la creación de sistemas capaces de realizar tareas que normalmente requieren inteligencia humana. Estas tareas abarcan una amplia variedad de funciones, como el aprendizaje, la toma de decisiones, el procesamiento del lenguaje, la planificación, etc.
En los últimos años, los sistemas de IA han evolucionado enormemente y ya es posible aplicarlos para procesar y tratar datos en diferentes ámbitos, como la Salud Humana. Este hecho es especialmente relevante en áreas en las que se trabaja con bases de datos masivas, como son las bases de datos genómicos.
Por lo general, al secuenciar un genoma humano se recogen más de 100 GB de datos en bruto. Además, cada genoma humano puede doblar el tamaño que ocupa tras procesarlo. En conjunto, se estima que almacenar toda la información genómica humana ocupará alrededor de 40 EB (40.000.000.000 GB) en 2025, un tamaño con el que puede ser muy complejo trabajar sin ayuda de los sistemas de Inteligencia Artificial.
IAs en el procesamiento y el análisis de los datos de secuenciación
Una de las principales limitaciones de la Secuenciación Masiva es el análisis de los datos genómicos obtenidos. Este tipo de análisis supone una tarea especialmente compleja y que requiere una gran capacidad de procesamiento computacional. Las inteligencias artificiales basadas en el deep learning (aprendizaje profundo) pueden proporcionar una solución práctica y relativamente sencilla a este “bache” en el camino de la Genómica.
El deep learning es un tipo de machine learning utilizado por las IAs basado en modelos de redes neuronales y que tiene capacidad de aprender e interpretar los datos obtenidos de la secuenciación de un genoma. La implementación de este tipo de sistemas puede mejorar sustancialmente el flujo de trabajo, ya que mejora la precisión de las lecturas y agiliza el procesamiento de los datos.
Las IAs pueden ser útiles, además, en el análisis post-procesamiento de los datos genómicos. En este contexto, existen algunos algoritmos, como BWA-MEM o STAR que permiten ensamblar y mapear el genoma secuenciado de una forma más rápida.
IAs en el variant calling
Uno de los principales procesos computacionales que se realizan dentro de los proyectos de secuenciación masiva es el variant calling (en castellano, llamado de variantes). Este proceso consiste en la identificación de variantes genéticas en una secuencia de ADN, en base a uno o más genomas de referencia. Este es un paso crítico, que puede ayudar a identificar variantes causantes de enfermedades y otras condiciones genéticas.
Los sistemas de IA pueden hacer el proceso de llamado de variantes muchísimo más rápido y eficaz, ya que aceleran el proceso y además ayudan a identificar falsos positivos. Un ejemplo de programa basado en IA optimizado para el llamado de variantes es la herramienta GATK, diseñada y comercializada por el Broad Institute.
Otro ejemplo es DeepVariant, la herramienta basada en deep learning diseñada por la empresa Google. Este sistema basado en inteligencia artificial utiliza una estructura de modelos de redes neuronales permite realizar el llamado de variantes de forma rápida y precisa. Además, DeepVariant se puede adaptar a diferentes ámbitos, lo que puede ser realmente útil en ciertos tipos de proyectos de secuenciación.
Otros usos de la inteligencia artificial en genómica
Como comentaba, en los últimos años se ha disparado la utilización de las IAs en diferentes ámbitos. También ha sido así en el contexto de la Genómica, en el que se han diseñado nuevas herramientas basadas en inteligencia artificial para múltiples aplicaciones.
Un ejemplo claro es AlphaMissense, una herramienta bioinformática basada en IA que permite predecir la probabilidad de que un cambio de nucleótido en una secuencia de ADN produzca una patología.
Otro ejemplo es el sistema SpliceAI de Illumina, una herramienta bioinformática basada en IA de código abierto que es capaz de predecir los sitios de splicing en secuencias de ADN. Esto es especialmente relevante a la hora de predecir variantes en el ADN que puedan afectar a los sitios de splicing y, por tanto, causar una patología.