Manuel Muñoz-Aguirre3,5, Pedro G. Ferreira1,2, Roderic Guigó3,4
1 Instituto de Investigação e Inovação em Saúde, Universidade do Porto, Rua Alfredo Allen, 208, Porto, 4200-135, Portugal
2 Institute of Molecular Pathology and Immunology, University of Porto, Rua Dr. Roberto Frias s/n, Porto, 4200-625, Portugal
3 Centre for Genomic Regulation (CRG), The Barcelona Institute for Science and Technology, Dr. Aiguader 88, Barcelona, E-08003, Catalonia, Spain
4 Universitat Pompeu Fabra (UPF), Barcelona, E-08003, Catalonia, Spain
5 Departament d’Estadística i Investigació Operativa, Universitat Politècnica de Catalunya, Barcelona, E-08034, Catalonia, Spain
El proyecto “Genotype-Tissue Expression (GTEx)” es una iniciativa de los Institutos Nacionales de la Salud (National Institutes of Health, NIH) de los Estados Unidos de América, que tiene como objetivo principal generar recursos accesibles a la comunidad científica, los cuales hagan posible estudiar con mayor precisión la relación entre la variabilidad genética y la expresión de los genes (GTEx Consortium, 2017).
Los genes son las unidades básicas de información biológica; el genoma humano codifica alrededor de unos 20.000 genes que dan lugar a proteínas y algunos miles más que ejercen su función como moléculas de ARN. La expresión diferencial de los genes subyace los distintos tipos celulares que constituyen los órganos en el cuerpo humano (y los de otros organismos). Esta expresión diferencial está gobernada por las llamadas regiones reguladoras en el genoma humano. Cambios en la secuencia de ADN de estas regiones pueden alterar la expresión de los genes, dando lugar eventualmente a situaciones patológicas.
El proyecto GTEx tiene como objetivo principal identificar los cambios en la secuencia de ADN de las regiones reguladoras que alteran la expresión de los genes. En total se han obtenido aproximadamente 17.400 muestras de hasta 54 tejidos diferentes extraídos de cerca de 950 donantes post mortem, y se ha determinado la expresión de los genes en cada una de estas muestras. Para cada uno de los donantes se ha recogido información adicional, la cual incluye el intervalo post mortem (definido como el tiempo que ha transcurrido desde la muerte y la extracción de los órganos).
Se trata de un conjunto de datos de gran tamaño y representa, en este sentido, un reto, y al mismo tiempo una oportunidad única para el desarrollo y aplicación de nuevos métodos estadísticos.
El crecimiento exponencial que experimenta la generación de datos en la investigación científica y en otros ámbitos sociales y culturales, ha llevado a acuñar el término big data, que se utiliza para hacer referencia a bases de datos de un tamaño tan grande, que resulta complicado utilizar métodos tradicionales para obtener inferencias estadísticas. Como consecuencia, se ha producido una explosión en el desarrollo de técnicas basadas en machine learning, que es una rama de la inteligencia artificial enfocada en el reconocimiento de patrones en grandes conjuntos de datos, con el objetivo de obtener conocimiento que sea generalizable sobre ese tipo de datos.
Las técnicas de machine learning se dividen principalmente en dos grandes categorías:
1) Aprendizaje supervisado, donde, el objetivo principal es predecir el valor de una o más variables de output, a partir de unas variables de input que han sido medidas en un conjunto de observaciones (muestras). Cuando la variable de output, también denominada comúnmente como “respuesta” es categórica hablamos de una tarea de clasificación; por ejemplo, cuando se trata de clasificar muestras como “tumoral” o “normal”, en función de los datos de expresión génica. Por otro lado, cuando la respuesta es continua, hablamos de una tarea de regresión; un ejemplo sería tratar de predecir la edad de un individuo en función de la expresión de sus genes.
2) Aprendizaje no supervisado, donde el objetivo es averiguar si existe algún patrón característico o estructura en los datos que no sea explícitamente obvia. A diferencia del aprendizaje supervisado, en el aprendizaje no supervisado no existe una variable de output. Un ejemplo sería el problema de agrupar (clustering) un conjunto de muestras extraídas de múltiples tejidos humanos de acuerdo con los valores de expresión de los genes en las muestras. De este modo, es posible identificar qué muestras son más similares entre sí en función de la expresión génica, o bien, identificar qué genes son funcionalmente similares a partir de sus perfiles de expresión en las muestras.
Nosotros hemos explorado recientemente la utilización de una técnica de machine learning para ajustar modelos de regresión o clasificación, gradient boosted trees, con el objetivo concreto de predecir el intervalo post-mortem (es decir, el tiempo transcurrido desde la muerte) de un individuo basado en la expresión génica medida en múltiples tejidos (Ferreira PG, et al, 2018).
La estimación del intervalo post mortem es un problema de importancia en patología forense. Los métodos tradicionales para efectuar esta estimación se basan en la caracterización de cambios físicos, por ejemplo, algor, livor y rigor mortis, los cuales, a menudo son relativamente imprecisos. Hasta la fecha, existían pocos estudios que establecieran correlaciones entre la expresión de los genes y el intervalo post mortem. Los modelos que hemos ajustado sugieren que los patrones de expresión génica cambian después de la muerte en una manera específica en cada tejido distinto (por ejemplo, los genes cambian de expresión de forma distinta en el corazón y en el pulmón), y que esta información puede utilizarse colectivamente para predecir el intervalo post mortem de un individuo.
Para ajustar estos modelos predictivos, utilizamos los datos de GTEx. Dividimos los donantes en dos grupos; un grupo de entrenamiento (con los datos de expresión en los tejidos de 399 individuos) y un grupo de prueba (con los mismos datos para 129 individuos), el cual se utiliza para evaluar el ajuste de los modelos.
En el conjunto de individuos de prueba, obtuvimos valores del coeficiente de determinación entre el valor predicho y el valor real del intervalo post mortem que oscilan entre 0.16 y 0.78 para los distintos tejidos (un valor cercano a uno, indicando una predicción perfecta y un valor cercano a cero, una predicción prácticamente indistinguible de una predicción realizada al azar).
Finalmente, realizamos la predicción del intervalo post-mortem de un individuo, integrando las predicciones obtenidas para cada tejido disponible para ese individuo. Nuestros análisis sugieren que algunos de los tejidos que generan predicciones más precisas son el tejido adiposo subcutáneo, la piel, los pulmones y la glándula tiroides. Desde el punto de vista de la aplicación práctica del método en medicina forense, es importante el hecho de que los primeros dos tejidos son fácilmente accesibles.
Queremos enfatizar que los modelos predictivos que hemos generado constituyen sobre todo prototipos cuyo objetivo es demostrar que el cambio que ocurre en la expresión génica en los tejidos puede ser utilizado para predecir el tiempo transcurrido desde la muerte. A pesar de que hemos obtenido una buena precisión en la predicción, existen factores que deben ser explorados de manera exhaustiva para desarrollar un método que pueda ser efectivamente empleado en medicina forense. En nuestro estudio, por ejemplo, el intervalo post-mortem de las muestras disponibles estaba limitado a aproximadamente 24 horas, por lo que es necesario explorar intervalos post-mortem más largos, así como tomar en cuenta factores como la edad de los individuos, la causa de muerte, el entorno en el que ha permanecido el cadáver, el sexo, entre muchos otros, que pueden afectar la expresión de los genes.
Nuestros resultados constituyen un ejemplo de cómo las nuevas técnicas computacionales para análisis a gran escala son útiles para realizar inferencias estadísticas en grandes colecciones de datos. Cada vez resulta menos costoso generar esos datos; ello, aunado al rápido avance de varias ramas de la inteligencia artificial, apunta a que los métodos de machine learning, como los utilizados aquí, van a convertirse en imprescindibles para extraer conocimiento relevante de grandes conjuntos de datos.
Investigación original: Ferreira, P. G., et al. The effects of death and post-mortem cold ischemia on human tissue transcriptomes. Nature Communications. 2018; 9(1). doi: http://dx.doi.org/10.1038/s41467-017-02772-x
Referencias:
GTEx Consortium. Genetic effects on gene expression across human tissues. Nature. 2017; 550, 204-213. doi:10.1038/nature24277
Agradecimientos:
Agradecemos a los donantes y sus familias por el generoso regalo de la donación de órganos para trasplante y donación de tejidos para el estudio de investigación GTEx. El proyecto Genotype-Tissue Expression (GTEx) fue respaldado por el Common Fund of the Office of the Director of the National Institutes of Health (commonfund.nih.gov/GTEx).
Este trabajo recibió apoyo de las siguientes becas y contratos: Ministerio de Educación, Cultura y Deporte, bajo el programa FPU (Formación de Profesorado Universitario) con beca predoctoral FPU15/03635 para MMA; POPH-QREN Type 4.2, European Social Fund and MCTES, Programa Investigador FCT (IF/01127/2014) para PGF; fondos de the National Human Genome Research Institute of the National Institutes of Health (NHGRI/NIH) bajo el contrato R01MH101814. El contenido es únicamente responsabilidad de los autores y no necesariamente representa el punto de vista oficial de los Institutos Nacionales de Salud (NIH).