Contenido del artículo
En los últimos siete años, la secuenciación del transcriptoma o ARN de un individuo (RNA-seq) ha emergido de manera constante como un ensayo complementario a la ya bien establecida secuenciación del ADN para el diagnóstico y descubrimiento de enfermedades raras. La RNA-seq ha sustituido principalmente a los métodos dirigidos a regiones genómicas específicas (Mortazavi et al., 2008; Nonis et al., 2014; Stark et al., 2019), debido a que es capaz de analizar todos los genes expresados (entre diez mil y doce mil, de media, dependiendo principalmente del tejido).
En el diagnóstico de enfermedades raras, la RNA-seq se ha utilizado principalmente para i) confirmar el efecto de variantes patogénicas candidatas obtenidas a partir del ADN que sirven como “estudio funcional bien establecido que muestra un efecto deletéreo” siguiendo las directrices del ACMG (American College of Medical Genetics and Genomics) (Richards et al., 2015) e ii) identificar genes candidatos en los que inicialmente no se encontraron variantes o no se priorizaron. En este artículo de Comentario, describo algunos de los estudios que han utilizado con éxito RNA-seq para el diagnóstico de enfermedades raras, los diferentes métodos estadísticos especializados que han surgido, así como las limitaciones de la tecnología y las perspectivas de futuro.
ESTUDIOS
Los estudios pioneros de Kremer y colaboradores de la Universidad Técnica de Múnich y de Cummings y colaboradores del Instituto Broad, lanzados simultánea e independientemente en 2016 y publicados en 2017, originaron el concepto y la posibilidad de utilizar RNA-seq para el diagnóstico de enfermedades raras. La idea era la misma: reunir una cohorte suficientemente grande y analizar todos los genes expresados en una muestra afectada para detectar desviaciones significativas en la expresión y el procesado del ARN con respecto a la media de la cohorte. A continuación, encontrar variantes genéticas que pudieran explicar esas alteraciones y, por último, evaluar si podían ser la causa de la enfermedad en combinación con el fenotipo del paciente (Fig. 1).

El primer estudio secuenció fibroblastos derivados de la piel y el segundo, músculo, estableciendo así la utilidad de esos tejidos para esta tarea. Un par de años después, Frésard y colaboradores de Stanford publicaron un estudio similar con sangre. Esos tres tejidos clínicamente accesibles se han convertido en los más utilizados, cada uno con sus pros y sus contras. Por ejemplo, el músculo es sin duda el estándar para estudiar los trastornos (neuro)musculares, ya que la mayoría de los genes de interés sólo se expresan en él. La sangre es el tejido más accesible; sin embargo, tiene el menor número de genes expresados en comparación con los otros dos (Yépez et al., 2022). Los fibroblastos parecen ser el tejido más completo, ya que se expresan la mayoría de los genes relacionados con enfermedad y es posible cultivar las células y reutilizarlas para otros ensayos.
Desde entonces se han publicado muchos otros estudios que informan de una variedad de trastornos: mitocondriales, neuromusculares, neurológicos, del neurodesarrollo e inmunológicos, procedentes de diferentes centros de todo el mundo, como Canadá (Gonorazky et al., 2019; Deshwar et al., 2023), Estados Unidos (Murdock et al., 2021), Alemania (Yépez et al., 2022), Hong Kong (Lee et al., 2022), Países Bajos (Dekker et al., 2023) y Australia (Lunke et al., 2023). El aumento registrado en los rendimientos diagnósticos oscila entre el 7% y el 36%, dependiendo de la enfermedad, la metodología y el tejido explorado, pero especialmente de si la cohorte incluía pacientes con variantes candidatas o no (Fig. 2). Muy recientemente, Deshwar y colaboradores, del Hospital for Sick Children, así como Lunke y colaboradores de múltiples centros de Australia, exploraron la utilidad de realizar RNA-seq en trío, como se hace frecuentemente en los diagnósticos basados en ADN. No se observó un beneficio diagnóstico significativo del diseño en trío con respecto a la realización de pruebas únicamente en el caso índice. Sin embargo, dado que en el estudio participó un número modesto de familias, es necesario realizar más investigaciones para concluir su utilidad.

MÉTODOS ESPECIALIZADOS
Tras el éxito de los dos estudios pioneros, se empezaron a desarrollar métodos especializados para detectar la expresión aberrante y el procesado alternativo o splicing. Los métodos modelan los recuentos de lecturas con una distribución estadística (generalmente binomial negativa para recuentos de lecturas y beta-binomial o Dirichlet-multinomial para recuentos de empalmes) y luego obtienen valores p para cada combinación gen-muestra o empalme-muestra. Algunos de estos métodos son OUTRIDER (Brechtmann et al., 2018) y OutSingle (Salkovic et al., 2023) para la expresión; y Brisbee (Halperin et al., 2021), FRASER (Mertes et al., 2021), FRASER2 (Scheller et al., 2023), y LeafCutterMD (Jenkinson et al., 2020) para el empalme. OUTRIDER y FRASER2 están incluidos en el Detection of RNA Outliers Pipeline, DROP (Yépez et al., 2021), una solución integral para facilitar y acelerar la detección de valores atípicos a partir de datos brutos.
Estos métodos pudieron probarse a fondo aprovechando el amplio recurso proporcionado por el proyecto The Genotype-Tissue Expression (GTEx), que ofrece más de 8000 muestras emparejadas WGS-RNA-seq de casi 1000 individuos y 51 tejidos (GTEx Consortium, 2017). Con este recurso, fue posible establecer que los valores atípicos de expresión y empalme, efectivamente, están asociados con variantes raras (Zeng et al., 2015; Li et al., 2017) y, por lo tanto, pudo convertirse en un conjunto de datos de referencia para los métodos de detección de valores atípicos.
LIMITACIONES
La extracción de ARN se limita a tejidos accesibles, como la sangre y la piel y, en casos extremos, el músculo. Esto implica que el estudio se restringe a los genes expresados en el tejido investigado: alrededor del 65% de los genes causales de enfermedades mendelianas conocidas (OMIM) se expresan en la sangre y el 70% en los fibroblastos derivados de la piel. El año pasado, un estudio pionero de la Universidad de Hong Kong demostró que la RNA-seq también puede hacerse a partir del líquido amniótico durante el embarazo para evaluar la expresión y el procesado del ARN del feto (Lee et al., 2022). Por último, un reciente artículo preprint ha descrito la posibilidad de analizar el ARN de otros tejidos accesibles: hisopos bucales, folículos pilosos, saliva y pellets de células de la orina (Martorella et al., 2023). Es necesario investigar a fondo para verificar su utilidad en el diagnóstico.
Otra limitación importante de la RNA-seq es que el efecto de la abundante clase de variantes con cambio de sentido podría no reflejarse en el transcriptoma. La proteómica tiene la ventaja de captar el efecto de las variantes con cambio de sentido y los cambios reguladores postranscripcionales; sin embargo, carece de la potencia necesaria para revelar el procesado del ARN erróneo y la expresión alelo-específica. Por ahora, la RNA-seq y la proteómica parecen más complementarias que competidoras (Kopajtich et al., 2021; Vialle et al., 2022).
Desafíos públicos
Observando los beneficios potenciales de la tecnología, se han lanzado desafíos públicos para proporcionar diagnósticos genéticos utilizando ADN, ARN y datos clínicos a partir de una cohorte de enfermedades raras, para que grupos de todo el mundo puedan utilizar sus herramientas y enfoques. Ejemplos de ello son el reto CAGI 6 (Critical Assessment of Genome Interpretation)1 “Predecir eventos moleculares subyacentes a la enfermedad a partir del genoma y transcriptoma de un paciente” ofrecido por el Hospital for Sick Children‘s y el reto Kaggle EndALS (Esclerosis Lateral Amiotrófica)2, ambos lanzados en 2021. Además, eventos tipo Hackathon in situ, como el International Undiagnosed Hackathon3 organizado por el UDNI en el Instituto Karolinska en 2023, ofrecen RNA-seq y WGS acoplados para acelerar el diagnóstico. La creciente popularidad de esta tecnología, especialmente en combinación con el análisis de ADN, es innegable.
1 https://genomeinterpretation.org/cagi6-sickkids.html
2 https://www.kaggle.com/datasets/alsgroup/end-als
3 https://www.undiagnosedhackathon.org/
LO QUE NOS DEPARA EL FUTURO
La secuenciación de ARN forma parte de la denominada Secuenciación de Próxima Generación. Poco a poco, está pasando a llamarse RNA-seq de lectura corta, ya que está surgiendo una nueva tecnología que permite secuenciar lecturas mucho más largas, la RNA-seq de lectura larga (Pollard et al., 2018; Wang et al., 2023). Su potencial y su mejora en el diagnóstico de enfermedades raras aún están por demostrarse. Además, la secuenciación de genoma completo ahora permite detectar variaciones en el número de copias (CNV) en forma de grandes deleciones, duplicaciones, inserciones, inversiones, translocaciones y expansiones de repeticiones. Cómo puede la RNA-seq detectar cada una de ellas empezó a explorarse en adultos de edad avanzada e individuos con enfermedad de Alzheimer en el minucioso estudio de (Vialle et al., 2022), pero es necesario seguir investigando.
Obtener un diagnóstico es útil, ya que puede conducir a proporcionar asesoramiento genético. Sin embargo, el objetivo principal es proporcionar tratamiento, por ejemplo, mediante la administración de suplementos farmacológicos (Koch et al., 2017). La RNA-seq puede ser especialmente útil para orientar oligonucleótidos antisentido, como han hecho recientemente Kumar y sus colegas, que diseñaron y aplicaron estos oligonucleótidos antisentido para restaurar el procesamiento normal del ARNm TIMMDC1 y los niveles de proteína en las células de los pacientes (Kumar et al., 2022).
Por último, el mayor cambio podría producirse cuando las compañías de seguros reembolsen las pruebas de ARN, como ya está empezando a ocurrir con el ADN.
Declaración de conflicto de intereses
El autor declara la ausencia de conflicto de intereses.
In the past seven years, sequencing an individual’s transcriptome or RNA (RNA-seq) has steadily emerged as a complementary assay to the well-established DNA sequencing for rare disease diagnostics and discovery. RNA-seq has mostly replaced methods that target specific genomic regions (Mortazavi et al., 2008; Nonis et al., 2014; Stark et al., 2019), as it is able to test all expressed genes (10-12 thousand, on average, depending mainly on the tissue).
In rare disease diagnostics, it has been primarily used to i) confirm the effect of candidate pathogenic variants obtained from DNA serving as a “well-established functional study showing a deleterious effect” following the ACMG (American College of Medical Genetics and Genomics) guidelines (Richards et al., 2015) and ii) identify candidate genes in which variants were initially not found or prioritized. In this Commentary article, I describe some of the studies that have successfully used RNA-seq for rare disease diagnostics, the different specialized statistical methods that have arisen, as well as the technology’s limitations and future perspectives.
STUDIES
The pioneering studies of Kremer and colleagues at the Technical University of Munich and Cummings and colleagues at the Broad Institute, released simultaneously and independently in 2016 and published in 2017, originated the concept and possibility of using RNA-seq for rare disease diagnostics. The idea was the same: gather a sufficiently large cohort and test all the expressed genes in an affected sample for significant deviations in expression and splicing with respect to the cohort’s average. Then, find genetic variants that could explain those aberrations, and finally evaluate whether they could be the cause of the disease in combination with the patient’s phenotype (Fig. 1).

The first study sequenced skin-derived fibroblasts and the second muscle, thus establishing the usefulness of those tissues for this task. A couple of years later, Frésard and colleagues released a similar study using blood. Those three clinically accessible tissues have become the most widely used, each with pros and cons. For example, muscle is undoubtedly the gold standard for studying (neuro)muscular disorders as most of the genes of interest are expressed only there. Blood is the most accessible tissue; however, it has the least number of genes expressed compared to the other two (Yépez et al., 2022). Fibroblasts seem to be the most complete tissue as most disease genes are expressed, and it is possible to cultivate the cells and reuse them for other assays.
Many other studies have been published since, reporting a variety of disorders such as mitochondrial, neuromuscular, neurological, neurodevelopmental, and immunological, and from different centers worldwide, including Canada (Gonorazky et al., 2019; Deshwar et al., 2023), the United States (Murdock et al., 2021), Germany (Yépez et al., 2022), Hong Kong (Lee et al., 2022), Netherlands (Dekker et al., 2023), and Australia (Lunke et al., 2023). The reported increase in diagnostic yields ranges from 7% to 36%, depending on the disease, methodology, and probed tissue, but especially on whether the cohort included patients with candidate variants or not (Fig. 2). Very recently, Deshwar and colleagues from The Hospital for Sick Children, as well as Lunke and colleagues from multiple centers in Australia, explored the utility of performing trio RNA-seq, as it is frequently done in DNA-based diagnostics. A significant diagnostic benefit from the trio design with respect to only testing the index case was not observed; however, as a modest number of families participated in the study, more research needs to be done to conclude the utility.

SPECIALIZED METHODS
Following the success of the two pioneering studies, specialized methods to detect aberrant expression and splicing started to be developed. The methods model the read counts with a statistical distribution (usually negative binomial for read counts and beta-binomial or Dirichlet-multinomial for split counts) and then obtain p-values for each gene-sample or junction-sample combination. Some of those methods are OUTRIDER (Brechtmann et al., 2018) and OutSingle (Salkovic et al., 2023) for expression; and Brisbee (Halperin et al., 2021), FRASER (Mertes et al., 2021), FRASER2 (Scheller et al., 2023), and LeafCutterMD (Jenkinson et al., 2020) for splicing. OUTRIDER and FRASER2 are included in the Detection of RNA Outliers Pipeline, DROP (Yépez et al., 2021), an end-to-end solution to facilitate and accelerate outlier detection from raw data.
These methods could be thoroughly tested leveraging the broad resource provided by The Genotype-Tissue Expression (GTEx) project, which offers more than 8,000 paired WGS-RNA-seq samples from almost 1,000 individuals and 51 tissues (GTEx Consortium, 2017). With it, it was possible to establish that expression and splicing outliers are indeed associated with rare variants (Zeng et al., 2015; Li et al., 2017), and therefore, it could become a benchmark dataset for outlier detection methods.
LIMITATIONS
RNA’s extraction is limited to accessible tissues, such as blood and skin and, in extreme cases, muscle. This implies that the study is restricted to the genes expressed in the probed tissue: around 65% of known Mendelian disease causal genes (OMIM) are expressed in blood and 70% in skin-derived fibroblasts. Last year, a breakthrough study by the University of Hong Kong demonstrated that RNA-seq can also be extracted from the amniotic fluid during pregnancy to evaluate the fetus’s expression and splicing (Lee et al., 2022). Finally, a recent preprint described the possibility of testing the RNA from other accessible tissues: buccal swabs, hair follicles, saliva, and urine cell pellets (Martorella et al., 2023). Thorough research is needed to verify their utility in diagnostics.
Another major limitation of RNA-seq is that the effect of the abundant class of missense variants might not be reflected in the transcriptome. Proteomics has the advantage of capturing the effect of missense variants and post-transcriptional regulatory changes; however, they lack the power to reveal mis-splicing and allele-specific expression. For now, RNA-seq and proteomics seem more complementary than competitors (Kopajtich et al., 2021; Vialle et al., 2022).
Public challenges
Observing the potential benefits of the technology, public challenges to provide genetic diagnosis using DNA, RNA, and clinical data from a rare disease cohort have been released so that groups across the globe can use their tools and approaches. Examples of these are the (Critical Assessment of Genome Interpretation) CAGI 6 challenge1 “Predict molecular events underlying disease from a patient’s genome and transcriptome” offered by the Hospital for Sick Children’s Hospital and the EndALS (Amyotrophic Lateral Sclerosis) Kaggle challenge2, both released in 2021. Furthermore, on-site Hackathon-like events such as the International Undiagnosed Hackathon3 organized by the UDNI in the Karolinska Institute in 2023 provide coupled RNA-seq and WGS to accelerate diagnostics. The increasing popularity of this technology, especially in combination with DNA analysis, is undeniable.
1 https://genomeinterpretation.org/cagi6-sickkids.html
2 https://www.kaggle.com/datasets/alsgroup/end-als
3 https://www.undiagnosedhackathon.org/
WHAT THE FUTURE AWAITS
RNA-seq is part of the so-called Next Generation Sequencing. It is slowly being renamed to short-read RNA-seq as new technology that allows sequencing overwhelmingly longer reads, long-read RNA-seq, is slowly arising (Pollard et al., 2018; Wang et al., 2023). Its actual utility and improvement in rare disease diagnostics are yet to be proved. Also, WGS now allows to detect copy number variations (CNVs) in the form of large deletions, duplications, insertions, inversions, translocations, and repeat expansions. How RNA-seq can detect each of them started to be explored in aged adults and individuals with Alzheimer’s disease in the thorough study by (Vialle et al., 2022), but further research needs to be performed.
Reaching diagnostics is useful as it can lead to providing genetic counseling. However, the main goal is to provide treatment, e.g., through drug supplementation (Koch et al., 2017). RNA-seq can be especially useful to orient antisense oligonucleotides, as recently done by Kumar and colleagues, who designed and applied these antisense oligonucleotides to restore normal TIMMDC1 mRNA processing and protein levels in patients’ cells (Kumar et al., 2022).
Finally, the biggest game changer might be when insurance companies reimburse RNA testing, as it is already starting to happen with DNA.
Competing interests
The author declares no competing interests.
Keywords: RNA, RNA-seq, diagnostics, rare diseases
CON ESTE ARTÍCULO
Bibliografía
Brechtmann F, et al. OUTRIDER: A Statistical Method for Detecting Aberrantly Expressed Genes in RNA Sequencing Data. Am. J. Hum. Genet. 2018. 103, 907–917. doi: 10.1016/j.ajhg.2018.10.025.
Cummings BB, et al. Improving genetic diagnosis in Mendelian disease with transcriptome sequencing. Sci. Transl. Med. 2017. 9, 12. doi: 10.1126/scitranslmed.aal5209.
Dekker J, et al. Web-accessible application for identifying pathogenic transcripts with RNA-seq: Increased sensitivity in diagnosis of neurodevelopmental disorders. Am. J. Hum. Genet. 2023. doi: 10.1016/j.ajhg.2022.12.015.
Deshwar AR, et al. Trio RNA sequencing in a cohort of medically complex children. Am. J. Hum. Genet. 2023. doi: 10.1016/j.ajhg.2023.03.006.
Frésard, L, et al. Identification of rare-disease genes using blood transcriptome sequencing and large control cohorts. Nat. Med. (2019). 25, 911–919. doi: 10.1038/s41591-019-0457-8.
Gonorazky HD, et al. Expanding the Boundaries of RNA Sequencing as a Diagnostic Tool for Rare Mendelian Disease. Am. J. Hum. Genet. (2019) 104, 466–483. doi: 10.1016/j.ajhg.2019.01.012.
GTEx Consortium. Genetic effects on gene expression across human tissues. Nature (2017) 550, 204–213. doi: 10.1038/nature24277.
Halperin RF, et al. Improved methods for RNAseq-based alternative splicing analysis. Sci. Rep. 2021. 11, 10740. doi: 10.1038/s41598-021-89938-2.
Jenkinson G,et al. LeafCutterMD: an algorithm for outlier splicing detection in rare diseases. Bioinformatics. 2020. 1–7. doi: 10.1093/bioinformatics/btaa259.
Koch J, et al. CAD mutations and uridine-responsive epileptic encephalopathy. Brain. 2017. 140, 279–286. doi: 10.1093/brain/aww300.
Kopajtich, R, et al. Integration of proteomics with genomics and transcriptomics increases the diagnostic rate of Mendelian disorders. MedRxiv. 2021. doi: 10.1101/2021.03.09.21253187.
Kremer LS, et al. Genetic diagnosis of Mendelian disorders via RNA sequencing. Nat. Commun. 2017. 8, 15824. doi: 10.1038/ncomms15824.
Kumar R, et al. Oligonucleotide correction of an intronic TIMMDC1 variant in cells of patients with severe neurodegenerative disorder. Npj Genomic Med. 2022. 7, 1–12. doi: 10.1038/s41525-021-00277-7.
Lee M, et al. Diagnostic potential of the amniotic fluid cells transcriptome in deciphering mendelian disease: a proof-of-concept. Npj Genomic Med. 2022. 7, 1–10. doi: 10.1038/s41525-022-00347-4.
Li X, et al. The impact of rare variation on gene expression across tissues. Nature. 2017. 550, 239–243. doi: 10.1038/nature24267.
Lunke S, et al. Integrated multi-omics for rapid rare disease diagnosis on a national scale. Nat. Med. 2023. 1–11. doi: 10.1038/s41591-023-02401-9.
Martorella, M, et al. Evaluation of noninvasive biospecimens for transcriptome studies. bioRxiv. 2023. doi: 10.1101/2022.09.06.506813.
Mertes C, et al. Detection of aberrant splicing events in RNA-seq data using FRASER. Nat. Commun. 2021. 12, 529. doi: 10.1038/s41467-020-20573-7.
Mortazavi, A, et al. Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat. Methods. 2008. 5, 621–628. doi: 10.1038/nmeth.1226.
Murdock DR, et al. Transcriptome-directed analysis for Mendelian disease diagnosis overcomes limitations of conventional genomic testing. J. Clin. Invest. 2021. 131, e141500. doi: 10.1172/JCI141500.
Nonis A, et al. Choosing between RT-qPCR and RNA-seq: a back-of-the-envelope estimate towards the definition of the break-even-point. Anal. Bioanal. Chem. 2014. 406, 3533–3536. doi: 10.1007/s00216-014-7687-x.
Pollard MO, et al. Long reads: their purpose and place. Hum. Mol. Genet. 2018. 27, R234–R241. doi: 10.1093/hmg/ddy177.
Richards S, et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genet. Med. 2015. 17, 405–423. doi: 10.1038/gim.2015.30.
Salkovic E, et al. OutSingle: a novel method of detecting and injecting outliers in RNA-Seq count data using the optimal hard threshold for singular values. Bioinformatics 2023. doi: 10.1093/bioinformatics/btad142.
Scheller IF, et al. Improved detection of aberrant splicing using the Intron Jaccard Index. MedRxiv. 2023. doi: 10.1101/2023.03.31.23287997.
Stark R., et al. RNA sequencing: the teenage years. Nat. Rev. Genet. 2019. 20, 631–656. doi: 10.1038/s41576-019-0150-2.
Vialle, RA, et al. Integrating whole-genome sequencing with multi-omic data reveals the impact of structural variants on gene regulation in the human brain. Nat. Neurosci. 2022. doi: 10.1038/s41593-022-01031-7.
Wang F, et al. TEQUILA-seq: a versatile and low-cost method for targeted long-read RNA sequencing. Nat. Commun. 2023. 14, 4760. doi: 10.1038/s41467-023-40083-6.
Yépez, VA, et al. Clinical implementation of RNA sequencing for Mendelian disease diagnostics. Genome Med. 2022. 14, 38. doi: 10.1186/s13073-022-01019-9.
Yépez VA, et al. Detection of aberrant gene expression events in RNA sequencing data. Nat. Protoc. 2021. 16, 1276–1296. doi: 10.1038/s41596-020-00462-5.
Zeng, Y, et al. Aberrant Gene Expression in Humans. PLOS Genet. 2015. doi: 10.1371/journal.pgen.1004942.
Historial de publicación
Publicado online: 26 octubre 2023
Palabras clave
ARN, RNA-seq, diagnóstico, enfermedades raras