Amparo Tolosa, Genotipia
¡En este post os contamos cómo se nombran los genes!
Decidir el nombre que tendrá una persona es un acto muy importante y de gran responsabilidad. Al fin y al cabo, se trata de algo que, en la mayoría de los casos, le acompañará toda la vida y la identificará respecto a las otras personas.
Si escribo Sofía, Rubén, Rosario, Loreto, Manuel, Ana, María o Amparo, cualquier lector podrá identificarlos rápidamente como nombres de personas.
Los nombres de genes son algo más complejos de pronunciar. Por ejemplo, algunos ejemplos de genes humanos son: FOXP2, GAPDH, BRCA1, MIR17 o TNFRSF21.
Los investigadores y profesionales en genética están más o menos familiarizados con este tipo de nombres. Sin embargo, para el resto de las personas, bien podrían ser contraseñas de correo electrónico, nombres de robots o las siglas de cualquier organización o empresa biotecnológica de película.
Lo cierto, es que los nombres que he presentado son la versión abreviada (o símbolo oficial) de los nombres completos de los siguientes genes:
- forkhead box P2
- glyceraldehyde-3-phosphate dehydrogenase
- BRCA1 DNA repair associated
- microRNA 17
- TNF receptor superfamily member 21
Así, FOXP2 y los demás símbolos son los equivalentes a los Paco, Nacho o Lola, que se utilizan a menudo como versiones cortas de Francisco, Ignacio o Dolores, respectivamente.
Algunos os habréis dado cuenta de que los símbolos de los nombres de los genes se escriben en cursiva. Y es que para eso también hay normas específicas. En el caso de los genes se utiliza la cursiva en los símbolos. Esto es muy útil para que cuando coincidan con el nombre de la proteína que codifican, sea posible diferenciarlos. Por ejemplo, si hablo de la localización de FOXP2 será fácil pensar que estoy hablando de dónde se encuentra el gen respecto al genoma y si menciono la localización de FOXP2 estaré hablando de dónde se encuentra la proteína en la célula.
¿Cómo se nombran los genes?
La forma de nombrar a los genes ha cambiado con el tiempo. Por ejemplo, inicialmente era común nombrar a los genes según las características a las que daban lugar cuando estaban alterados. En esta línea, algunos genes de la mosca Drosophila recibían nombres como yellow (debido a la coloración amarilla del cuerpo cuando estaban alterados) o scarlett (por el brillante tono rojo de los ojos cuando el gen estaba alterado). Esto ocurría en parte porque se identificaba antes la presencia del gen que el fragmento de ADN en sí que contenía el gen. Es decir, primero se descubría que había un gen implicado (por el patrón de herencia), al que se ponía nombre, y luego se identificaba el gen.
En la actualidad, se evita utilizar nombres con referencias a características de la especie donde se identifican y se prefiere que los nombres informen sobre la función que realizan, cuando se trata de proteínas. Especialmente en el caso de genes humanos y vertebrados, donde hay genes compartidos que reciben el mismo nombre.
Si nos enfocamos en los genes humanos, lo primero a considerar es que el nuestro genoma tiene más de 40.000 genes diferentes, que codifican la información necesaria para producir proteínas u otros elementos funcionales del genoma. Cada uno de estos genes tiene un nombre diferente, por lo que resulta evidente que debe haber algún tipo de sistema o recomendaciones para nombrar a cada gen. También existen normas para dar nombres a los nuevos genes que se van descubriendo y estudiando, tanto en humanos como en otras especies animales o procariotas.
La autoridad final sobre cómo llamar a un gen humano recae en el Comité de Nomenclatura de los Genes Humanos de la Organización del Genoma Humano (HGNC en sus siglas en inglés). ¿Cómo suele funcionar el proceso? En primer lugar, cuando un equipo de investigadores descubre un nuevo gen, puede proponer un nombre para el mismo y enviar una solicitud al HGNC. Este comité analiza la propuesta según las reglas de nomenclatura y comunica a los investigadores su decisión.
Reglas para nombrar los genes
Para conseguir la aprobación por parte del HGNC hay una serie de recomendaciones oficiales, cuya última versión fue publicada recientemente en Nature Genetics.
En esta versión se recuerda que, idealmente, los símbolos utilizados para los genes (la forma corta del nombre) debería ser corta, memorizable y pronunciable. Algo así como Daenerys o Dany para el conocido personaje de Juego de Tronos.
Los nombres largos también deberían ser breves, específicos y expresar algo sobre la función del gen o lo que hacen. Aquí nos valdría algo del estilo Daenerys Targaryen Khaleesi. Sobre todo, se recomienda no describir todo lo que se conoce del gen. Es decir, nada de utilizar todos los títulos y hablar de Daenerys de la Tormenta, La que no arde, Rompedora de cadenas, Madre de Dragones, Khaleesi de los Dothraki y del Gran Mar de Hierba, Reina de los Ándalos, los Rhoynar y los Primeros Hombres, Señora de los Siete Reinos y protectora del Reino, Princesa de Rocadragón, Reina de Meereen.
Volviendo a los genes, por ejemplo, GAPDH es el símbolo del gen glyceraldehyde-3-phosphate dehydrogenase. Por el nombre completo se deduce que la proteína resultante es una enzima, una deshidrogenasa que actúa sobre el gliceraldehido-3-fosfato.
El resumen de las recomendaciones para nombrar los genes es el siguiente:
Para los símbolos de los genes:
- Los símbolos contienen letras latinas en mayúscula y número arábigos. No se admiten números romanos ni letras griegas.
- A cada gen se le asigna un único símbolo dentro del genoma.
- Deben empezar por una letra.
- No debe incluir la letra G como abreviatura de “gen” o H de “humano.
- Los símbolos no deberían ser iguales a abreviaturas utilizadas de forma común o a nombres propios. (No hay ningún gen que se llame JOHN o JUAN).
- Se debe evitar repetir símbolos de otras especies, con excepción de genes ortólogos que son genes que comparten un ancestro común y cuyas diferencias se deben a la especiación.
- Se deben evitar ciertas combinaciones de letras que se utilizan con sentido específico. Por ejemplo, las letras BP que se utilizan normalmente para hablar de binding protein o proteína de unión.
- La nomenclatura no debería ser ofensiva o peyorativa. No sería aceptable, por ejemplo, utilizar el símbolo CACA o SHIT para nombrar a un gen.
Para los nombres:
- Deben ser breves y específicos.
- Hay que minimizar puntuación.
- Deben estar escritos en inglés.
- Comienzan en minúscula (de no ser que empiecen por un nombre propio o una abreviatura en mayúsculas) con la misma letra que su símbolo correspondiente
- No deben incluir las palabras gene o human. incluir la letra G como abreviatura de “gen” o H de “humano.
- No deben hacer referencia a especies, tejidos, localización cromosómica o características humanas.
- La nomenclatura no debería ser ofensiva o peyorativa.
Otras menciones de interés son:
- En el caso de los genes que codifican para proteínas es habitual que genes relacionados, por ejemplo, aquellos que codifican miembros de una familia de proteínas, tengan una raíz común para el nombre. Por ejemplo, el gen FOXP2 codifica para un factor de transcripción de la familia forkhead o FOX (se llaman cabeza de tenedor por la forma de una región de unión al ADN común en todos sus miembros). Así el símbolo de todos los miembros de la familia comienza por FOX. Además, cuando hay varios miembros se utilizan números arábigos para diferenciarlos.
- Si no se conoce la función del gen el nombre suele incluir la mención a dominios estructurales o a su parecido con otros genes de la misma u otra especie.
Los pseudogenes, que son genes que han perdido la capacidad para producir una proteína pero todavía se parecen lo suficiente a un gen funcional y los genes de ARN no codificantes tienen sus propias recomendaciones.
Nombres que cambian por Excel
Como nota curiosa, los nombres de algunos genes se han cambiado para evitar problemas en los documentos Excel que utilizan los investigadores en diferentes estudios genómicos.
Excel no fue diseñado para trabajar con nombres de genes (ni como base de datos clínicos). No obstante, es ampliamente utilizado en muchos estudios para recoger datos o para proporcionar resultados. La cuestión es que a veces Excel interpreta mal el contenido de algunas celdas, confundiéndolo con fechas y cambia automáticamente lo que contienen. Así, por ejemplo, el gen MARCH1 podía ser interpretado como una fecha y transformado en 1-MAR. Y esta situación puede llevar a errores. Para evitarlo, como mencioné, algunos nombres de genes se han modificado (MARCH1 ha cambiado a MARCHF1) y estas consideraciones ya están incluidas en las últimas recomendaciones de HGNC
Los nombres de los genes como espacio para la creatividad
El arsenal de recomendaciones y normas para nombrar los genes que acabamos de presentar no ha impedido que algunas ocasiones, la inventiva de los investigadores haya dejado nombres de lo más creativos para algunos genes. Algunos de ellos, solo se mantienen como alias, y no son el símbolo oficial aprobado.
En el próximo post os hablaré de algunos de mis nombres favoritos de genes. De la especie humana y de otras especies. ¿Cuáles son los vuestros?
Mientras tanto, os dejo un wordle de símbolos de genes: https://andrewholding.github.io/gene-wordle/
Y si os ha gustado el post, recordad que en Genotipia tenemos un curso sobre «Técnicas en biología molecular: claves para mejorar en el laboratorio«.
Bibliografía:
Bruford EA, Braschi B, Denny P, Jones TEM, Seal RL, Tweedie S. Guidelines for human gene nomenclature. Nat Genet. 2020 Aug;52(8):754-758. doi: http://dx.doi.org/10.1038/s41588-020-0669-3
HGNC Guidelines. https://www.genenames.org/about/guidelines/