Arturo López Castel
Director Científico y de Negocio de Genera Biotech
Editor y consultor científico freelance
El ADN se caracteriza por contener el código necesario para el desarrollo y funcionamiento de cada ser vivo. Sin embargo, hoy en día es bastante habitual oír o leer fuera de un contexto médico o biológico el concepto “está en nuestro ADN”. Deportistas, políticos, empresarios, etc., lo utilizan cuando quieren enfatizar (sus) cualidades y comportamientos. Aunque caen en el error de utilizar el ADN como el portador de cualquier la información que nos identifica de manera inequívoca, menospreciando aspectos ambientales tan importantes como la educación, sí que aciertan, posiblemente sin quererlo, en apuntar hacia su capacidad para contener grandes cantidades de información e instrucciones.
Desde hace solo unos pocos años, distintas investigaciones han demostrado la interesante posibilidad de poder codificar, ya no datos biológicos, sino también datos digitales en el ADN, poniendo a su vez de manifiesto las ventajas de esta molécula como soporte de almacenamiento respecto a los medios físicos actuales. Así, es ampliamente conocida la capacidad de la molécula de ADN de formar estructuras ultra compactas, lo que permitiría la acumulación de gran cantidad de información en un espacio muy reducido. Por otro lado, el ADN ofrece una alta durabilidad de almacenaje, posiblemente cientos de miles de años, en condiciones óptimas de temperatura y humedad, mucho mayor que cualquier CD, DVD o disco duro actual. Finalmente, además de la garantía evolutiva de su no desaparición, ya que no se espera que sea un soporte que vaya a quedarse obsoleto, cada día adquirimos un mayor y mejor conocimiento en relación a cómo aumentar la eficiencia en la síntesis y lectura del ADN lo que permitirá escalar cualquier procedimiento en muy pocos años.
Todo esto constituye la base para trabajar con el ADN como forma alternativa a la hora de guardar datos digitales ante la necesidad creada por la avalancha que se está produciendo de este tipo de información (sólo en los últimos dos años se han generado más datos que en el resto de la historia precedente). Sin embargo, los resultados conseguidos hasta hace poco no han sido del todo satisfactorios y el desarrollo de las metodologías para hacer esto una realidad está todavía en una fase incipiente.
No obstante, muy recientemente, la unión de los esfuerzos de los investigadores Erlich y Zielinski, desde la Universidad de Columbia y el Genome Center de Nueva York, parecen haber proporcionado un salto cualitativo en este campo. En un artículo firmado por ambos en Science el pasado marzo, describen con detalle cómo fueron capaces de almacenar en ADN y posteriormente recuperar sin error, hasta seis archivos digitales de distinta índole, entre ellos una película antigua, una tarjeta regalo, un virus informático y un sistema operativo. Para ello utilizaron una nueva metodología, denominada Fuente de ADN (DNA Fountain), con la que obtuvieron mejoras muy significativas en términos de capacidad de almacenamiento, reducción de pérdidas de información, así como en la capacidad para la escalabilidad del proceso respecto a procesos anteriormente evaluados.
La pieza básica de su aproximación fue el uso de un nuevo algoritmo que les permitió desbloquear el potencial de almacenamiento del ADN casi al completo, al permitir comprimir aún más la información en los cuatro nucleótidos, en comparación con métodos anteriormente evaluados. En concreto, alcanzaron una capacidad media de almacenamiento de 1.6 dígitos binarios en cada nucleótido, muy cerca del máximo de capacidad teórica de 1.8 dígitos binarios determinada para el ADN, lo que según los propios investigadores es al menos un 60% mayor que cualquiera de los métodos hasta ahora publicados. Su metodología pasa inicialmente por el pre-procesamiento de los archivos digitales en código binario de ceros y unos, en cadenas de una cierta longitud. Después, dos pasos a nivel computacional permiten, utilizando el algoritmo ideado por ellos: primero, establecer las bases para la codificación en el ADN, empaquetando números concretos de las cadenas anteriormente formadas en forma de cortos mensajes denominados “gotitas” a las que se les agrega una etiqueta adicional para permitir recuperar la información en el orden correcto más tarde; y segundo, convertir las “gotitas” de código binario en secuencia de ADN, controlando cuidadosamente las propiedades bioquímicas en contenido GC y en tramos de homopolímero para la creación de oligonucleótidos válidos. Como resultado, para los seis archivos transformados, se sintetizaron 72.000 hebras de ADN, cada una de 200 bases de largo.
En una segunda fase, para recuperar los archivos del material genético, se utilizó tecnología de secuenciación para leer las cadenas de ADN, seguido del uso de un software para traducir el código genético de nuevo al binario. Según se describe en el estudio publicado, los archivos fueron recuperados sin errores, lo que significa un éxito completo. A su vez, esta estrategia de codificación consiguió 215 petabytes de datos en un solo gramo de ADN, 100 veces más que los métodos publicados por las investigaciones pioneras en este campo. En palabras de Erlich: «Creemos que este es el dispositivo de almacenamiento de datos de mayor densidad jamás creado».
A pesar de estos atractivos resultados todavía es pronto para el uso sistemático de esta metodología, ya que existen importantes limitaciones técnicas a solucionar. Quizá el más importante es el coste de este proceso, ya que aunque la síntesis y lectura de ADN se ha abaratado exponencialmente en los últimos años, todavía es un obstáculo real para que esta molécula se convierta en un soporte de almacenamiento digital masivo de información.
Otro aspecto a considerar es que secuenciar el ADN todavía requiere de días o semanas cuando las cantidades de información son elevadas, por lo que es una clara desventaja respecto a los métodos actuales basados en electricidad, donde leer archivos almacenados es un proceso casi inmediato. Sin embargo, pensando en un primer escenario comercial abordable en tiempos no muy alejados, la posibilidad de ofrecer guardar copias a largo plazo de grandes cantidades de datos, tal como se ofrece ahora con almacenamiento en nubes digitales, ya ha suscitado un fuerte interés en compañías como Microsoft.
Referencias y fuentes:
Erlich Y and Zielinski D. DNA Fountain enables a robust and efficient storage architecture. Science 2017, Mar 3; 355: 950-4 DOI: 10.1126/science.aaj2038
Página web de Microsoft: URL: https://www.microsoft.com/en-us/research/project/dna-storage/?from=http%3A%2F%2Fresearch.microsoft.com%2Fen-us%2Fprojects%2Fdnastorage%2F [10-04-2017]
Researchers Store Computer Operating System and Short Movie on DNA. https://genotipia.com/wp-content/uploads/2017/04/DNA-storage-FINAL-1.pdf