Big data: el problema del almacenamiento de nuestros datos genéticos

Según un estudio publicado recientemente en la revista de ciencia biológica PLOS Biology, (http://journals.plos.org/plosbiology/) se estima que, en los próximos 10 años, generaremos entre 2 y 40 exabytes anuales de datos genéticos.

Un exabyte son 1024 petabytes o, para entendernos mejor, cada exabyte es, aproximadamente, un millón de veces el espacio de almacenamiento con que cuentan nuestros ordenadores personales domésticos.

Quizá no creyeras que nuestros genes pudieran ocupar tanto espacio, pero la verdad es que esto solo es el principio de la genética moderna.
Desde que se consiguió secuenciar el genoma humano, muchas ramas de la ciencia vieron en él una especie de panacea, un atlas supremo de conocimiento del ser humano, que contaba con el potencial de de detectar, curar e incluso erradicar genéticamente cientos de enfermedades.
Por ello, la ciencia se ha volcado en la genómica, y en los últimos años se están dando grandes pasos en este campo de investigación.
A medida que los científicos encuentran nuevas formas de relacionar la genómica con la salud, cada vez se secuencian y analizan más datos genéticos con el objetivo de obtener muestras de grupos o poblaciones específicas.
El estudio estima que, para el año 2025, más de un billón de personas habrá secuenciado su genoma.

¿cuánto ocupa en datos una secuencia genómica?

Con la tecnología y los medios con los que contamos actualmente, el conjunto de los datos relativos al genoma de una persona ocupa alrededor de 100 gigabytes de espacio. Al ritmo al que se desarrollan las investigaciones actualmente, la cantidad de datos genéticos se duplica cada siete meses.
No es necesario hacer muchas operaciones matemáticas para darnos cuenta de que, a pesar de los esfuerzos de los investigadores y las empresas que trabajan en este campo, en un espacio de tiempo relativamente corto tendremos una estratosférica (y problemática) cantidad de datos que almacenar y gestionar: lo único claro, por el momento, es que el software actual de procesamiento de datos no está preparado para la revolución genética.
El mismo problema se repite en otras ramas de la ciencia; los astrónomos, por ejemplo, llevan años de investigación incesante en busca de una solución para almacenar y tratar la enorme cantidad de información que recogen a diario. A día de hoy, la única posibilidad viable son las supercomputadoras, pero incluso éstas se quedan cortas cuando el volumen de datos continúa creciendo de forma exponencial.
El problema no solo está presente en el big data, y no somos conscientes de que nuestra vida digital deja mucho más "residuo" de lo que pensamos en forma de datos: YouTube y Twitter llevan tiempo enfrentándose a problemas similares por el almacenamiento de su ingente volumen de archivos. Aún así, los datos que cada año se recogen sobre genómica humana suman, aproximadamente, el 25% de los que produce YouTube, y los autores del estudio estiman que para 2025 el volumen anual de producción de ambos datos irá a la par.
Con estas predicciones de futuro, los investigadores genéticos necesitarán desarrollar nuevas formas de almacenar, analizar y distribuir los datos.
Ciertas organizaciones, como el New York Genome Genter, han tratado de crear su propia base de datos interna, dando prioridad a aquellos archivos que utilizan con más frecuencia, pero la solución más viable actualmente para este tipo de big data parece venir de la mano de Google y Amazon, que están desarrollando una plataforma de cloud computing para datos genéticos.

* Artículo cortesía de Marah Villaverde *

Marah Villaverde

Redactora | geekpunto.com

BIO

Bloguera, fotógrafa, traductora, inquieta por naturaleza y apasionada de la tecnología y los gadgets. Escribe en geekpunto.com, y en su vida offline disfruta de los gatos, la lluvia, el mar, el cine y las letras.

Jose Maria Acuña Morgado - Desarrollador Web