Blog de EcoSyllaba Latinoamérica: La Big Data en la ciencia trae nuevos problemas para la gestión de datos

Un informe publicado en PLOS Biology resalta un problema que se ha abierto ante el tamaño de los datos generados en un campo como la Genómica: los recursos informáticos necesarios para manejar datos del genoma pronto superarán los datos producidos en Twitter y YouTube, y da una señal de alerta ante la incapacidad de tener la infraestructura necesaria para enfrentar la inundación de datos producidos por las investigaciones.

El estudio estima que para el 2025 se deben haber secuenciado entre 100 millones y 2 mil millones de genomas humanos. Para ese año, las demandas de almacenamiento de datos solo podrían correr entre 2 a 40 exabytes (1 exabyte es 1018 bytes), debido a que el número de datos que deben almacenarse durante un solo genoma son 30 veces más grandes que el tamaño del propio genoma debido a que se tiene que compensar los errores incurridos durante la secuenciación y el análisis preliminar.

El gran problema que la genómica debe enfrentar es como gestionar la cantidad de datos generados

Del mismo modo, estima que esta cantidad de almacenamiento supera las necesidades proyectadas de almacenamiento anuales de YouTube de 2.1 exabytes de vídeo en 2025 y Twitter que alcanzaría 1-17 petabytes por año (1 petabyte es 1015 bytes). Incluso supera el 1 exabyte por año proyectado para lo que será el proyecto más grande del mundo para la astronomía: el Square Kilometre Array, situado en África del Sur y Australia.

El gran problema que la genómica debe enfrentar es como gestionar la cantidad de datos generados que se agrava con la accesibilidad a la secuenciación, el crecimiento explosivo de la comunidad de modo descentralizado y la falta de coordinación y consenso para diseño de instrumentos, recolección de datos y estrategias de muestreo. Asimismo, el trabajo hace una alerta a las empresas de Cloud Computing para que se preparen para este escenario.

El estudio titulado Big Data: Astronomical or Genomical? puede ser leído aquí.

Autor: Carlos Quispe Gerónimo
Fuente: <http://carlosqgvader.tumblr.com/>

Páginas

31 de julio de 2015

La Big Data en la ciencia trae nuevos problemas para la gestión de datos

No hay comentarios.: