Hablemos sobre Big Data

Fotolia-Big-Data-Data-Equity
31072012 Foto de Sergey Nivens en Flicker

Sin duda alguna, cada día producimos y almacenamos inmensas cantidades de datos, Eron Kelly dice que en los siguientes cinco años, la humanidad generará más información en comparación con la que generamos en los últimos 2000 años.

Cuando empezamos a hablar de Big Data, estaremos hablando de la forma de hacer útiles estos datos, aunque como menciona Jorge Serrano Cobos… “Big data” es uno de esos conceptos que están con nosotros desde hace mucho, pero que periódicamente saltan a la palestra de los medios y gozan de su minuto de gloria (o semana, mes o año…).

En el mundo de las tecnologías de información es un tema que se está presentando como un tema de actualidad y de una amplia tendencia a su uso y aplicación en los próximos años.

Considerando estos grandes volúmenes de información que se generan día a día, Big Data nos permite extraer, procesar y presentar grandes volúmenes de información para tomar decisiones adecuadas. Por medio del análisis de grandes volúmenes de información para encontrar datos inconexos.

Hablando en términos de almacenamiento de información, cabe destacar que que hoy en día almacenamos más y más información, este almacenamiento lo llevamos a cabo cada vez de formas más eficientes, rápidas y con menores costos.

La cantidad de datos hoy en día es tan grande, compleja y dinámica que las herramientas convencionales no sirven  ciento por ciento para captarla, administrarla y almacenarla.

La oferta en el mercado de Big Data presenta varias división asociadas a los componentes del mercado de proveedores de servicios de análisis de Big Data que incluyen software y soluciones, hardware y capacidad de almacenamiento. El segmento de software y servicios se come la porción más grande de la torta de producción de soluciones: más del 50% del total.

Pero el segmento de mayor y más rápido crecimiento se estima será el del almacenamiento, que se espera crecerá hasta un 45,3% hacia 2018. Y aunque su aplicación puede llevarse a cabo en casi cualquier sector, el financiero y las áreas de marketing son las que más se interesan por estar en la vanguardia tecnológica.

Las V’s de Big Data

En 2011, el analista de Gartner, Doug Laney, acuñó la definición de las 3 V que componen el término Big Data:

  • Volumen de los datos
  • Velocidad en el tratamiento de los datos
  • Variedad de los datos.

Hoy se han agregado nuevas “V”:

  • Valor de los datos que tiene que ver con la confiabilidad.
  • Venue, o campo, que habla de la complejidad que deviene de tener una alta diversidad de fuentes de datos no estructurados.
  • Y Visualización, una herramienta útil para trasformar análisis complejos en formatos procesables.

Cuatro grandes pilares de Big Data

Considerando los conceptos de las V de Big Data, esta descansa en cuatro grandes pilares, estos son:

El Almacenamiento: Con un crecimiento exponencial, en medios más rápidos, efectivos, confiables, y robustos.

Ejemplo de ello es el articulo «El futuro del almacenamiento: ADN, el nuevo USB» que nos muestra la evolución y tendencia de los dispositivos de almacenamiento considerando que ya se han llegado a hacer pruebas de almacenamiento en una molécula de ADN permitiendo guardar una gran cantidad de datos, algo así como 2 petabytes.

Imagen tomada de Reporte Indigo 920_ADN
Imagen tomada de Reporte Indigo 920_ADN

Transferencia: consiste en la necesidad de transmitir grandes volúmenes de datos en “tiempo real” permitiendo realizar realizar análisis precisos y certeros.

Procesamiento: Un framework de procesamiento como hadoop.

Visualización: El cómo se muestren los resultados siempre sera importante, tomemos en cuenta que el 90% de la información que se transmite al cerebro es visual y se procesa 60,000 veces más rápido que el texto, según 3M y Zabisco.

Habilidades recurrentes

 Adicionalmente será necesario considerar algunas habilidades que hay que cultivar para enfrentar la gestión de Big Data las cuales se hacen mencion en el articulo Big Data, estas son:

Modelación
Modelos de la algoritmia de los meta-problemas de los grandes datos.

Codificación
La codificación —como habilidad y capacidad— es la “clave de acceso”.

Peresepción
La información no se da, se produce y, en cierto sentido, se construye. Hay que sentirla, percibirla. La ciencia de la medición se dedica a convertir la calidad en cantidad, a transformar un palpito, una intuición, una percepción, en un dato observable y medible en términos subjetivos.

 Evolución de Big Data

Al considerar los conceptos y componentes asociados a Big Data podemos apreciar que ha llevado un proceso evolutivo del cual podemos hacer alusión por medio de un grupo de estadios:

  • Se ha comenzado con un almacenamiento indiscriminado.
  • Al contar con grandes cantidades de datos se ha llegado al análisis de información de manera periódica.
  • Y su posterior análisis en tiempo real.

Y actualmente tenemos que a partir de estos antecedentes la idea es generar

  • Predicciones del comportamiento.
  • Total flexibilidad para el usuario.

Sin perder de vista que el objetivo central será el encontrar correlaciones entre información que aparentemente esta disconexa. En este entorno se presentan alguno roles.

Algunos de los roles del Big Data

  • Data hygienist
  • Data Explorers
  • Business solution architect
  • Data Scientist (Hacen los modelos matemáticos)
  • Campaign experts

Grandes compañías como Oracle, Google, Amazon o IBM se han apuntado al carro de proporcionar herramientas (con tendencia al Cloud computing) que permitan a compañías no tan grandes a utilizar y computar esa información, donde la herramienta reina actualmente es quizá Hadoop, aunque las grandes compañías también están invirtiendo en áreas de Big Data exclusivas, ejemplo de ello son GE, Wal-Mart y The Financial Times.

Un ejemplo del uso de herramientas de Big Data es el que presenta Amazon, que hace uso del Cloud Computing permitiendo almacenar datos y usando el framwork de  Hadoop, el cual  puede presentarse con bases de datos no relacionales o No SQL, servidores de búsqueda Solr y un Crawl del proyecto Common Crawl Corpus.

Big Data no se restringe a realizar operaciones con rapidez, sino poder diseñar la manera en la que secuenciamos las operaciones; es decir, el diseño de los algoritmos y la heurística que usan para resolver los grandes problemas que plantean los enormes volúmenes de datos.

Es el ingenio el que permite optimizar las plantas de fabricación, calcular las interacciones críticas entre los genes en los genomas de los individuos en riesgo y diseñar algoritmos para explotar las variaciones —minuto a minuto— del precio de las acciones de Apple. O para el caso de Amazon, conocer los accesos de cada usuarios, los libros que compra, a los que les da click, los que recomienda, el histórico de compras, si el usuario hace su compra en México o España, todo esto puede ser almacenado para ser analizado y poder generar una mejor experiencia al usuario a partir del procesamiento de Big Data.

Me parece que aún hay muchos caminos que explorar asociado a Big Data y las bibliotecas. Si bien es cierto tenemos la parte relacionada a Open Data también es cierto que podemos obtener datos de los OPAC´s, metabuscadores, accesos a bibliotecas digitales, repositorios, blogs, redes sociales etc., en pro de una mejor experiencia del usuario tratando de almacenar una gran cantidad de información que permitan por medio de Crawls hacer uso del análisis y predicciones asociadas a Big Data, finalmente se puede decir que Big Data también es una actitud y que el limite y su aplicación aún no esta totalmente descubierto.

Haciendo una aproximación más al entorno de las bibliotecas, al parecer cada que se habla de ello, me queda la sensación de que en este tema los especialistas de la información y documentación deberían estar intrínsecamente relacionados con una figura que haga alusión los científicos de la gestión de datos para enfrentar estos nuevos desafíos.

Los datos nos invaden en todos los contextos de nuestra sociedad, proporcionados por las aplicaciones de la Web 2.0, por los gobiernos, por las investigaciones científicas, por las publicaciones o por las organizaciones.

Cuando se usa el término «Open Data” se suele entender como la apertura de datos digitales, pero en este concepto también tiene cabida la de datos en documentos impresos. Hay una enorme cantidad de datos depositados en archivos y bibliotecas que se han construido gracias a los impuestos de los ciudadanos que están sin digitalizar.

Recomendaciones y sitios consultados

Ferrer-Sapena, Antonia; Sánchez-Pérez, Enrique A.. “Open data, big data: ¿hacia dónde nos dirigimos?”. Anuario ThinkEPI, 2013, v. 7, pp

Serrano-Cobos, Jorge. “Big data y not so Big data”. Anuario ThinkEPI, 2013, v. 7, pp.

Fernanado Ariel López. Datos Abiertos (primera parte)

bibliotecas2029bis 16. Big data: una bibliotecaria con los datos hasta el cuello 

Amanda Sibley. 19 Reasons You Should Include Visual Content in Your Marketing.

José Papo. CPBR6 – Big Data e computação em nuvem.

 

Saul Equihua

Codirector en Infotecarios y comunicación con Biblogtecarios Bibliotecólogo y programador analista con experiencia en la relación tecnológico - documental. Ponente en esta temática, interesado en las tecnologías de información.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *