La información es poder. Los datos son el nuevo petróleo. Hablamos de datos como activos económicos: datos masivos o big data que van del llamado raw data o datos primarios al smart data o datos inteligentes: los datos ya procesados, dotados de valor y significado.
Podemos definir el big data en un doble sentido:
- Como el término que describe el gran volumen de datos – tanto estructurados como no estructurados -que inundan nuestras vidas.
- Como las técnicas que las empresas e instituciones emplean para procesar todos estos datos y así estar en disposición de tomar mejores decisiones de negocio.
El big data no es ninguna moda: ha venido para quedarse. Y sí, aunque existen ciertos campos que podemos decir abanderan su uso, como la medicina, el marketing o el deporte, se podría decir que el big data impregna muchas áreas de nuestra vida: sin ir más lejos, plataformas como Spotify, Amazón o Netflix saben mas sobre nosotros que nosotros mismos y esto lo consiguen con avanzadas herramientas, entre ellas el big data.
En el pasado los generadores de datos por excelencia eran las grandes empresas, las administraciones públicas. Actualmente, parémonos a pensar en la cantidad de datos que generamos a lo largo del día. Sin ir más lejos, en redes sociales como instagram o Twitter, se generan casi 10 terabytes de datos diarios. Una locura.
Las 3 V´s
El Big data se entiende asociado a la “norma de las 3 V”: volumen, velocidad, y variedad (si añadimos dos uves más veracidad y volatilidad ya hablamos de smart data):
- Volumen: Se habla de cantidades enormes de datos y es que, a diferencia del software tradicional (que gestiona datos de tamaño megabyte y kilobyte), las herramientas de big data pueden llegar a procesar conjuntos de datos del tamaño de un terabyte o petabyte
- Velocidad: parémonos a pensar en el tiempo que tardamos en crear un solo tweet en Twitter o qué tan rápido miles de sensores remotos miden e informan sobre las temperaturas cambiantes del agua de mar.
- Variedad: tradicionalmente el tipo de datos recopilados por empresas e investigadores estaba estrictamente controlado y estructurado (como los datos ingresados en una hoja de cálculo) pero también existen datos no estructurados, como pueden ser:
- mensajes de correo electrónico
- fotografías
- publicaciones en foros de Internet
- transcripciones telefónicas
- audio, vídeo
Algunas tecnologías aliadas del big data son: el cloud computing, internet de las cosas, los datos abiertos, la visualización de datos. Además de diferentes herramientas basadas en análisis por lotes: Google MapReduce, Apache Hadoop, Microsoft Dryad y Apache Mahout.
Posibles aplicaciones del big data en las bibliotecas
Aplicando estas herramientas y técnicas de las que hemos hablado (visualización de datos, cloud computing, etc.) podríamos dar con soluciones que beneficiarían a nuestros usuarios:
- Sensores que monitoricen las condiciones ambientales (presión, temperatura, luz, humedad…) y el estado en que se encuentran los activos (libros u obras de arte).
- Uso de estanterías inteligentes que respondan a búsquedas previas en Internet. Esto ya se ve por ejemplo con la ubicación en tiempo real de Google Maps. En las bibliotecas se podrían extraer datos a partir del recorrido efectuado por los usuarios dentro de las instalaciones (en qué secciones se fijan más, etc.)
- Alfabetización de datos: ofrecer a nuestros usuarios cursos de formación en los que se les enseñe a gestionar todo tipos de datos (cada vez hay más moccs que ofrecen cursos sobre gestión de datos abiertos).
- Bibliomining: la combinación de técnicas de data mining, data warehousing y bibliometría para analizar cualquier servicio bibliotecario.
- Producción científica: Saber cuántos documentos se publicaron relativos a un tema, en qué fecha, con qué frecuencia el nombre de una persona, de un lugar o de un concepto aparecen en un determinado corpus. Herramientas como Dataverse o Dryad permiten compartir, preservar, citar, explorar y analizar datos de investigación
- Uso de estadísticas para la elaboración de informes en la biblioteca:
- la red de bibliotecas de Singapur analiza las estadísticas de los préstamos en relación con los datos bibliográficos y así proponer recomendaciones a sus usuarios.
- gestionar la política de adquisiciones teniendo en cuenta datos como el perfil sociológico de los lectores que frecuentan cada biblioteca de la red, las restricciones del lugar y la tasa de rotación de las colecciones
Retos en la gestión de datos masivos
- Tecnológicos: la velocidad y las abrumadoras necesidades de almacenamiento hacen que el análisis de Big Data necesite soluciones exigentes de software. En la actualidad el aliado tecnológico clave es el almacenamiento en la nube.
- Éticos: el aumento de los datos personales en poder de gobiernos y empresas y el cruce de información de diversas fuentes permite elaborar perfiles avanzados de cada individuo, lo cual pone en riesgo su privacidad.
La buena noticia viene de la mano de La Ley 18/2015, de 9 de julio, sobre reutilización de la información del sector público ya que introduce la obligatoriedad de que tanto los organismos de la Administración Pública como las bibliotecas, museos y archivos pongan a disposición del público datos e información reutilizable (es decir, en formato abierto, legible y tratable).
- Económicos: muchas instituciones adolecen de presupuestos insuficientes para incorporar la infraestructura tecnológica necesaria
- Gestión del cambio: resistencia en ciertos profesionales al tener que abrazar estas nuevas tecnologías.
Conclusiones
Este artículo de Rebiun recoge las principales conclusiones extraídas de la encuesta sobre bigdata realizada a universidades españolas en 2016. Y claro, las conclusiones eran previsibles y poco halagüeñas: la teoría es maravillosa, pero, a la hora de la verdad, los principales retos que las universidades detectaban a la hora de abrazar el big data en sus instituciones eran: la falta de expertos en el área y la ausencia de inversión económica. Confiemos en que de aquí a unos años este panorama sea más esperanzador.
Mientras tanto para aprovechar esos datos masivos en las bibliotecas podemos ir haciéndonos algunas preguntas que allanen un poco el camino: ¿en qué fase se encuentra mi biblioteca respecto a la gestión de los datos masivos?, ¿Tiene mi biblioteca la oportunidad de medir algo nuevo, un conjunto de datos masivo que anteriormente estaba fuera de su alcance debido a limitaciones de software y hardware?
Fuentes:
- American Journal of Information Science and Technology (2019). Big Data and their impact on Libraries . Disponible en: http://www.ajist.org/article/526/10.11648.j.ajist.20190301.11