Muchos de nosotros hemos imaginado alguna vez tener la posibilidad de rastrear la Web de forma metódica, y extraer información a gran escala de manera sencilla. A pesar de que ya existen en el mercado algunos Web crawler disponibles, lo cierto es que suelen ser tecnologías complicadas de manejar. Sin embargo, al ser un campo en constante ebullición, cada día salen a la luz nuevos desarrollos.
Uno de esos desarrollos se está llevando a cabo en la UCM, en concreto, por un investigador (Manuel Blázquez) del que os hablé hace algún tiempo, ya que diseñó un SIGB llamado Colibrí. En esta ocasión, presenta un Web crawler con interesantes novedades y muy potente. Por este motivo, el martes 22 de octubre a las 18:00 horas, se va a presentar en la Facultad de Ciencias de la Documentación de la UCM este software realmente interesante, creado en el 2010 y que ha sufrido diversas evoluciones desde entonces: El Mbot. El Mbot es un software de rastreo Web en el cual se concentran las principales herramientas para realizar análisis Webmétricos sobre información contenida en la Web (metadatos, etiquetas, coenlaces, desarrollo de mapas Webs, además de análisis y data mining sobre información). Su utilización es sencilla: A partir de una serie de URLs (semilla), y después de configurar los diversos parámetros que deseamos analizar de dicha semilla, el programa analiza pormenorizadamente las diversas etiquetas que contienen la información que deseamos. Además, cuenta con una interfaz que permite observar dicho análisis e identificar las diversas tipologías de datos que esta extrayendo a tiempo real. En su análisis extrae toda la información y a los niveles de profundidad que se indiquen previamente:
Durante los procesos de análisis de la Web, Mbot organiza y tabula la información automáticamente generando una base de de conocimiento en la que se distribuyen y clasifican los tipos de páginas Web según sus formatos y las referencias a los archivos de imagen, audio, vídeo. Por otra parte, almacena las meta-etiquetas estándar y los metadatos Dublin Core, para permitir estudios de recuperación de información y posicionamiento en buscadores. Además, Mbot está diseñado para detectar canales de sindicación, redes semánticas y ontologías, de forma tal que puede realizar tareas de minería de datos especializadas, recabando información primaria a partir de un análisis en profundidad de la Web. También es posible configurar Mbot, para la extracción masiva de correos electrónicos, códigos fuente, así como la indexación del texto completo de las páginas Web que analizada, función que lo habilita para constituirse no sólo como bot sino como buscador en sí mismo.
Su instalación es posible en múltiples plataformas (Windows, MacOS, Linux) y, aunque necesita trabajar con Apache2, MySQL5 y PHP5, es posible instalarlo en local a través de AppServ o Xampp.
Con este tipo de tecnología resulta más sencillo elaborar estudios o análisis temáticos sectoriales de la Web, cómo se interrelacionan los diversos espacios Web, cuales destacan, qué cantidad de información contienen, y con cuántos niveles de profundidad cuentan.
Como estaré en dicha presentación, aprovecho para confirmaros el hashtag con el que tuitearé la sesión para todos aquellos interesados en este tipo de desarrollos relacionados con la recuperación de información en entorno Web: #mbotcraweler