The Deep Web

El crecimiento de acontecimientos que sufrimos en la actualidad, bien sociales, económicos, políticos, informáticos, etc. generan desenfrenados aumentos de información y contenidos recogidos en Internet.

Desde los inicios del 2011, se han agotado los 4.300 millones de posibilidades numéricas de IP para la creación de páginas Web, siendo España el décimo país con más direcciones IP del mundo. Pero, ¿toda la información colgada de las páginas Web es visible y accesible? La respuesta es NO, habiéndose estimado que la información pública, estática, es 500 veces inferior que la totalidad del contenido Web.
Como dice Anand Rajaraman, de Kosmix, la Web fácil de rastrear, es la punta del iceberg del monto existente.
La amplia proporción no perceptible es conocida por la Deep Web, término atribuido a Mike Bergman, pero existen otras acepciones a la hora de definir este concepto, como Darknet, Web invisible, Undernet, Deepnet, etc.
Se dice que la Web profunda es la casa de la propiedad intelectual y de los derechos legales de la ciencia, conteniendo mayoritariamente:

  • Bases de datos concretamente de empresas, información financiera, instituciones bibliotecas, páginas amarillas, directorios, etc.
  • Los documentos no textuales, los multimedia, gráficos, los archivos pdf, pps, XIs, ppt, Ps y otros, se encuentran en la Web invisible siempre y cuando no contengan la metadata que permita rastrearlos y no se encuentren indexados.
  • Contenido dispuesto en redes sociales.
  • Otra información como las cotizaciones bursátiles, tarifas aéreas, datos de mapas, etc. se encuentran sujetos a diferencias licencias y a acuerdos de no divulgación.

Los motores de búsqueda son los causantes del continuo incremento de la Deep Web, debido a las limitaciones impuestas por los programadores informáticos, corporaciones, legislaciones, etc. Pero, la tecnología en materia de motores de búsqueda no es estática, al contrario, los crawlers varían, y sus algoritmos siempre están en busca de discriminar con mayor acierto la información.Un solo cambio, un solo progreso significa que los sitios Web deben ajustarse en consonancia al incremento de volumen de información.
En los últimos años, algunos motores de búsqueda han desarrollado algoritmos para indagar los contenidos más profundos de la Web, tratando de localizar los archivos más ocultos. Esa exploración permite a los investigadores obtener una gran cantidad de información que antes no estaba disponible o accesible.
Consejos para intentar bucear en la Deep Web:

  • Búsquedas verticales y federadas de información.
  • Uso de motores de búsqueda generales para buscar motores de específicos o verticales.
  • Tratar de averiguar que tipo de información puede ser almacenada en una base de datos especializada: leyes, patentes, imágenes,
  • Explotar la Web social, ofrece comentarios e información muy actualizada.
  • No depender de Google al 100%.
  • 100 herramientas para descubrir en la Deep Web.
  • Marcus P. Zillman ofrece una actualizada guía de uso para adentrarse en la Web profunda.

Futuro:
Nos encontramos ante un continuo tsunami de información, el cual crece día a día. Más aún cuando vivimos inmersos en un movimiento de cambio generacional del soporte estático, conectado a Internet, al soporte móvil conectado, el cual engorda el ciberespacio de contenido.
Los motores de búsqueda se volverán más inteligentes, se generalizará la incorporación de semánticas de búsquedas avanzadas, se generalizarán los exámenes biométricos que decodificarán el lenguaje, se especializarán los motores, etc. y todo ello para llegar a lo más profundo de la Web.

Juan José Prieto

En este apartado podréis seguir interesantes artículos y comentarios sobre dos áreas. Por un lado sobre la Web 2.0 y por otro lado lo concerniente a la seguridad del patrimonio bibliográfico, de la información y de las propias instituciones que lo custodian.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *