Criticismo en buscadores (I)

Los buscadores (especialmente Google) se han convertido en una parte fundemental de nuestras vidas digitales. Pero su uso no está libre de problemas. El pasado 13 de octubre de 2011, el profesor de la UPF Lluís Codina presentó una ponencia sobre el concepto criticismo en buscadores. BuscadoresLa intención de Codina era mostrar cuáles son las principales críticas y los principales problemas a los que nos podemos enfrentar cuando usamos un buscador para encontrar información.

Codina identifica en su presentación dos grandes bloques de críticas: desde el lado del buscador, y desde el lado del usuario. Dentro de cada bloque, Codina distingue diferentes aspectos de esas críticas, y sus problemas asociados. Así, desde el lado del buscador los problemas son tecnológicos, cognitivos y políticos, mientras que desde el lado del usuario los problemas son el alfabetismo informacional y el monocultivo.

En este nuevo post colectivo, hemos querido hacer un trabajo de síntesis sobre el guión de Codina, para ofrecer al lector una visión general de los principales aspectos de la crítica a los buscadores. Nos hemos sentido libres para destacar los aspectos que hemos creído más convenientes del guión de Codina. Esta primera parte del post está dedicada a los problemas tecnológicos y cognitivos del lado del buscador; la siguiente entrega revisará los problemas políticos del lado del buscador, así como los problemas del lado del usuario (alfabetismo informacional y monocultivo).

Los problemas del lado del buscador

Tecnológicos

1. Barreras en la indización: Internet invisible y OPACs

Según Wikipedia, se denomina Internet Invisible a todo el contenido de Internet que los robots (o arañas) de motores de búsqueda no pueden indexar y por tanto mostrar en sus resultados de búsqueda, permaneciendo “invisibles” al usuario que utiliza el buscador.

Los motores de búsqueda no son capaces de rastrear cierta información debido a varios motivos, siendo el más importante de ellos uno de ellos su incapacidad para rastrear querys, esto es, resultados dinámicos de bases de datos.

Es por ello que forman parte de esta “Internet invisible” los OPACs de bibliotecas (Online Public Access Catalog). Aunque los motores de búsqueda son capaces de indexar la página “home” (la página de inicio y entrada al catálogo), en teoría son incapaces de indizar cada registro del mismo. Ello se debe a que cada uno de los registros del catálogo no posee una URL estática y duradera en el tiempo, sino que dichas URLs son generadas de forma dinámica, tras efectuar una búsqueda concreta.

Las bibliotecas y otros centros que utilizan catálogos online para registrar sus fondos, conscientes de la necesidad de que éstos estén disponibles para los usuarios de Internet, están llevando a cabo diferentes iniciativas para que los robots de los motores de búsqueda las indexen.

Es el caso de datos.bne.es. En su página web podemos leer que es un proyecto conjunto del Ontology Engineering Group (OEG) y la Biblioteca Nacional de España, destinado al enriquecimiento de la Web Semántica con datos bibliográficos provenientes de su catálogo.

Siguiendo llos principios de Linked Data, la iniciativa se ha puesto en marcha con la publicación de información procedente de los catálogos bibliográficos y de autoridad, disponibles como bases de conocimiento RDF (Resource Description Framework).

Estos datos se interrelacionan con otras bases de conocimiento existentes en la iniciativa Linking Open Data. De esta manera, España se suma a los proyectos que otras instituciones como la British Library y la Deutsche Nationalbibliothek han comenzado recientemente.

Aparte de proyectos a gran escala como datos.bne.es, cada vez más bibliotecas demandando que los registros de sus OPACs sean accesibles a través de los buscadores. ¿Cómo hacerlo?: la mayor empresa de OPACs española, el grupo Baratz, nos comenta que:

Es posible crear páginas estáticas con links a absysNET para que sean indexadas y accesibles: En este caso creando un sitemap con un fichero con enlaces únicos a todos los registros bibliográficos de absysNET. Después, tienes que declarar ese sitemap en las herramientas para webmasters de Google y a partir de ese momento, Google recolectará esas direcciones en tu servidor de forma periódica.

2. Limitaciones en el cálculo de la relevancia: el sesgo por antigüedad de los resultados

El modo en el que Google posiciona las webs en sus SERPs (Search engine results page o Página de resultados del buscador) depende de un algoritmo secreto, compuesto por varios factores: el llamado PageRank. Este algoritmo determina la relevancia de una página en los resultados de una búsqueda. El Page Rank de Google tiene en cuenta varios aspectos, que podemos dividir en:

  • Factores “on-page”, aquellos internos del sitio web como: arquitectura de información web, densidad de palabras clave, antigüedad y contenido de keywords en el dominio, etc.
  • Factores “off-page”, aquellos externos al sitio web como: cantidad y calidad de enlaces que apuntan hacia el dominio, popularidad, autoridad, anchor text…

El Page Rank suponía una ventaja para ciertas páginas que, con un plan de SEO adecuado, podían alcanzar los primeros resultados de las búsquedas únicamente a través de factores estructurales, independientemente de los contenidos. Este fenómeno ha dado lugar al sesgo por antigüedad: aquellas páginas más longevas son las que aparecen en los primeros resultados.

El último cambio realizado en el algoritmo de Google, el llamado Google Panda Update, vienen a mitigar el tradicional sesgo por antigüedad de los resultados, mediante modificaciones en la fórmula del cálculo de la relevancia. Ahora se tendrán en cuenta otros factores, como por ejemplo:

  • La actualización del contenido: Google considera más relevantes aquellas webs que posean información actualizada, no estática.
  • La calidad del contenido: se privilegian aquellas páginas con contenido extenso, original, (no copiado, inédito), con una estructura semántica correcta.

También se han añadido métricas que están relacionadas con la experiencia de usuario en la página. Algunos ejemplos: tiempo de permanencia del usuario en la página, navegación por la web (hacer varios clics, baja tasa de rebote), menciones sociales (en Facebook, Twitter, Google Plus), etc.

3. Las malas prácticas en SEO: el spam en buscadores

La necesidad de aparecer en el Top 10 de Google para poseer un mayor tráfico a una determinada web ha impulsado el desarrollo del llamando SEO o Search Engine Optimization. Se trata del conjunto de técnicas a través de las cuales se realiza una optimización del sitio web, para lograr que los de motores de búsqueda posicionen al sitio en lo más alto de su ránking.

Si el SEO se realiza con honestidad puede ser muy positivo. Por ejemplo: si la selección previa de palabras clave es la adecuada, las técnicas SEO pueden ayudar a los sitios web a definir el mensaje que quieren ofrecer, permitiendo a los usuarios encontrar más fácilmente aquello que buscan.

Sin embargo, las técnicas SEO para posicionar sitios webs a toda costa pueden considerarse spam, pues llenan la red de contenidos basura. Un ejemplo de técnicas SEO “no honestas” y “penalizables” por Google es el llamado “Bombing”, técnica con la que se posiciona un site web con una palabra clave no relacionada con el contenido (en la mayoría de ocasiones se realiza con fines políticos o de protesta, como cuando se posicionó a la web de SGAE con la palabra clave “ladrones” en el top 1 de Google.es)

4. Limitaciones en la página de resultados: inconsistencia de resultados

Hasta ahora, los resultados de Google estaban centrados en la información pública contenida en Internet. Pero este principio ha sido modificado recientemente por los proyectos Social Search y Search, Plus Your World: a partir de ahora, una búsqueda puede devolvernos resultados de nuestros círculos sociales, especialmente aquellos que formen nuestro perfil en Google +.

Independientemente de la validez de esta estrategia de negocio, estas modificaciones en la manera de presentar los resultados tienen unas importantes implicaciones en cuanto a la consistencia del ranking de resultados de Google, como nos comentan en el blog Doculinux: si el ranking uniforme basado en enlaces entrantes puede modificarse gracias a las personalizaciones, como usuarios anónimos ya no es posible figurarnos qué es lo que otros usuarios ven cuando realizan una búsqueda. Pensemos en la importancia que esto tiene para las empresas: ¿cómo debería elaborarse un informe que explique la posición de un sitio web en la página de resultados de Google?

José Antonio Merlo Vega realizaba una reflexión semejante en una reciente nota en el Grupo ThinkEPI. Según Merlo, las políticas comerciales de Google están afectando negativamente a la pertinencia de los resultados de las búsquedas: la personalización de los resultados perjudica las búsquedas objetivas, aquellas que se llevan a cabo en los centros de información.

Y es que, nos dice Merlo, la relevancia ya no consiste en ofrecer los resultados que se corresponden con lo que buscamos, sino lo que lo que las herramientas que empleamos para buscar información estiman que es lo que más se ajusta a nuestras supuestas preferencias, junto a aquello que creen que nos puede interesar en virtud de nuestro perfil.

¿Cómo afecta este panorama a los profesionales de la información?: hemos de ser conscientes de que las lógicas de los buscadores han cambiado. De esta manera, ya no basta con conocer los operadores y sus combinaciones, además es necesario conocer cómo Google puede personalizar los resultados de las búsquedas.

Merlo ofrece algunos consejos para los profesionales de la información que, como él nos dice, “quieran rebelarse contra el falso concepto de relevancia y encontrar de forma ágil lo que se esté buscando”:

  1. Buscar de forma anónima
  2. Usar la búsqueda avanzada
  3. Usar operadores de precisión
  4. Usar los filtros
  5. Usar la búsqueda textual
  6. Eliminar la información personal
  7. Eliminar las preferencias de anuncios
  8. Eliminar el historial del navegador
  9. Vaciar la memoria caché
  10. Diversificar los recursos de información

Unas sencillas pautas que también pueden ser utilizadas por los usuarios en general.

5. Limitaciones en las búsquedas: la búsqueda semántica en Google

Conocidos de sobras son los problemas relacionados con la búsqueda de palabras clave en texto libre. De hecho, la propuesta de la Web Semántica tiene el objetivo de superar las ambigüedades de la búsqueda con palabras clave, permitiendo una recuperación “inteligente” de la información en base al significado de su contenido.

Mientras el proyecto global de la Web Semántica se desarrolla, Google, en su afán de proporcionar resultados de calidad a los usuarios, está desarrollando aplicaciones semánticas.

Por ejemplo, ha incorporado en los resultados de búsquedas relacionadas con medios de comunicación nuevos “snippets”: si buscamos por el nombre de algún periódico, nos mostrará también los últimos titulares que el mismo ha publicado.

Y lo mismo sucede con otro tipo de búsquedas, como las relacionadas con vuelos, cartelera del cine, maps…

Google, en su página de ayuda, ofrece a los propietarios de sitios web unas pautas básicas de creación de “fragmentos enriquecidos” o “rich snippets” para agregar información semántica a las páginas de resultados

Cognitivos

Malos hábitos intelectuales: ausencia de “lectura profunda” y síndrome de la delegación en memoria externa

Hace ya más de tres años que the Athlantic publicó el artículo de Nicholas Carr Is Google making us stupid? Carr desarrollaría posteriormente los contenidos del artículo en su libro Superficiales, y desde entonces la pregunta sobre los efectos que el uso de Internet pueda estar teniendo sobre nuestro cerebro sigue dando que hablar. Recordemos brevemente el argumento de Carr:

El cerebro presenta una asombrosa plasticidad: cambia con la experiencia, con los estímulos que recibe cuando nos relacionamos con el ambiente. Las vías neuronales se “recablean”, siguiendo el principio de “las neuronas que se disparan unidas, permanecen unidas”. Así, se pueden crear nuevas vías neuronales a costa de perder determinadas otras. Según Carr, Internet puede estar haciendo eso precisamente: recablear nuestro cerebro, al potenciar las vías asociadas con las respuestas rápidas y la resolución de problemas a costa de las relacionadas con el pensamiento profundo. Nos volvemos más superficiales: nuestra concentración se ve afectada, y en consecuencia disminuye nuestra capacidad de leer profundamente. No sólo eso. Además Internet, con su constante flujo de información, sobrecarga la capacidad de nuestra memoria de trabajo, con lo que nuestros procesos de aprendizaje se ven comprometidos. De nuevo, se favorece el desarrollo de un pensamiento superficial, dada la imposibilidad de asimilar conceptos complejos a un nivel más profundo de memoria.

Aunque atrayente y bien organizado, el argumento de Carr supone una duda razonable sobre los peligros del uso de Internet, pero de momento no parece que pase de eso. Jim Holt, en su reseña de Superficiales en London Review of Books, realiza un gran trabajo de síntesis en el que muestra cuáles son los principales problemas de las ideas de Carr. Brevemente:

En primer lugar, como comenta el psicólogo Steven Pinker, aún suponiendo los cambios que puedan tener lugar en el cerebro debido al uso de Internet, nuestras capacidades básicas pueden permanecer inalterables, ya que es más que probable que la arquitectura del cerebro se conserve a pesar de la experiencia: plasticidad sí, pero hasta cierto punto.

En segundo lugar, el estudio más interesante que Carr utiliza para apoyar el argumento de los peligros de la neuroplasticidad fue el llevado a cabo por Gary Small, quien mostró que tan sólo después de cinco días de uso de Internet, usuarios novatos desarrollaban los mismos patrones de actividad cerebral que usuarios veteranos. No obstante, Small no encontró diferencias significativas en la actividad cerebral entre ambos grupos cuando les hizo leer un texto off-line.

En tercer lugar, los estudios sobre el efecto de la memoria de trabajo llegan a conclusiones equívocas: mientras que algunos muestran que disminuye, otros muestran justo lo contrario. Además, no parece que haya ningún estudio que muestre que Internet degrada la habilidad para aprender de un libro.

No obstante, el mejor contraargumento para la obra de Carr es el caso del sistema educativo finlandés. Finlandia es uno de los países con mayor tasa de penetración de Internet, con unos altos índices de uso y, al mismo tiempo, es un país con unos altísimos niveles de comprensión lectora (como muestra el último informa PISA). El caso es especialmente notable si tenemos en cuenta, por ejemplo, que en 2002 los jóvenes usuarios de Internet de este país fueron catalogados como heavy users en un estudio comparativo. El por qué de este fenómeno podría estar relacionado con una interpretación del llamado síndrome de la delegación en memoria externa.

Según este síndrome, los usuarios pasarían a confiar en los buscadores como Google en lo que a memoria se refiere: ¿para qué memorizar nada, si puedo volverlo a encontrar en Google? Sobre el papel, esto apoya las ideas de Carr: un pensamiento superficial que produce ideas superficiales por falta de una evaluación profunda de la información. No obstante, como Jonah Lehrer comenta en su blog Frontal Cortex, delegar en memorias externas no tiene por qué ser pernicioso. En sus propias palabras:

We save hard drive space for what matters, while at the same time improving the accuracy of recall.

Ese “lo que importa” podría ser la clave. La educación en Finlandia no sólo favorece el uso de las nuevas tecnologías: el pensamiento crítico también juega un papel relevante. Sin esa dimensión, sin la capacidad de pensar sobre cómo pensamos, y sin la capacidad de evaluar la información que nos ofrece Google, es mucho más fácil caer en el lado oscuro del uso de las nuevas tecnologías.


Elaborado con la participación de Irene BlancoRafael Ibáñez, Evelio Martínez, Juan José Prieto y Víctor Villapalos.

Biblogtecarios

BibliogTecarios, y BiblogTecarias, es un espacio web colaborativo que busca compartir noticias y opiniones sobre temas de interés para los profesionales del mundo de la Información y la Documentación. Es un proyecto que participa de la filosofía del "crowdsourcing": el aprovechamiento de la inteligencia colectiva. De esta manera, podréis encontrar contenidos sobre los diferentes campos de la Biblioteconomía y la Documentación, tratados desde los diferentes puntos de vista de las personas que conforman el proyecto.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *