Algoritmos para la investigación científica

fractal-1938690_640-2Hace unos días saltó la noticia de que dos investigadores estadounidenses habían hallado, utilizando un software diseñado para detectar el plagio académico, una obra en la que posiblemente se hubiera inspirado Shakespeare para escribir once obras. Otros académicos trabajan en proyectos de minería de datos para identificar los patrones de escritura que caraterizan al autor para ahondar en su comprensión y para establecer su influencia en otros autores.

En otro estudio investigadores de las universidades de Chicago e Illinois utilizaron un algoritmo para estudiar 104.000 obras de ficción escritas entre 1780 y 2007. El algoritmo identificaba tanto el género de los personajes como de los autores y para sorpresa de los académicos en vez de demostrar un incremento en la proporción personajes y autoras ha puesto en evidencia un declive en su representación numérica. Además el análisis del vocabulario asignado a cada género se descubrió que en las novelas de principios del siglo XIX los hombres tenían “casas” y “países” mientras que las mujeres tenían “habitaciones”, “salas privadas” o “apartamentos”. Sin embargo, a finales del siglo XX el término “casa” se usaba más en relación con las mujeres. Vocablos tales como “lágrimas”, “corazón” y “suspiros ” estaban asociados más a mujeres en el siglo XIX.

Por otro lado, unos estadounidenses han diseñado un algoritmo que permite determinar qué tuits han sido enviados bajo la influencia del alcohol al analizar el uso de palabras relacionadas con la acción de beber. Otro estudio analiza los prejuicios o sesgos que llevan implícitos ciertas palabras.

Todo esto demuestra el creciente interés por el análisis y la explotación de grandes cantidades de datos textuales disponibles tanto en las redes sociales como en otras fuentes más tradicionales. En función del tamaño de la información y de las necesidades e intereses perseguidos por los analistas se diseñan algoritmos específicos para el conteo típico de palabras o frecuencias de aparición de un término o analizar el vocabulario de un texto con el fin de determinar sus cargas emocionales, por ejemplo.

La estilometría es una metodología estadística que analiza textos a partir de las palabras más frecuentes (Most Frequent Words o MFW). Cada autor tiene unas tendencias características al escribir: determinadas estructuras o interjecciones; adjetivos o adverbios favoritos, nexos para unir oraciones, etc. Esto conformaría un patrón único que identificaría univocamente a un autor. La forma y el lugar en que se emplean las palabras identifican la huella característica de un autor, que se puede utilizar para establecer la autoría del texto o para comparar con otros autores o con otras épocas.

Así expertos de la Escuela de Ciencias Computacionales Blavatnik, de la Universidad de Tel Aviv (TAU) en Israel han afirmado que los cinco primeros libros de la Biblia o Pentateuco o Torah atribuidos al patriarca hebreo Moisés fueron redactados en realidad por diversos autores. Para ello han utilizado un algoritmo computacional que reconoce indicios lingüísticos  –como la preferencia por ciertas palabras o la diferencia en la elección de sinónimos-. Para probar la validez del método, los científicos mezclaron aleatoriamente pasajes de dos libros del Antiguo Testamento y pidieron al ordenador que los separase. Mediante la búsqueda y categorización de los capítulos en función de las preferencias en el uso de sinónimos así como en la elección de palabras comunes, el programa informático fue capaz de separar ambos pasajes con una exactitud del 99%.

Inma Herrero

Documentalista, lectora voraz, curiosa empedernida. Intento aprender algo nuevo cada día y me encantan los retos. Mis áreas de interés crecen porque no hay nada que me guste más que el mundo en el que habito.

Un comentario a “Algoritmos para la investigación científica”

  1. Interesante artículo. En referencia a la aplicación de estudios estadísticos y mediante algoritmos en el ámbito de las letras: es ciertamente fascinante, pero yo me pregunto: ¿para qué quieren estudiarlo? ¿Es el fin último únicamente académico? De alguna manera, me temo que no, y que la robótica y la automatización aquí también los fines últimos. Ahora, estas herramientas usadas adecuadamente, a muchos descubrimientos pueden llevar. Saludos!

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *