Formato SKOS para intercambio de Tesauros - BiblogTecarios

Formato SKOS para intercambio de Tesauros

Cuando se trata de intercambiar entre personas o entidades información de referencias bibliográficas existe el formato RIS, para el intercambio de información de archivos existe el formato Open Archival Information System (OAIS), sin embargo quizá sea menos conocido o esté menos extendido el formato existente para poder intercambiar tesauros, el formato SKOS.

Tesauros

Como es bien sabido, un tesauro es una “lista de palabras o términos controlados empleados para representar conceptos”. Vamos a recordar la descripción tradicional para poder compararla con el formato SKOS.

Esa lista de términos puede tener distintos tipos de relaciones entre ellos:

Unos términos representan un concepto más general mientras que otros representan conceptos más específicos (Cítricos – Naranja, Vehículos –  Avión, ..). Esa relación jerárquica puede representarse gráficamente sangrando los elementos de la lista, de forma que podría por ejemplo expresarse:

Archivos
   Archivos gubernamentales
        Archivos del gobierno local

Aunque para expresarlo formalmente se ha utilizado tradicionalmente los operadores  BT (Broad Term) o TG (Término Genérico) y NT (Narrow Term) o TE (Término Específico). Esto permite además crear estructuras con poli-jerarquía, es decir que un término tenga dos padres, algo que una representación gráfica no permitiría expresar adecuadamente.

Si se revisa el tesauro de la Unesco, el caso anterior se encontraría expresado como:

Archivos gubernamentales
TG Archivos
TE Archivos del gobierno local

Además de la relación de jerarquía,  otra relación habitual entre términos es la de recomendación de términos a usar, es decir término preferente o “más correcto”, expresado como UF (Used For) o UP (Usado Por) y USE o EMP. Por ejemplo:

Archivos gubernamentales   
 UP Archivos oficiales
 UP Archivos estatales

Existe además otra relación habitual, los “términos relacionados”, es decir, conceptos que tiene relación entre ellos, como “Archivos” y “Archivero” o “Archivos” y “Gestión de Documentos”, que se expresan como TR (Término relacionado) o RT (Related Term) . Por ejemplo:

Archivos gubernamentales  
TR Archivos públicos

Adicionalmente, en un archivo multilingüe existirían las “equivalencias” o relaciones entre los diferentes términos en los distintos idiomas. Siguiendo con el ejemplo:

Archivos gubernamentales
Inglés:Government archives
Francés: Archives gouvernementales
Ruso: Государственные архивы

Tras este repaso, puede compararse con el formato SKOS.

 

Formato SKOS

SKOS es una recomendación para describir tesauros (y en general diccionarios y listas controladas y estructuradas) del consorcio W3C , entidad responsable de definir la normalización y asegurar la interoperabilidad en el mundo de Internet. Documentación exhaustiva sobre la recomendación SKOS, incluyendo ejemplos, cursos y referencias, puede encontrarse en la sección correspondiente de la web de W3C. Este estándar se basa a su vez en el estándar RDF para describir recursos y modelas información. Sigue por tanto el modelo de RDF que se basa en XML  y que de forma simplificada, suele expresar con sintaxis de XML ternas de Elemento1-relación-Elemento2, es decir enunciar dos elementos y el tipo de relación que hay entre ellos.

Como puede verse, el modelo es el mismo utilizado tradicionalmente en los tesauros, simplemente se normaliza y formaliza, de forma que se eviten ambigüedades y que sea inteligible y procesable por programas y sistemas informáticos, simplemente cambia la forma de expresarlo.

Así por ejemplo, consultando la excelente versión publicada por la Universidad de Murcia en formato SKOS del Tesauro de la Unesco  podemos ver que el concepto de Archivos gubernamentales  se expresa como

<skos:Concept rdf:about="http://skos.um.es/unescothes/C01710">
  <skos:prefLabel xml:lang="es">Archivos gubernamentales</skos:prefLabel>
  <skos:prefLabel xml:lang="en">Government archives</skos:prefLabel>
  <skos:prefLabel xml:lang="fr">Archives gouvernementales</skos:prefLabel>
  <skos:prefLabel xml:lang="ru">Государственные архивы</skos:prefLabel>

En este caso el concepto (skos:Concept) no se identifica por su nombre en un idioma concreto sino por un código, de forma que todos los idiomas son “iguales”. Esto evita además el riesgo de confusión si un término pudiera repetirse en distintas ramas o idiomas. El identificador (C01710), incluyendo dentro de qué tesauro (http://skos.um.es/unescothes/) está para evitar ambigüedades, es único y se acompaña de sus denominaciones/descripciones recomendadas (skos:prefLabel = Preferred Label) en los distintos idiomas (xml:lang=”es”) .

La jerarquía se expresa de la forma siguiente:

<skos:broader rdf:resource="http://skos.um.es/unescothes/C00232"/>

Es decir el término genérico (skos:broader  -> broad = ancho, extenso, general) de C01710 es el recurso (rdf:resource) o concepto C00232. Si acudiéramos a él encontraríamos:

<skos:Concept rdf:about="http://skos.um.es/unescothes/C00232">
  <skos:prefLabel xml:lang="en">Archives</skos:prefLabel>
  <skos:prefLabel xml:lang="fr">Archives</skos:prefLabel>
  <skos:prefLabel xml:lang="es">Archivos</skos:prefLabel>
  <skos:prefLabel xml:lang="ru">Архивы</skos:prefLabel>

Y el término específico se indica:

<skos:narrower rdf:resource="http://skos.um.es/unescothes/C02333"/>

Es decir el término específico  (skos: narrower -> narrow = estrecho, restringido ) de C01710 es el término C02333. Si acudiéramos a él encontraríamos:

<skos:Concept rdf:about="http://skos.um.es/unescothes/C02333">
  <skos:prefLabel xml:lang="en">Local government archives</skos:prefLabel>
  <skos:prefLabel xml:lang="fr">Archives de l'administration locale</skos:prefLabel>
  <skos:prefLabel xml:lang="es">Archivos del gobierno local</skos:prefLabel>
  <skos:prefLabel xml:lang="ru">Местные государственные архивы</skos:prefLabel>

Las relaciones se indican:

<skos:related rdf:resource="http://skos.um.es/unescothes/C03204"/>

Es decir el término relacionado  (skos: related -> related = relacionado ) de C01710 es el término C03204. Si acudiéramos a él encontraríamos:

<skos:Concept rdf:about="http://skos.um.es/unescothes/C03204">
  <skos:prefLabel xml:lang="en">Public archives</skos:prefLabel>
  <skos:prefLabel xml:lang="fr">Archives publiques</skos:prefLabel>
  <skos:prefLabel xml:lang="es">Archivos públicos</skos:prefLabel>
  <skos:prefLabel xml:lang="ru">Публичные архивы</skos:prefLabel>

Por último, los términos “alternativos” (skos:altLabel) o “menos recomendables”  se expresan:

<skos:altLabel xml:lang="es">Archivos estatales</skos:altLabel>
<skos:altLabel xml:lang="es">Archivos oficiales</skos:altLabel>
<skos:altLabel xml:lang="en">Official archives</skos:altLabel>
<skos:altLabel xml:lang="fr">Archives officielles</skos:altLabel>
<skos:altLabel xml:lang="ru">Дипломатические архивы</skos:altLabel>

En este caso, hay que destacar que NO se referencia un código de concepto como en los anteriores, ya que no son conceptos distintos sino denominaciones alternativas o menos correctas de este mismo concepto, sino que se incluyen las distintas variantes de diversos idiomas.

El concepto completo quedaría:

<skos:Concept rdf:about="http://skos.um.es/unescothes/C01710">
  <skos:prefLabel xml:lang="en">Government archives</skos:prefLabel>
  <skos:prefLabel xml:lang="fr">Archives gouvernementales</skos:prefLabel>
  <skos:prefLabel xml:lang="es">Archivos gubernamentales</skos:prefLabel>
  <skos:prefLabel xml:lang="ru">Государственные архивы</skos:prefLabel>
  <uneskos:memberOf rdf:resource="http://skos.um.es/unescothes/COL525"/>
  <skos:inScheme rdf:resource="http://skos.um.es/unescothes/CS000"/>
  <skos:altLabel xml:lang="en">Diplomatic archives</skos:altLabel>
  <skos:altLabel xml:lang="en">Military archives</skos:altLabel>
  <skos:altLabel xml:lang="en">Official archives</skos:altLabel>
  <skos:altLabel xml:lang="es">Archivos diplomáticos</skos:altLabel>
  <skos:altLabel xml:lang="es">Archivos estatales</skos:altLabel>
  <skos:altLabel xml:lang="es">Archivos militares</skos:altLabel>
  <skos:altLabel xml:lang="es">Archivos oficiales</skos:altLabel>
  <skos:altLabel xml:lang="fr">Archives diplomatiques</skos:altLabel>
  <skos:altLabel xml:lang="fr">Archives militaires</skos:altLabel>
  <skos:altLabel xml:lang="fr">Archives officielles</skos:altLabel>
  <skos:altLabel xml:lang="ru">Дипломатические архивы</skos:altLabel>
  <skos:altLabel xml:lang="ru">Военные архивы</skos:altLabel>
  <skos:altLabel xml:lang="ru">Официальные архивы</skos:altLabel>
  <skos:broader rdf:resource="http://skos.um.es/unescothes/C00232"/>
  <skos:narrower rdf:resource="http://skos.um.es/unescothes/C02333"/>
  <skos:related rdf:resource="http://skos.um.es/unescothes/C03204"/>
</skos:Concept>

Gráfico SKOS

Gráfico SKOS

Un archivo SKOS completo contendrá cientos (o miles) de entradas como la anterior, describiendo cada concepto y las relaciones entre ellos. Los programas, en el momento de exportar el tesauro, recorrerán toda su estructura interna y la volcarán a un fichero de texto (generalmente con extensión rdf) conteniendo todas las relaciones. En el momento de importar en un sistema, este abrirá el fichero de texto, analizará tooda la información y la recreará en su modelo interno.

Hay muchos otros elementos dentro de SKOS:

Como los microtesauros:

<uneskos:hasMicroThesaurus rdf:resource="http://skos.um.es/unescothes/COL001"/>

El título del tesauro:

<dcterms:title xml:lang="en">UNESCO Thesaurus</dcterms:title>

Quien lo publica:

<dcterms:publisher>Juan Antonio Pastor Sánchez</dcterms:publisher>

Notas de alcance:

<skos:scopeNote xml:lang="es">Lista de nuevas adquisiciones publicada regularmente.</skos:scopeNote>

y un largo etcétera.

(Como puede observarse, siempre que aparece un literal (que no sea un nombre propio o fecha) se incluye el idioma de ese literal).

Estandarización

El formato no es demasiado legible para las personas, pero asegura el intercambio correcto entre sistemas eliminando ambigüedades y permitiendo que se comparta tesauros. No es un formato para almacenar el tesauro (cada sistema puede utilizar el suyo de forma que sea más eficaz, o rápido o para procesar solo los elementos que necesita) sino intercambiar.

No obstante, como todo estándar, está sujeto a interpretaciones, por lo que hay matices en cuanto a la forma de representar algunos elementos (vease http://lab.usgin.org/book/usgin-skos-vocabulary-service-profile-home/examples-skos-concept-encoding) y también en cuanto a las funciones que soportan los diferentes sistemas (ver https://www.w3.org/2006/07/SWD/SKOS/reference/20090315/implementation.html). Por ejemplo no todos soportan scopeNote.

En cualquier caso, con sus limitaciones, es un gran avance para poder difundir e intercambiar información y un requerimiento muy importante a la hora de elegir una herramienta de gestión de tesauros.

Herramientas:

Hay que distinguir entre herramientas o webs que permitan editar, mostrar tesauros y navegar por ellos de las herramientas que permitan exportarlos o importarlos en formato SKOS. Lo primero nos permitirá que los usuarios o público puedan acceder a ellos. Lo segundo nos permitirá intercambiar tesauros con otras instituciones o importar tesauros públicos o de otras instituciones (como el de la Unesco) para su uso interno.

Incluyo una lista (no exhaustiva) de diversas herramientas disponibles para manejar tesauros en formato SKOS. Hay que destacar que no todas incluyen todas las funciones (por ejemplo alguna solo importa y visualiza pero no permite editar)

  • Unilexicon Una herramienta OpenSource sobre Ubuntu que permite editar tesauros e intercambiar en formato SKOS.
  • SKOSPlay  Una herramienta OpenSource para mostrar e imprimir tesauros SKOS
  • Skosmos Herramienta OpenSource basada en php para navegar y publicar tesauros
  • OpenProdoc Gestor documental OpenSource que incluye integrada la edición e importación/exportación de tesauros.
  • PoolParty Servicio comercial para editar y publicar tesauros
  • TemaTres Herramienta Web OpenSource para edición y gestión de tesauros y otras estructuras de información similares.
  • iQVoc Herramienta web OpenSource para edición y publicación de tesauros incluyendo un flujo de edición

 

The following two tabs change content below.

Joaquín Hierro

Tras muchos años trabajando en software de gestión documental de diverso tipo, actualmente defino estrategia y elijo productos de gestión documental para una multinacional española. Mi colaboración en Biblogtecarios se orienta a analizar y difundir tecnologías y soluciones disponibles para un documentalista del siglo XXI.

Latest posts by Joaquín Hierro (see all)

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *