PID, Identificadores persistentes de obras en formato digital

Desde que a finales de la década de los años 60 del pasado siglo se puso en marcha ARPANET [Advanced Research Projects Agency Network] como medio de comunicación entre diferentes instituciones estatales y académicas norteamericanas, en la protohistoria de Internet, se observó la conveniencia de identificar los nacientes objetos digitales de forma unívoca. La temprana implantación del modelo de protocolos TCP/IP y, sobre todo, la liberalización de la tecnología de la World Wide Web a comienzos de los 90, no hicieron sino aumentar esa necesidad, lo que impulsó la creacion inmediata de los primeros identificadores.

Identificadores uniformes

La enorme expansión del ámbito digital ha hecho precisa la creación de instrumentos destinados a facilitar el manejo de los objetos digitales:

  • URL, Uniform Resource Locator [Localizador de Recursos Uniforme] no es más que una dirección, unas coordenadas que apuntan una localización, independientemente de los recursos que en ella se encuentran en cada momento. Es el caso de las páginas web, como http://www.bne.es, cuyo contenido es por definición variable.
  • URN, Uniform Resource Name [Nombre de Recurso Uniforme] identifica un recurso, pero no indica exactamente dónde se encuentra ese objeto, por lo que no implica su disponibilidad. Lo interesante de URN es que puede asumir los identificadores bibliográficos preexistentes tales como ISSN (International Standard Serial Number) para publicaciones seriadas o ISBN (International Standard Books Number) para libros. Así, urn:isbn:978-84-9029-855-8 identifica la edición en formato EPUB del libro Plan social media y community manager de Julián Marquina.
  • URI, Uniform Resource Identifier [Identificador de Recurso Uniforme] puede ser tanto un URL como un URN o una combinación de ambos que identifica un recurso de forma unívoca en un lugar determinado, además de permitir combinación de la información jerárquica que conforma la ruta con otra de estructura no jerárquica para lanzar una solicitud o consulta (que se indica mediante el carácter ‘?’) para identificar el objeto en la ruta especificada, como sucede en los catálogos de las bibliotecas —véase https://biblioteca.nebrija.es/cgi-bin/opac/?TITN=73066 , por ejemplo— o incluso identificar una parte o fragmento del mismo (lo que se indica mediante el carácter ‘#’), como ocurre con https://es.wikipedia.org/wiki/Burgos#Equipamientos_culturales. El URI es  la  forma  normalizada  de  identificar  el  destino  de  un hiperenlace  para herramientas tales como los navegadores web.

Colocando señal de calle cortada y desvío, función que realizan los identificadores persistentes

Identificadores persistentes

Si la uniformidad de estos instrumentos ha facilitado el uso de los recursos digitales, se han mostrado ineficaces ante la enorme volatilidad del ámbito digital, que necesita asegurar al mismo tiempo la localización y el acceso permanentes a los recursos. Con el propósito de resolver el problema originado por los cambios de ubicación o de nombre de los objetos digitales nació el Persistent Identifier [PID, Identificador Persistente], construido e implementado de forma que el recurso identificado continúe siendo el mismo independientemente de la ubicación de su representación. Por eso el PID supone un gran avance para el manejo de objetos digitales. De alguna manera, puede decirse que un PID es un URN que, además de nombrarlo, nos lleva a las distintas localizaciones de sus manifestaciones, independientemente de que éstas varíen en el tiempo o se encuentren simultáneamente en diferentes lugares, facilitando además la interoperabilidad, el intercambio de objetos digitales  entre sistemas heterogéneos.

Entre las características de un sistema de identificadores persistentes cabe mencionar las siguientes:

  • Unicidad, por la que el esquema de nombres deberá ser único en el contexto de los recursos digitales de que se trate, incluso desde una perspectiva global.
  • Compromiso con la persistencia, es decir, con el mantenimiento de la asociación del recurso identificado con su ubicación.
  • Simplicidad, lo hará que el sistema sea fácil de comprender y aplicar, prestándose a las citas o referencias breves y sencillas.

Veamos algunos de los localizadores persistentes más conocidos.

PURL

PURL [Persistent Uniform Resource Locator, Localizador Persistente Uniforme de Recursos] es un tipo de localizador uniforme de recursos URL que se suele usar para referenciar desde una única dirección un determinado recurso que cambia de dirección a lo largo del tiempo. Nacida en 1995 por iniciativa de Internet Archive y gestionada por OCLC [Online Computer Library Center], PURL es una dirección persistente en la web que, en vez de apuntar directamente a un recurso en Internet, apunta a un servicio intermediario de resolución que dirige el cliente al URL vigente del recurso, siempre que la vinculación de ésta con la dirección persistente se haya actualizado. De este modo, el PURL, que no cambia nunca, redirecciona al recurso deseado, proporcionando continuidad a las referencias de los recursos de red aunque migren de servidor o repositorio.

La independencia entre los servicios PURL y los editores de información facilita la existencia de diferentes resolvedores, si bien algunas entidades mantienen el suyo propio para garantizar el acceso a su documentación digital. Es el caso de la U.S. Government Printing Office, que articuló desde muy pronto su Federal Depository Library Program incorporando su propio servicio PURL al Catalog of U.S. Government Publications. Mediante este instrumento, por ejemplo, la versión en PDF del informe Toward a national program for library and information services : goals for action publicado por National Commission on Libraries and Information Science en 1975 que se alojó en UFDC [The University of Florida Digital Collections] con el URI http://ufdc.ufl.edu/AA00038255/00001?search=aa00038255, es accesible desde los servidores gubernamentales norteamericanos a través del PURL https://purl.fdlp.gov/GPO/gpo119431.

Handle

Handle es un sistema de identificación y recuperación de recursos de información y objetos digitales diseñado por la norteamericana CNRI [Corporation for National Research Initiatives] con la financiación de DARPA [Defense Advanced Research Projects Agency] entre 1992 y 1996. El Handle System se implementó por primera vez en otoño de 1994, y fue gestionado directamente por CNRI hasta diciembre de 2015, cuando se introdujo un nuevo modo de operación por el que la DONA Foundation administra el Registro de Global del sistema y acredita administradores primarios para Handle, entre los que se encuentra la propia CNRI.

Basado en la arquitectura de objetos digitales [DOA, Digital Object Architecture], especifica un modelo de datos, tres componentes principales —un repositorio de objetos digitales, un registro de objetos digitales y un sistema de identificación y resolución— y dos protocolos:

  • DOIP [Digital Object Interface Protocol, Protocolo de interfaz de objetos digitales], un protocolo conceptual que rige la interactuación entre las aplicaciones de software y los objetos digitales o los sistemas de información que los gestionan.
  • IRP [Identifier/Resolution Protocol, Protocolo de identificación/resolución], un protocolo de resolución rápida para crear, actualizar, eliminar y resolver identificadores asociados con un registro, cuya primera versión fue descrita en las especificaciones RFC 3650, 3651 y 3652 recogidos por IETF [Internet Engineering Task Force].

El sistema se articula mediante una colección de servidores proxy que entienden estos protocolos, entre los que se encuentra el de la CNRI en http://hdl.handle.net/. Para poder localizar un documento con este sistema escribimos en la barra del navegador la dirección del proxy seguida del código correspondiente al objeto, compuesto por el naming authority o prefijo, que identifica al productor (universidad, editorial, revista, etc.), y el unique local name o sufijo, que identifica cada documento u obra digital (artículo, tesis, libro, etc.). De esta manera, por ejemplo, la dirección http://hdl.handle.net/10421/394 nos permite acceder a las  Pautas para el servicio de acceso a Internet en las bibliotecas públicas.

Este sistema está muy extendido en el mundo académico universitario para la gestión de los metadatos de los repositorios científicos e institucionales.

DOI

El sistema DOI [Digital Object Identifier, Identificador de Objeto Digital] proporciona un enlace permanente en forma de código alfanumérico que identifica de forma única un contenido u objeto electrónico y gestiona los metadatos del documento. Está muy extendido en el mundo comercial, entre editores y distribuidores de revistas científicas como el  Joint Information Systems Committee [JISC], por cuanto vincula a los clientes con los proveedores de contenidos y facilita el comercio electrónico en el entorno digital. Lógicamente, también sirve de enlace seguro y único entre los usuarios y las bibliotecas (y otros suministradores de información, claro está). El sistema fue presentado por la  Association of American Publishers [AAP], la International Publishers Association [IPA] y la International Association of Scientific, Technical & Medical Publishers [STM] en 1997 y está gestionado por IDF [International DOI Foundation] —que es también uno de los administradores primarios de Handle—, con una federación de agencias de registro, de las que desde 2003 meDRA [Multilingual European DOI Registration Agency] es la agencia europea.

Respaldado por el estándar ISO 26324:2012, DOI se estructura —de manera similar a Handle, del que se puede considerar una implementación concreta— en dos partes separadas por una barra inclinada, a todo lo cual le antecede el código de esquema “doi:”, con lo que el conjunto cumple con la especificación RFC 3986 para la sintaxis URI, igual que ocurre con “ftp:” o “http:”:

  • Publisher ID o prefijo, compuesto por el código de directorio —cuyo valor fijo en la actualidad es 10— y el número que le asigna la Agencia DOI al productor, separados por un punto; e
  • Item ID o sufijo, asignado a cada objeto digital y materializado en una cadena alfanumérica única e inconfundible, pudiendo estar constituido por un código normalizado ya existente, como ISSN.

De esta manera, por ejemplo, doi:10.2307/1321160 se refiere y apunta al artículo y clásico de Warren y Brandeis ‘The Right to Privacy’, publicado el 15 de diciembre de 1890 en las páginas 193-220 de número 5 del volumen 4 de Harvard Law Review, actualmente accesible en la plataforma JSTOR.

Además, el sistema DOI impulsa el ISBN-A —conocido como actionable ISBN—, un servicio por el que un ISBN existente se expresa en sintaxis DOI. Para ello, el PublisherID se construye con el código de directorio “10.” seguido del elemento prefijo de ISBN  —978 o 979— y, tras un punto, el elemento grupo de registro —que identifica a un determinado país, con un máximo de 5 dígitos— y el elemento titular —hasta con siete dígitos, identifica el sello editorial— del ISBN; una barra inclinada separa el último de estos elementos del Item ID, conjunto de hasta siete dígitos compuesto a su vez por el elemento de publicación y el dígito de control, que en esta caso carece de tal función.

Los PID en las referencias documentales

A la hora de incorporar estos PID en las referencias bibliográficas, la mayoría de los estándares los sitúan hacia el final de la cita:

ESTADOS UNIDOS. National Commision on Libraries and Information Science, 1975. Toward a national program for library and information services : goals for action. Whasington: U.S. Government Printing Office. [Consulta: 5 enero 2010]. Disponible en línea en: https://purl.fdlp.gov/GPO/gpo119431

JORNADAS DE COOPERACIÓN BIBLIOTECARIA (España). Grupo de Trabajo de Bases Tecnológicas para la Gestión y Cooperación Bibliotecaria, 2006. Pautas para el servicio de acceso a Internet en las bibliotecas públicas. Madrid: Ministerio de Cultura, Subdirección General de Coordinación Bibliotecaria. [Consulta: 5 enero 2020]. Disponible en línea en: http://hdl.handle.net/10421/394

WARREN, S. D.; BRANDEIS, L. D., 1890. The Right to Privacy. Harvard Law Review, 4(5), 193-220. [Consulta: 5 enero 2020]. doi:10.2307/1321160

Por otro lado, como ya sabemos, el formato MARC21 contempla diferentes etiquetas para distintos números y códigos identificadores: 017 para el número de depósito legal, 020 para ISBN, 022 para ISSN, etc. Para otros identificadores normalizados cuenta con la etiqueta 024, que será el lugar donde deberemos incorporar identificadores como el DOI de un libro o artículo:

T024 ## $a doi:10.2307/1321160

En el caso de identificadores que incorporan a su sintaxis la dirección proxy de los servidores que los resuelven, actuando directamente como hiperenlaces, deberemos recurrir a la etiqueta 856 de Localización y acceso electrónicos:

T856 40 $u https://purl.fdlp.gov/GPO/gpo119431

T856 40 $u http://hdl.handle.net/10421/394

También es posible incorporar el DOI a esta etiqueta, aunque en este caso debe agregarse la dirección del servidor proxy o directorio DOI para proporcionarle las propiedades hiperenlazables[1]:

T856 40 $u https://doi.org/10.2307/132116

Como podemos observar, los PID enriquecen enormemente las referencias documentales y ofrecen múltiples posibilidades. Con ellos los bibliotecarios tenemos una gran oportunidad para proporcionar valor añadido a nuestros productos.

[1] Aunque todavía encontraremos muchos con la cadena http://dx.doi.org, en la actualidad se prefiere https://doi.org.

Rafael Ibáñez Hernández

Colaborador en BiblogTecarios Bibliotecario en la Biblioteca Municipal. Curioso de las nuevas tecnologías (aunque ya no sean tan nuevas), pero empeñado en mantener los pies sobre el suelo.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *