Formatos de codificación

codigos-htmlVarias tecnologías aplicadas han expandido recientemente las posibilidades y capacidades de los metadatos, aumentando su riqueza en la descripción y facilitando el acceso a los documentos. Estas herramientas suministran una mayor semántica y estructuración de los documentos, permitiendo más opciones de trabajo con los datos y los metadatos.

La interoperabilidad junto con términos como metadatos se utiliza como aspectos cotidianos a nivel bibliotecológico cuando se habla del manejo de la información y la codificación de la misma.

La base para codificar información electrónica se basa en los metadatos. Estos tratan de representar la información electrónica tan dispersa y representan a la descripción bibliográfica de recursos electrónicos.

En Internet los metadatos son datos acerca de recursos informativos asociable en la red. No obstante que el concepto metadatos y su significado ha sido atribuido a Jack Mayers (1960), se puede decir que los bibliotecarios han creado metadatos durante siglos, pero el nombre es nuevo. Los registros bibliográficos construidos utilizando clasificaciones y reglas de catalogación pueden verse como metadatos.

Así una definición de metadatos nos dice que: «es un conjunto de elementos que se utilizan para ayudar a la identificación, descripción y localización de recursos electrónicos por medio de una representación de la descripción bibliográfica de los mismos».
Otra definición hace referencia a que los metadatos son datos acerca de datos , siendo esta una definición muy breve, Robin Wendler menciona que es la información necesaria para identificar, localizar manejar y accesar a un recurso electrónico. Siendo estas definiciones validas y complementarias una de la otra.
Existe otra definición que no dice que los metadatos “son un conjunto de elementos que se utilizan para ayudar a la identificación, descripción y localización de los recursos electrónicos por medio de una representación de la descripción bibliográfica de los mismos”.
El uso de metadatos en las bibliotecas digitales comenzó de manera incipiente a partir de que salieran a la luz algunos estándares de metadatos tales como GILS, Dublin Core, FGDC, etc. Obviamente su uso en esos inicios fue muy limitado. Duval, Hodgins, Sutton y Weibel manifiestan en un artículo los principios de acuerdo compartidos por dos importantes iniciativas de metadatos: la Dublin Core Meta-data Initiative (DCMI) y el Institute for Electrical and Electronics Engineers (IEEE) Learning Object Metadata Working Group (LOM). Este acuerdo surgió de una reunión conjunta del grupo de trabajo de metadatos en Ottawa en agosto de 2001. Los principios son los conceptos considerados comunes a todos los dominios de metadatos y que podrían servir de base en el diseño de cualquier esquema de metadatos o aplicación.
Modularidad: Debe ser alcanzable una flexibilidad en la arquitectura de metadatos Web, que permita a los diseñadores mezclar una variedad de módulos semánticos en un esquema compuesto, dentro de un fundamento sintáctico común (como XML). En una arquitectura modular de metadatos, los elementos de datos de esquemas diferentes así como los vocabularios y otros elementos constructivos pueden combinarse de una manera interoperable sintáctica y semánticamente. Pueden ensamblarse conjuntos modulares basados en esquemas de metadatos preestablecidos que incluyan la funcionalidad de cada componente y que reúnan los requisitos específicos de una determinada aplicación.
Extensibilidad: Las arquitecturas de metadatos deben acomodar la noción de un esquema base con elementos adicionales que ajusten una aplicación dada a las necesidades locales o las necesidades específicas del dominio sin comprometer excesivamente la interoperabilidad proporcionada por el esquema base. Los sistemas de los metadatos deben permitir extensiones para que puedan acomodarse a las necesidades particulares de una determinada aplicación. Algunos elementos probablemente serán comunes a la mayoría de los esquemas de metadatos (por ejemplo, el concepto de creador o identificador de un recurso de información) mientras que otros serán específicos a aplicaciones particulares o dominios.
Refinamiento: Los dominios de aplicación diferirán de acuerdo con el nivel de detalle necesario o deseable. El diseño de estándares de metadatos debería permitir a los diseñadores de esquemas el nivel de detalle apropiado a la aplicación. Poblar con metadatos las bases de datos es costoso, por lo que hay fuertes incentivos económicos para crear metadatos con el suficiente nivel de detalle para cumplir los requisitos funcionales de una aplicación, pero no más. Se consideran varios tipos de refinamientos. La adición de calificadores refinan o hacen más específico el significado de un elemento: ilustrador, autor, compositor, o escultor son ejemplos de tipos particulares de un término más general. Una segunda variedad de refinamiento involucra la especificación de esquemas particulares o conjuntos de valores para un determinado elemento. Contando con un conjunto de valores común se puede incrementarse la interoperabilidad semántica entre aplicaciones. El uso de vocabularios controlados es otra aproximación importante que mejora la precisión de las descripciones y permite aprovechar la inversión intelectual realizada por muchos dominios en la mejora del acceso por materias a los recursos. Hay centenares de tesauros específicos de dominios y sistemas de la clasificación que pueden importarse a la arquitectura de metadatos Web y considerable el esfuerzo investigador en este ámbito.
Plurilingüísmo: Es esencial adoptar arquitecturas de metadatos que respeten la diversidad lingüística y cultural. La Web alcanzará su potencial como sistema de información global, si los recursos están disponibles a los usuarios en sus idiomas nativos, en los conjuntos de caracteres apropiados, y con los metadatos apropiados a la gestión de los recursos. Los estándares tratan estos problemas a través de procesos complementarios de internacionalización (creación de estándares neutrales) y localización (adaptación de un estándar neutral a un contexto local).
La integración de las características mencionadas permite una estandarización para generar una interoperabilidad. Aplicada a la creación y uso de los metadatos, lo que permitirá hacer que los sistemas de metadatos puedan interactuar entre ellos a pasar de sus diferencias, además permitirá dar parámetros el momento de selecciona uno u otro sistema para el uso en los centros de información.
El uso de metadatos como herramienta, implica que los documentos que se quieren almacenar en la red, incluyan todos los datos necesarios para su búsqueda, localización y recuperación.Actualmente existen una serie sistemas que se han estandarizando para la edición, programación, compilación y manejo de metadatos como los son MARC21, el HTML, las variantes de contenedores XML como pueden ser MARCXML, Dublin Core, TEI, mismos que son un derivado directo del SGML y los DTD.
La primera tecnología de estructuración de información documentalizada de cierto significado fue el SGML (Estandar Generlaized Markup Lenguaje) o “Lenguaje de Marcado Generalizado Estándar. Este lenguaje fue creado con el fin de formatear y organizar la documentación legal dentro de la empresa IBM, pero posteriormente fue expandido y adaptado para ser usado en una amplia variedad de empresas como un estándar para manejar todo tipo de información y para 1986 se convirtió en una norma ISO [ISO 8879,1986]. Sin embargo SGML para este momento es una tecnología muy compleja como para ser aplicada a la naciente Internet y termina por adoptarse el HTML.
Otros grupos de persona empezaron a escribir una versión simplificada de SGML capaz de contender con las carencias de HTML de ahí surge un nuevo lenguaje llamado XML (eXtnxible Markup Lenguage) o “Lenguaje de marcado extensible” en lo sucesivo XML. HTML, no proporciona estructura alguna para las páginas Web. Además mezcla el contenido con el formato y a nivel bibliotecarios es difícil la incorporación de metadatos. Conforme el comercio electrónico y otras aplicaciones se vuelven más comunes, hay una necesidad cada vez mayor de dar estructura en las páginas web y de separar el contenido del formato. Por esta razón, el Consorcio para el desarrollo de la World Wide Web (W3C) ha desarrollado el XML.
XML está diseñado para reflejar un soporte de modularidad al nivel de definir la estructura de documentos XML, por medio de la facilidad para combinar dos esquemas para producir un tercero que cubre una estructura de documento combinada.
El Resource Description Framework (RDF) de la W3C es un formato de texto XML que soporta aplicaciones de descripción de recursos y metadatos, tales como listas de temas musicales, colecciones de fotos, y bibliografías. Por ejemplo, RDF podría permitir identificar las personas en un álbum de fotos Web usando información de una lista de contactos personales; entonces, un cliente de correo podría enviar automáticamente a esas personas un mensaje diciendo que sus fotos están en la Web. Lo mismo que HTML integró los documentos, los sistemas de menú y las aplicaciones de formularios para lanzar la Web original, RDF integra las aplicaciones y los agentes en una Web Semántica. Del mismo modo que las personas necesitan estar de acuerdo en los significados de las palabras que emplean en su comunicación, las computadoras necesitan mecanismos para acordar los significados de los términos para comunicarse efectivamente. Las descripciones formales de los términos en una cierta área (compras o manufactura, por ejemplo) se llaman ontologías, y son una parte necesaria de la Web.
Regularmente un documento XML se compone de dos partes: una definición del lenguaje y el contenido del documento en si mismo, la definición puede ser escrita usando una DTD (definición del tipo de documento) también un DTD es generalmente un archivo (o varios usados conjuntamente) que contiene la definición formal de un tipo de documento particular y define los nombres que pueden utilizarse en los elementos, dónde pueden aparecer y cómo se interrelacionan entre ellos.
Esto define ‘ítems’ que contienen texto y listas que contienen ‘ítems’. Es un lenguaje formal que permite a los procesadores analizar automáticamente un documento e identificar dónde viene cada elemento y cómo se relacionan entre ellos, para que las hojas de estilos, navegadores, visualizadores, motores de búsqueda, bases de datos, rutinas de impresión y otras aplicaciones puedan utilizarlos.
El siguiente es un ejemplo de cómo se ve un esquema de tipo elemento. Todas las declaraciones de un esquema están contenidas en un elemento de esquema.<?xml version=”1.0” ?><s:schema id=’Ejemplo de esquema’><¡- el esquema va aquí. ->

….

….

</ s:schema>

Al elegir XML como la base de un proyecto, se genera un acceso a una comunidad grande y creciente de herramientas e ingenieros experimentados en la tecnología. Optar por XML es un poco como elegir SQL para bases de datos: En este caso todavía se tiene que construir la base de datos y programas propios así como procedimientos que lo manipulen, y hay muchas herramientas disponibles dado que es un estándar abierto. XML no siempre es la mejor solución, pero siempre vale la pena considerarlo.
Y en el momento en el que se propone considerarlo es por que el desarrollo de las bibliotecas digitales actualmente tiene amplias tendencias hacia la aplicación del estándar XML instituciones como The Library of congress o W3C se encuentran desarrollando aplicaciones en XML un ejemplo de este desarrollo e implementación es el formato MARC XML bajo la modalidad XML Schema.
Este MARC-XML trata de empaquetar los documentos MARC en un estándar más flexible y comprensible que un documento MARC. En realidad cundo comenzamos a hablar sobre el proceso de la gestión documental a un nivel de tecnologías de información es casi imposible el no citar el formato MARC (Registro de Catalogación Legible por Máquina o Machine-Readable Cataloging). Los formatos MARC son estándares para la representación y comunicación de información bibliográfica y relacionada (autoridades, fondos bibliográficos, clasificación, información local, etc.) en forma legible por máquina, siendo este uno de los sistemas de metadatos más importantes, en muchos casos es la base para pasar a un lenguaje de marcado basado en XML.
Un registro MARC está compuesto de tres elementos: la estructura del registro, el etiquetado y otros designadores de contenido y el contenido de datos del registro. La estructura del registro es una implementación de ISO 2709, Information and Documentation – Format for Information Exchange. La designación de contenido es el conjunto de etiquetas y códigos que identifican y caracterizarán en adelante los elementos de datos dentro de un registro y darán soporte a la manipulación del contenido de datos.
El contenido de los elementos de datos que comprenden un registro MARC generalmente están definidos por normas externas a los formatos, tales como las reglas de catalogación, los sistemas de clasificación, tesauros de materias, listas de códigos y otras convenciones usadas por la organización que crea un registro. El contenido de ciertos elementos de datos codificados (p. e. la cabecera, y el campo 008) se define en los mismos formatos MARC.
La estructura del formato MARC consiste de tres componentes principales: la cabecera, el directorio, y los campos variables. La información que sigue resume los componentes de un registro MARC.
Dentro de los lenguajes de marcado se destacan el MARCXML, Dublin Core, TEI, MODS, METS, en su forma básica son simples esquemas o contenedores XML, solo que incrustan diversas filosofías, modos y formas del manejo de la información, sin ser los únicos dado que existe una larga lista de lenguajes de marcado.
En el caso de MARC XML utiliza en su forma básica y modo de operación el formato MARC, permite la aplicación de las reglas de catalogación en su interior, ya que uno de sus componentes básicos es el formato MARC, el cual está diseñado específicamente para estructurar y contener información según las reglas de catalogación y demás instrumentos del área bibliotecológica.
El mismo registro bibliográfico puede ser codificado de diversas maneras permitiendo la interoperación así como el uso de estándares internacionales como los son MARC XML, ISBD y MARC21.
Los registros MARC basados en registros del Núcleo de Dublín, conteniendo elementos que han sido calificados y para mostrar que han sido estructurados de acuerdo a AACR2, o tomados del LCSH o alguna otra lista estándar de autoridades de materia para bibliotecas, necesitarían muy poca o ninguna ampliación. La principal ampliación que podría ser necesaria en el registro sería la adición de campos para proporcionar información no incluida en algún otro elemento del Núcleo de Dublín.
Concluyendo, podemos decir que existe una amplia gamas de formatos de codificación de la información en algunos casos como en el de MARC es sumamente complejo, la descripción es costosa y lenta para el gran número de recursos que se describen, y por tal motivo surge la necesidad de incorporar nuevos modelos siendo una herramienta vital los lenguajes de marcado basados en la tecnología XML, con sus diversos esquemas como los citados, estos sistemas ofrecen ventajas operativas relativas las cuales mejoran aspectos como la rapidez con la que se podría describir y recuperar los recursos, aunque en algunos casos conlleva a sacrifican la calidad y el detalle de la descripción.
Aunque también existe la posibilidad de poder llevar a cabo una representación de registros MARC existentes en formato XML, de tal modo se puede llevar a cabo una traducción. Resulta evidente que las estructuras de metadatos están adquiriendo una posición preponderante en lo que se refiere a la descripción de recursos, la mayoría de sistemas de metadatos ofrecen la solución técnica necesaria para realizar una descripción homogénea y estricta de los recursos sin necesidad de limitar las opciones de localización y recuperación. Al mismo tiempo es posible utilizar la mayoría de conjuntos de metadatos actuales junto a cualquier lenguaje de marcas derivado del SGML, lo que les aporta la característica de multiplataforma que los convierte en la herramienta ideal para crear un entorno de información integrada en el que el catálogo proporcione acceso tanto a los documentos tradicionales como a la información electrónica.
Obras y sitios consultados
Juárez Santamaría Beatriz. Uso de los metadatos en el orden documental. Información producción y servicios, vol. 10, núm. 42 (verano) p. 8.
Juárez Santamaría Beatriz. El uso de metadatos en la biblioteca digital. En: Martínez Arellano Filiberto Felipe. Comp. Jornadas Mexicanas de biblioteconomía- (32: 2001: Xalapa, Ver.) p. 145.
Duval, Erik; Hodgins,. Metadata Principles and Practicalities. D-Lib Magazine, v.8, n.4, abril de 2002. [en línea] http://www.dlib.org/dlib/april02/weibel/04weibel.html
Juárez Santamaría, Beatriz y Martínez Ortega, Patricia. El uso de metadatos en el orden documental. En XXXII Jornadas de Biblioteconomía.
Formato bibliográfico MARC 21 LITE: introducción general [en línea] http://www.loc.gov/marc/bibliographic/litespa/introgen.htm#intro
Voutssás Marquez Juan. El metalenguaje XML y el esquema de tipo elemento. Investigación bibliotecológica: archivonomía, bibliotecología e información. Vol. 17, no.34 (ene./jun. 2003).
Taylor, Arlene G. The Organization of Information / Arlene G. Taylor. Englewood Colorado: Libraries Unlimites, 2nd, 2004. 417 p. (Library and Information Science Text Series).
Bosch, Mela. Documentos y lenguajes de marcado : conceptos, problemas y tendencias.
El Profesional de la información, vol. 10 (11), noviembre 2001.
Hopkins, Judith. USMARC como una estructura de metadatos. en: Internet, metadatos y acceso a la información en bibliotecas y redes en la era electrónica. México, D. F. : UNAM, Centro Universitario de InvestigacionesBibliotecológicas, 2000. p. 21-35. (Colección Sistematización de la información documental ; 1)

Saul Equihua

Codirector en Infotecarios y comunicación con Biblogtecarios Bibliotecólogo y programador analista con experiencia en la relación tecnológico - documental. Ponente en esta temática, interesado en las tecnologías de información.