PDF/A: Formato de archivo de documentos

Es habitual oír hablar de la conveniencia de “usar formato PDF/A para archivo de documentos” y de las ventajas para almacenamiento a largo plazo de utilizar ese formato ¿En qué consiste el formato PDF/A y qué lo diferencia del formato PDF “normal”? ¿Por qué es mejor para la conservación a largo plazo?

Durabilidad de los formatos

Los formatos físicos son quizá la primera víctima de la “obsolescencia de formatos”. ¿Quién puede leer en su casa un video Beta?¿Cuantas personas mantienen un reproductor de discos de vinilo o de cintas de casete?.

Los aparatos se estropean y los formatos físicos se ven superados por otros más capaces y duraderos, con lo que nadie fabrica equipos para esos formatos “anticuados”. Fabricar equipos que casi nadie va a usar es muy caro tanto para el fabricante como para los usuarios que deberían comprarlos, con lo que el formato se “extingue”. Gradualmente “nadie” (salvo alguna empresa especializada) tiene capacidad y aparatos para leer esos formatos.

En el caso de los formatos de fichero, aunque no hay un “coste de fabricación” de los aparatos lectores, los programas usados para la creación de los formatos desaparecen o dejan de ser compatibles con las nuevas versiones del sistema operativo y ya no pueden utilizarse. En ocasiones el propio fabricante publica nuevas versiones de los programas y deja de ser compatible con formatos de versiones anteriores de su propio programa.

Si utilizamos un formato erróneo para guardar un documento, aunque ahora sea muy popular quizá en 10 años nadie lo recuerde y no tengamos programas para poder visualizarlo ¿Quién tiene documentos almacenados en formatos .lwp (Lotus Wordpro), .123 (Lotus 1-2-3),.fm (Framemaker), .pcx (PaintBrush), .wp (WordPerfect)….?

Aunque aún puede encontrarse algunos programas lectores o conversores, es una tarea difícil.

Por tanto la decisión de qué formato de documento utilizar es crítica para tener asegurado que dentro de 20 años se pueda consultar los documentos almacenados en un gestor documental. Al hablar de UN formato, surge una duda importante, ya que en un trabajo cotidiano se utilizan MUCHOS formatos de documento de acuerdo a la herramienta concreta (documentos de texto, imágenes digitalizadas, hojas de cálculo, seguimiento de proyectos, etc.) ¿Hay un formato tan universal que podemos utilizarlo para editar en él hojas de cálculo y al tiempo calcular la planificación de un proyecto?

Por supuesto la respuesta es no; existen diversos formatos porque existen muy diversas necesidades. Se trata de guardar una copia que ya NO podrá utilizarse como se utilizaba el archivo original, pero que podrá visualizarse y leerse. En qué momento y cómo se genera esa copia depende del tipo de documento y proceso. Podría hacerse automática o manual, al acabar su vida “activa” o nada más insertar la versión “original” en el gestor documental. Decisiones como estas son parte del análisis que se haga del proceso.

PDF

El formato PDF (Portable Document Format: Formato de Documento Portable) ) fue publicado por la empresa Adobe en 1993, a partir de las ideas esbozadas 2 años antes en el proyecto “Camelot”, con el objetivo de tener un formato de documento independiente de aplicación, plataforma o sistema operativo. Por tanto desde su orígenes ya albergaba un planteamiento de “universalidad”.

Desde la versión inicial 1.0 se han publicado muchas versiones. Actualmente la última publicada es la versión 1.7el8, que está asociada al lector Adobe Reader 10 (en ocasiones se produce confusión entre la versión del formato de PDF con la versión de Adobe Reader que es el lector de Adobe pero no el único).

Hasta el 2008, aunque público, era un formato propietario cuya evolución dirigía Adobe. Desde 2008 se convierte en un formato abierto bajo el control de International Organization for Standardization (ISO) y se publica como estándar ISO 32000-1:2008.

Actualmente existen lectores de PDF para casi cualquier plataforma y sistema operativo (Windows, Linux, Mac, Android, iPhone,Windows Mobile, ..) y puede generarse documentos PDF de muchas formas:

  • Con la herramienta oficial de Adobe,
  • Exportando desde muchas aplicaciones (sobre todo ofimáticas),
  • Utilizando herramientas de desarrollo,
  • Y el método más sencillo y universal: utilizando programas que se comportan como impresoras virtuales, de forma que al imprimir desde cualquier programa, en lugar de obtener un papel impreso se obtiene un documento PDF.

Un documento PDF está estructurado en páginas que pueden contener textos en diferentes formatos, gráficos vectoriales (líneas, curvas, recuadros,..) e imágenes formadas por puntos embebidas en diferentes formatos (jpeg,. Tiff,..).

Adicionalmente, puede incluirse metadatos, anotaciones, embeberse otros archivos, firmarse con certificados digitales, rellenar cuestionarios o incluso incluir pequeños programas.

Como puede verse, tenemos un formato universal y estandarizado, y que admite gran cantidad de opciones, entonces ¿Qué añade la “A” de PDF/A? ¿Por qué no almacenar en PDF directamente?

PDF/A

Según el dicho tradicional, “el diablo está en los detalles” y en este caso no podía ser menos. No siempre basta poder “abrir” un documento, hay que poder “entenderlo”. Por eso surgió la variante PDF/A

Algunos de los escenarios contemplados por PDF/A son los siguientes:

  • Si al abrir el documento en un ordenador el primer párrafo es un texto en tamaño 12 con fuente Frutiger y el ordenador no dispone de esa fuente, no puede “dibujar” las letras en pantalla. Por tanto, PDF/A obliga a que la definición de las fuentes se embeba en el documento. Es decir no basta el nombre de la fuente sino la descripción para poder dibujarla. Esto lógicamente implica un tamaño mayor del documento.
  • Si el documento indica en un párrafo: “El contrato se firma de acuerdo a lo establecido en la norma http://www.boe.es/Norma123456” y esa URL ya no está disponible en la web indicada, el documento pierde gran parte de su sentido. Podemos leer el documento completo pero al no poder acceder a la referencia, no se puede entender completamente. PDF/A no admite que se incluyan URL ya que su contenido podría no estar disponible dentro de varios años.
  • Si el documento PDF está protegido con una clave y no disponemos de la clave no puede leerse. PDF/A no admite documentos encriptados para evitar que no pueda leerse sin clave.
  • La fidelidad de los documentos es importante; si tenemos un texto o una imagen embebida y la definición de los colores no puede reproducirse igual que en la plataforma en que se creó, podría incluso no visualizarse elemento importantes del documento. PDF/A no admite colores que dependan del dispositivo. Debe utilizarse siempre colores independiente de dispositivo, de acuerdo a la ICC
  • Hay muchas otras opciones que admite PDF (como embeber archivo de audio o video que podrían no reproducirse) y que no son admisibles en PDF/A……

Por tanto el formato PDF/A limita algunas de las muchas operaciones posible en PDF y en otros casos lo que hace es especificar la forma concreta en que debe hacerse entre varias alternativas. Todo ello con el objetivo de que el documento puede almacenarse en un gestor documental y, pasados muchos años , pueda abrirse, leerse y entenderse.

Cuando se abre un documento en PDF/A, los visores (como el Adobe Reader) suelen indicarlo. Esto es cada vez más habitual en documentos de la administración pública, como el Ministerio de Hacienda.

Actualmente se han publicado 3 versiones de PDF/A:

  • PDF/A-1, la primera versión publicada en 2005, basada en PDF 1.4 y que tiene 2 variantes PDF/A-1a y PDF/A-1b.
  • PDF/A-2, basada en PDF 1.7 y publicada en 2011
  • PDF/A-3, basada en PDF 1.7 y publicada en 2012 que añade a la anterior la posibilidad de embeber documentos en otros formatos (Lo que en mi opinión personal parece chocar con la propia esencia de PDF/A)

Dado que al generar el PDF/A podría no haberse cumplido las especificaciones, y dentro de 20 años ya no podría hacerse nada cuando se abra el documento, existen diversas herramientas para verificar la conformidad de un archivo PDF al estándar antes de plantearse su almacenamiento.

En http://www.pdfa.org puede encontrarse documentación, herramientas e información adicional. Puede hacerse pruebas rápidas de generación con programas como LibreOffice, OpenOffice o Microsoft Office, que permiten guardar o exportar en formato PDF y en concreto como PDF/A.

Joaquín Hierro

Tras muchos años trabajando en software de gestión documental de diverso tipo, actualmente defino estrategia y elijo productos de gestión documental para una multinacional española. Mi colaboración en Biblogtecarios se orienta a analizar y difundir tecnologías y soluciones disponibles para un documentalista del siglo XXI.

4 respuestas a «PDF/A: Formato de archivo de documentos»

  1. Hola,

    Cuando dices «Dado que al generar el PDF/A podría no haberse cumplido las especificaciones», ¿Qué motivos pueden llevar a que el PDF/A se genera sin cumplir las especificaciones? ¿no entenderíamos entonces que realmente no se habría generado un PDF/A?

    1. Hola,
      Tienes cierta razón, el problema es que como todo estándar, hay muchas «interpretaciones» y cada herramienta cubre unas versiones o parte del estándar. Si utilizas un producto para generar un PDF/A, interesa verificar con «terceros» si realmente cubre lo generado el estándar o no, y qué falta por cubrir o hasta que versión se cumple.
      Adicionalmente, hay veces en que te interesa generar un PDF/A aunque sabes que no cubre totalmente. Por ejemplo, PDF/A no puede incluir URLs, ya que dentro de años pueden no existir. Sin embargo si se desea archivar un estudio que incluye URLs ¿Qué es mejor? ¿Quitar las URLs para que cubra el estándar o dejarlas aunque no lo cubra formalmente?
      Aunque puedan no existir muchas dentro de años, yo creo que puede ser interesante dejarlas. Siempre es mejor perder arte de la información que toda. Para ese caso puede venir bien una herramienta que verifique y genere un informe sobre qué es lo que no cubre de PDF/A. Si solo falla en las URLs podría ser admisible. Si no embebe las fuentes, no, porque no serña legible dentro de unos años.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *