Formatos de Imagen en Proyectos de Digitalización - BiblogTecarios

Formatos de Imagen en Proyectos de Digitalización

Cuando se habla de los formatos de imagen a utilizar para digitalizar y almacenar documentación, o bien surgen muchas dudas respecto a qué formatos utilizar, o bien directamente se acude a las recomendaciones habituales “tiff sin comprimir para el ‘master’ y jpg para ‘distribución’ ”. Esta opción, aunque correcta, puede no ser la óptima. Vamos a revisar algunas de las implicaciones de los formatos a elegir.

Parámetros de digitalización

Como elemento previo, ¿Con qué parámetros principales podemos jugar a la hora de digitalizar?

  • Resolución: Es decir el número de puntos por cada pulgada del original (dots per inch: DPI). Con valores habituales entre 100 dpi (calidad fax), 300 dpi (calidad media usada en procesos con OCR), 600 dpi (alta calidad). Lógicamente cuantos más dpi, más calidad y fidelidad de la imagen y más ocupación en almacenamiento.
  • Profundidad de color: Número de bits utilizados para describir los colores, cuantos más bits, más fidelidad al color original, con valores habituales entre 1 (blanco y negro), 8 (256 tonos de gris) y 24 (color ‘verdadero’).
  • Compresión: Para ocupar menos espacio, la imagen puede comprimirse. Hay que recordar que existen muchos formatos de compresión (depende del formato y variante de imagen) y que, en contra de lo que tiende a pensarse, no todos implican pérdidas de calidad e información. Puede elegirse formatos de compresión sin pérdidas (Lossless) que retengan toda la información de la imagen original u optar por otros (Lossy) que pierdan información a cambio de comprimir un poco más. Además hay que tener en cuenta que el grado de compresión depende mucho del tipo de imagen, profundidad de color e incluso resolución. Esto se debe a los distintos algoritmos utilizados. Así, una imagen en color de una foto puede comprimir a un 30% con un algoritmo A y a un 20% con otro algoritmo B. Y una imagen en color de un documento puede comprimir a un 25% con un algoritmo A y a un 35% con otro algoritmo B. Incluso si un sistema de compresión comprime siempre más que otros las imágenes en color, puede que no sea el más eficiente para las imágenes en blanco y negro. En algunos formatos (como es el caso de jpg) el grado de compresión/pérdida es “regulable”, de forma que puede comprimirse más a costa de perder más información.

El punto de equilibrio entre disponer de una imagen absolutamente fiel y detallada, pero muy costosa de almacenar y, no hay que olvidarlo, de descargar a los usuarios, y una imagen ligera pero menos fiel, vendrá determinada por el tipo y uso previsto de la imagen

 Tipos de documentos y Usos

Como en cualquier escenario, hay que plantear qué se desea almacenar y para qué usos.

No es lo mismo digitalizar un códice en un archivo histórico como medida de preservación del patrimonio histórico que digitalizar por ejemplo un expediente de jubilación. En el primer caso la prioridad es la calidad y fidelidad de la imagen al original, así como la difusión a un público más amplio, mientras que en el segundo interesa procesar el expediente de la forma más rápida y económica, y está dirigido a las personas encargadas de la tramitación. Además en este último caso lo habitual será que se realice un tratamiento automático por medio de tecnologías de la familia OCR (ICR, MCR,..) lo que implica un condicionante adicional.

Podemos hablar de forma simplificada de dos escenarios tipo (aunque desde luego cada proyecto tiene particularidades y existirá una gran gama de matices y casos intermedios).

  • Digitalización orientada a preservación (archivos históricos, archivos fotográficos,..) donde la calidad es prioritaria y el volumen es reducido. En este escenario debería manejarse unas resoluciones altas (600 dpi), formatos en color (24 bits) y sin pérdidas.
  • Digitalización orientada a la tramitación (expedientes administrativos, S.S., Hipotecas,..) donde predomina la rapidez y economía y el volumen es muy alto. En este escenario debería manejarse unas resoluciones medias (300 dpi) y formatos en B/N o en tonos de gris (8 bits).

 Formatos de imagen

Los formatos más habituales a plantearse serían:

y adicionalmente

  • PDF (Portable Document Format) que, sin ser un formato de imagen “pura”, tiene otra serie de ventajas, especialmente en el caso de PDF/A.

Al margen de las características propias de cada formato hay varios elementos a destacar.

Uno de los más importantes es que Tiff es un formato multipágina, es decir, podemos incluir varias páginas en el mismo archivo y manejarlas conjuntamente. Jpg y png son “monopágina” de forma que, o bien se utiliza algún criterio de denominación de cada fichero que referencie a cada página (Ej.: Doc1234_p01.jpg, Doc1234_p02.jpg,..) o bien la herramienta o gestor documental utilizados maneja internamente alguna sistema de referencias. Esto implica, por una parte, el aumentar el riesgo de incoherencia o pérdida de páginas aisladas, y por otra parte la complejidad para enviar o manipular el documento como un paquete completo.

El otro es que tiff, más que un formato de imagen, podría definirse como una familia de formatos, o un formato con subformatos. Su capacidad de expansión y las variantes soportadas provocaron que se llegara a hacer la broma de “Tiff=Thousands of Incompatible File Formats” (Miles de formatos incompatibles)

Estas variantes incluyen distintos sistemas de compresión y formatos especializados. Entre ellos puede citarse:

  • Sin Compresión
  • LZW (Compresión SIN pérdidas)
  • ZIP (Compresión SIN pérdidas)
  • Packbits (Compresión SIN pérdidas)
  • jpeg (Compresión CON pérdidas)

Y, solo si se trata de imágenes en Blanco y Negro:

  • Huffman RLE (Compresión SIN pérdidas)
  • CCITT3 (Compresión SIN pérdidas)
  • CCITT4 (Compresión SIN pérdidas)

En el caso de PDF, ocurre algo similar a tiff, aunque más complejo aún. El formato PDF es equivalente a un documento ofimático en el que si hubiera incrustado imágenes. “Manda” el formato de la imagen incrustada. Incluso podría tenerse una página con varias imágenes incrustadas en varios formatos (depende del software utilizado para digitalizar y para crear la página) aunque desde el punto de vista del usuario parece una sola imagen ya que están “unidas”.

Respecto a jpeg, hay que tener en cuenta que al tener muchos grados de compresión, si no se especifica el grado de compresión deseado, no se está definiendo realmente la calidad de la imagen que se requiere.

Comparación

¿Cuánto más comprime cada algoritmo? ¿ Cómo de significativa es la pérdida en la compresión con pérdidas?

Para ello he preparado unos ejemplos donde puede verse la misma imagen digitalizada en varios formatos y tipos de compresión de la familia tiff. Las imágenes se han digitalizado a 300 dpi y con 24 bits de profundidad de color, con dimensiones A4.

Imagen1

La primera imagen, tiene unos tamaños según formato de:

Formato compresión tiff
Tamaño (bytes)
jpeg 2.740.158
lzw 12.481.508
Sin Compresión 26.138.334
Packbits 25.583.320
Zip 15.557.448

Imagen2

Y la segunda:

Formato compresión tiff Tamaño (bytes)
jpeg 2.515.598
lzw 7.468.782
Sin Compresión 26.138.334
Packbits 25.194.956
Zip 7.029.192

A destacar que para la primera imagen, se comprime más con compresión Lzw que con compresión zip, mientras que para la segunda sucede lo contrario. Además, el grado de compresión (sin pérdidas) es muy variable, siendo en el primer de un 50% y en el segundo de un 75% más pequeño el tamaño que la imagen sin compresión.

Si comparáramos las imágenes de los distintos formatos en detalle, podría verse que no hay diferencia de calidad entre los formatos con compresión SIN pérdidas y la imagen sin comprimir. Teniendo en cuenta que la misma imagen sin comprimir puede ocupar entre 2 y 10 veces más que comprimida, en mi opinión, y salvo excepciones o requerimientos de terceras partes o normas de obligado cumplimiento, no se justifica nunca el utilizar un formato no comprimido. El formato sin comprimir costará más de almacenamiento y más de ancho de banda y tiempo para las comunicaciones, visualizaciones o descargas.

La única ventaja es que un formato no comprimido puede considerarse ligeramente más resistente a degradaciones (por ejemplo que un byte del archivo cambie su valor) en el sentido de que un cambio de un byte podría implicar un pixel deformado en una formato sin comprimir y hasta una mancha en un formato comprimido. Pero en un entorno profesional normal los discos y sistemas de almacenamiento son siempre redundantes (RAID o sistema en la nube) y las comunicaciones utilizarán algún sistema de comprobación (como CRC) por lo que ese riesgo no es significativo.

Formato de distribución

¿Y respecto al formato de la “copia de distribución”?

Quizá la primera pregunta es si esa copia es realmente necesaria. Como siempre depende del escenario. El escenario trivial consistiría en mostrar directamente las imágenes “completas”, pero esto puede ser muy lento si son imágenes muy grandes, y además, formatos como tiff no pueden embeberse en una página web. No obstantes hay escenarios en que no es descartable, por ejemplo si se visualiza con una programa específico y si los usuarios necesitan mucha calidad.

Dejando al margen este alternativa, existe otra más habitual, convertir “al vuelo”, sobre la marcha, la imagen original en una más pequeña para mostrar en la página web o interfaz de usuario correspondiente. Existen gran cantidad de librerías y herramientas (open source o de pago) que permiten hacer la conversión en menos de unos segundos, y que puede ser invocadas por el servidor antes de enviar la imagen al puesto del usuario.

El que esta conversión sea una solución válida depende del uso y volúmenes.

Por ejemplo, si se trata de un archivo con 10 millones de imágenes, las cuales se consultan por unos pocos investigadores, probablemente no merezca la pena guardar 10 millones de copias que en la mayoría de los casos se consultarán una sola vez durante toda su vida y quizá es mejor convertir “al vuelo”. Por el contrario, si se trata de menos documentos pero consultados frecuentemente por miles de usuarios, probablemente sea mejor convertir una sola vez todas las imágenes y almacenarlas en lugar de perder tiempo convirtiendo continuamente la misma imagen.

¿Y si no se conoce en absoluto el uso? Aunque si esto ocurre habría que reflexionar sobre si realmente se ha analizado exhaustivamente el proyecto, podría utilizarse una “tercera vía”, que podría ser la siguiente:

  • Cuando se desea presentar una imagen, se consulta la copia, si existe, se muestra la copia, y si esta no existe, se convierte al vuelo, se almacena y se visualiza. Esta opción, aunque ligeramente más compleja, evita convertir inicialmente todas las imágenes y solo convierte las imágenes realmente necesarias.

Respecto al formato de la conversión para la imagen a mostrar, para documentos de una página, jpeg o png pueden ser las opciones más recomendables, sin embargo, si es multipágina, PDF permite visualizarlo cómodamente en cualquier navegador y además permite empezar a visualizar las primeras páginas mientras se descarga el resto. La resolución de la imagen, compresión y profundidad de color puede ajustarse para combinar una calidad razonable con un tamaño mínimo.

Consideraciones finales

Aunque algunos algoritmos comprimen en la mayoría de los casos menos que otros, lo mejor y más seguro es probar con una muestra de los documentos que se manejarán, para poder decidir cuanto más eficiente es un formato de compresión y, si se ha decidido un formato con pérdidas, el impacto de las pérdidas. Durante la fase de análisis de la documentación y los expedientes, puede recogerse una muestra que sea estadísticamente significativa teniendo en cuenta no la tipología documental sino la apariencia visual (Formularios, manuscritos, imágenes, densidad de color, gráficos,..) para ver el resultado en cuanto a ocupación.

En el caso de optar por un formato con pérdidas, hay una opción adicional que merece la pena tener en cuenta en las pruebas, puede jugarse con utilizar más resolución en la digitalización (más información) pero comprimiendo más (con más pérdidas).

Como puede verse la elección de formato para digitalizar y almacenar imágenes puede volverse realmente complicado, en este texto solo se ha dado un repaso somero.

El corolario final es “no hay formato’ milagroso’ ni criterio a seguir en todos los casos, lo más recomendable es analizar y probar las distintas alternativas, tanto en formato como respecto a los distintos parámetros, y elegir la combinación más adecuada para nuestra proyecto concreto”

The following two tabs change content below.

Joaquín Hierro

Tras muchos años trabajando en software de gestión documental de diverso tipo, actualmente defino estrategia y elijo productos de gestión documental para una multinacional española. Mi colaboración en Biblogtecarios se orienta a analizar y difundir tecnologías y soluciones disponibles para un documentalista del siglo XXI.

Latest posts by Joaquín Hierro (see all)

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *