Gestores Documentales ERM-COLD

Dentro del mundo de la gestión documental existen un tipo de gestores documentales muy especializados y de los cuales prácticamente TODOS, aunque sea de forma inconsciente, somos usuarios (al menos todos aquellos que tienen una cuenta en el banco, o en una compañía de telefonía, de gas, de electricidad, de seguros, compra por correo, impuestos municipales, etc.). Se trata de los gestores documentales de ERM (o COLD como se llamaban en sus orígenes), preparados para almacenar y clasificar automáticamente cada día millones de documentos generados de forma masiva (como facturas, extractos, correspondencia, avisos, borradores de contrato, borradores de la declaración de hacienda, seguridad social, etc.)

 

Evolución

En los principios de la informática, cuando el almacenamiento era muy caro, muchos datos se imprimían como informes o listados en papel y luego se borraban para “hacer sitio” a los nuevos datos. El papel hacía la función de una “copia de seguridad”. Lógicamente además del coste de papel, el acceso a la información era inmanejable.

La llegada de sistemas de almacenamiento masivo (para su momento) en la forma de disco laser (Laser Disc) motivó una idea interesante: ¿y si en lugar de imprimir en papel, se “imprime” el listado a un disco laser? Se disponía así de un listado “electrónico” en lugar del papel. Aunque era un avance, existían limitaciones. Estos discos eran de solo escritura de forma que una vez escrito no podía modificarse (aunque esta característica es algo que en muchos aspectos tiene la ventaja de asegurar que no se ha modificado un dato). La capacidad de los discos era ridícula comparada con las capacidades actuales, por lo que las empresas utilizaban armarios con Jukebox de discos (como las máquinas de los bares de los años 50-60) conteniendo 10 o 20 discos preparados, lo que aumentaba la capacidad. Cuando se solicitaba leer un archivo, el armario situaba automáticamente en el lector (o lectores) el disco que contenía el archivo y los discos antiguos, ya llenos, se sustituían progresivamente por otros nuevos.

Pero buscar la información en un fichero de 10.000 páginas podía ser igual de inviable. La respuesta fue extraer datos significativos (por ejemplo el nombre del cliente o proveedor o la cuenta o teléfono) de una zona del listado (definido por filas y columnas, ya que hablamos de listados de texto puro, sin formato) para recuperar la página (”documento”) que corresponde a cada uno. Eso es el origen de los sistemas COLD (Computer Output to Laser Disc: Salida de Ordenador a Disco Laser). Sistemas que procesan un enorme fichero con miles o millones de páginas, extraen metadatos de forma automática de zonas de cada página y crean documentos virtuales. Cuando se desea recuperar un documento, se busca por los criterios definidos de los metadatos y el sistema devuelve la página (documento) o lista de páginas deseados.

Actualmente los documentos que nos envían las compañías con las que tenemos contratos de diverso tipo no se generan como texto puro, están formateados con logotipos, fuentes de caracteres de diverso tipo, gráficos, cajas, etc.. El formato ya no es texto, sino que suele ser AFP o PDF, y el nombre de los sistemas ya no es COLD (ahora que ha desaparecido el uso de discos laser) sino ERM (Enterprise Report Management: Gestor de Informes Empresariales).

Pero el principio es el mismo , es decir se genera un archivo gigantesco que contiene miles de páginas y un gestor documental de tipo ERM importa y procesa ese archivo, generando documentos virtuales, que clasifica en base a metadatos y etiquetas contenidos en el documento, y luego devuelve cuando se solicita. Cada vez menos se utiliza para imprimir en papel, sino que se genera un documento que se envía a los usuarios por correo electrónico.

Así suelen funcionar los extractos bancarios que recibimos por correo postal o electrónico, informes de retenciones de Hacienda, facturas de las operadoras de telefonía, gas, electricidad, documentos del ayuntamiento, etc.

 

¿Por qué siguen existiendo sistemas ERM?

Quizá la primera pregunta es: ¿Por qué una empresa o una institución pública tiene que guardar un documento que ella misma ha generado con sus propios datos y que no tiene firma manuscrita u otros elementos que lo hagan “único” e “irrepetible”? ¿No es más sencillo generarlo de nuevo si un usuario o cliente lo pide?.

En muchas ocasiones no es posible por varios motivos:

  • Guardar los datos no siempre es fácil. Los datos de la persona pueden mantenerse, pero esos datos referencian a otros datos generales (nombre de calle, nombre de producto, tipo de IVA, nombre del departamento o del ministerio, etc.) que no suelen incluirse repetidos miles de veces sino que se extraen de tablas comunes. Es decir por ejemplo no se guarda el nombre de la calle o localidad, sino que se referencia la misma por medio de un código (Ej. Calle “1234” = “c/Miguel de Cervantes” ) Al cabo del tiempo esos datos “maestros” cambian, pero para reproducir exactamente el documento debe accederse a los valores “originales” (Ej. “El nombre del Ministerio entre las fechas 02/10/2011 y 27/06/2012”) que ya no están.
  • Hay que tener en cuenta que habitualmente los documentos deben guardarse varios años (por ejemplo los documentos con carácter económico o fiscal, que deberían mantenerse 6 años). En esas condiciones, guardar los datos antiguos junto a los nuevos puede provocar que las operaciones del día a día sean más lentas y se ocupe almacenamiento caro para generar muy puntualmente un documento.
  • Pero además hay otro problema: las plantillas de los documentos cambian (por requerimientos de los departamentos de marketing, los departamentos jurídicos, nuevas legislaciones, etc.), de forma que cambian los logotipos, cambian las fuentes de caracteres, cambian párrafos genéricos legales, las proporciones, el número de líneas. Esto implica que no pueda reproducirse un documento tal cual se envió en su momento a menos que se mantenga todo un histórico de plantillas, logotipos, etc. Estos cambios pueden ser menores (cambiar solo un tipo de letra) o más importantes (cambia el número de páginas, pueden no verse algunos datos, se incluye una cláusula legal que no estaba cuando enviaron la versión inicial,..).

En estas circunstancias la opción más segura y legal es guardar el documento que se envió inicialmente.

Hemos visto que los sistemas ERM tiene un origen en otras “épocas tecnológicas”. Aunque la necesidad de guardar documentos sigue existiendo, existen gestores documentales de propósito general donde puede almacenarse documentos de todo tipo (fotos, documentos digitalizados, documentos ofimáticos, etc.). Además el almacenamiento es más barato y la velocidad es mayor que antes, .. ¿Por qué no usar un gestor documental “normal” para guardar esos documentos?

Hay dos motivos principales: Velocidad y ahorro de espacio de almacenamiento.

Hay que tener en cuenta que generalmente se sigue manteniendo una entrada con un solo archivo de ordenador de muchos gigabytes que contiene los metadatos embebidos en el mismo. Por tanto insertar millones de documentos implica copiar un solo archivo grande de una vez en lugar de millones de archivos pequeños (que siempre es más lento), leer los metadatos de cada página y anotar en las tablas del gestor ERM: Documento X, con metadatos Y, Z, contenido entre las páginas A y B.

Adicionalmente la velocidad también se consigue gracias a otro factor que también sirve para ahorrar espacio:

Si hay varios millones de archivos, cada uno tiene su logo, su definición de fuentes, sus párrafos comunes, etc. Esta información se repite millones de veces. Si tenemos un único archivo, toda esa información está una vez y por cada “documento” solo es necesario guardar los datos propios del documento (datos de la persona, importes, fechas, etc.). Así un documento que puede ocupar 100.000 bytes, de los cuales datos “propios” son 1.000, repetido un millón de veces ocupará 100.000.000.000, es decir 100 gigabytes. Si se almacena en un único archivo que no repite ningún dato, se convierte en: 100.000Bytes datos comunes+ 1.000.000 * 1.000 datos propios= 1.000.100.000 = 1 gigabyte., es decir 100 veces menos. Por mucho que se haya reducido el coste de almacenamiento, es un ahorro muy sustancial.

Como puede verse, se copia un solo archivo 100 veces más pequeño que la suma de todos los archivos separados, lo que permite ser más rápido y ocupar menos.

Para hacerse una idea de los volúmenes que se manejan en sistemas así, pensemos en una compañía de telefonía con 10 millones de clientes. Cada mes debe almacenar 10 millones de facturas, en un año 120 millones, y debe conservarlas al menos 6 años, así que hablamos de 720 millones de documentos “en línea”, disponibles para consulta.

Hay otros factores adicionales que ayudan a que estos sistemas sean más sencillos y rápidos que un gestor documental “normal”, como el hecho, por su propia esencia, de que no son documentos sobre los que se hagan versiones (como podría ocurrir con un documento ofimático), que su modelo de seguridad suele ser más sencillo, o que no tengan un ciclo de vida (generalmente se crean y se borran al cabo de un tiempo fijo).

 

Funcionamiento actual

Generalmente las grandes empresas e instituciones generan archivos en formato afp (Advanced Function Presentation) conteniendo millones de documentos. Aunque no en exclusiva, se utiliza el formato afp en lugar de otros más habituales como PDF porque AFP no solo describe el documento. También contiene elementos para controlar la impresión, corte y ensobrado que se utilizan en las grandes empresas de impresión industrial que imprimen millones de documentos al día. Además es muy compacto y permite incluir metadatos en su estructura.

Estructura fichero AFP ERM
Estructura fichero AFP ERM

El gestor documental ERM recibe el archivo, lo copia entero (algunos lo procesan y trocean) y extrae sus metadatos de acuerdo a la estructura definida. Para cada tipo documental se habrá definido qué metadatos extraer y de qué tipo son (fecha, cadena, entero,…) de forma que el gestor ERM almacene los metadatos en su modelo de datos correspondiente.

Una vez generado, clasificado y almacenado puede, por ejemplo, remitirse un correo electrónico a cada persona o entidad indicando que su factura (o “vida laboral” o “borrador de renta” o “extracto”) están disponibles para su descarga, conteniendo una url.

Cuando se abre el mensaje y se pulsa la url, el documento se “reconstruye” recogiendo las páginas que lo componen, los elementos comunes y los elementos específicos, se convierte a un formato estándar como PDF y se presenta al usuario.

Al margen de esto, un sistema ERM puede utilizarse como otros gestores documentales, buscando documentos, modificando metadatos o borrando documentos concretos.

Cuando el documento debe borrarse, lo que se borra realmente es la referencia a las páginas del archivo completo, ya que este no puede borrarse como tal, pues contiene muchos documentos. Cuando finalmente todas las referencias al archivo completo se han borrado, puede borrarse ese archivo completo. Aunque podría considerarse poco eficaz el mantener un archivo muy grande del cual solo se utilizan unas pocas páginas, debido a la propia esencia de los documentos que se manejan lo más habitual es que todos caduquen más o menos al mismo tiempo y se borren al tiempo o con muy poca diferencia.

 

El ERM más clásico y tradicional es IBM Content Manager Ondemand, muy extendido en ambiente bancario y en el que muchas entidades financieras almacenan los extractos o comunicaciones a clientes.

Una opción más interesante es la elegida por Emc, integrando su gestor documental Documentum con el componente “EMC ApplicationXtender Reports Management”, que realiza las funciones de ERM. De esta forma, en el mismo repositorio se almacenan todos los documentos, los “normales” (imágenes digitalizadas, documentos ofimáticos, fotografías, etc.) junto con los documentos compuestos, de forma que pueda construirse un “expediente” completo del caso o persona, conteniendo no solo la documentación recogida sino la generada o enviada.

 

 

 

Joaquín Hierro

Tras muchos años trabajando en software de gestión documental de diverso tipo, actualmente defino estrategia y elijo productos de gestión documental para una multinacional española. Mi colaboración en Biblogtecarios se orienta a analizar y difundir tecnologías y soluciones disponibles para un documentalista del siglo XXI.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *