1 de diciembre de 2015

Digitalizar no es Preservar

Digitalizar no implica necesariamente Preservar a largo plazo. El Ciclo de vida de los documentos integra como primera fase la digitalización. Una vez que los documentos han sido incardinados en el sistema y almacenados en el repositorio documental, comienza la preservación, como un conjunto de medidas destinadas a asegurar la disponibilidad de la información de los documentos en cualquier momento,  e incluso, con un sentido de conservación a largo plazo, implica la accesibilidad perpetua al contenido del documento más allá de que las diferentes versiones del mismo sean difundidas a distintos usuarios del sistema de forma definitiva o periódica. Generalmente cuando los documentos cumplen su ciclo en el sistema de gestión documental, la preservación persiste como garantía de perdurabilidad de información valiosa y relevante de las organizaciones y entidades encargadas de su custodia.

Ciclo de Vida de los Documentos
En las empresas e instituciones se están dando cuenta de la eficacia que supone en su día a día tener accesible de forma digital la documentación que forma parte de su trabajo diario. La gestión documental se está convirtiendo en la piedra angular en la consecución de proyectos y el éxito de los negocios. En los casos en los que la conservación de los documentos resulta primordial por mandato o indicación de leyes de protección del patrimonio, como en Ministerios o Bibliotecas Nacionales, la digitalización ha sido la medida más empleada (Scolari, 2010) para garantizar la preservación a largo plazo de los documentos analógicos y su difusión a través de los medios digitales.

Desde la digitalización ya se estaría contribuyendo a la posterior preservación, al permitir obtener una copia fiel del ejemplar físico, y evitando la manipulación de este para los casos en los que solo se requiere conocer la información que aporta el documento. Conviene generar versiones digitales del documento de alta resolución que sirvan para no tener que volver a digitalizarlo en el futuro (máster de digitalización) y en el mismo proceso versiones menos pesadas (derivadas) para su posterior difusión. Conjuntos de metadatos como METS y PREMIS solo pueden obtenerse una vez que los documentos son digitalizados. Hay que tener muy claro los pasos que se quieren dar y el objetivo a conseguir, ya que como señala Conway (2010), cuyo desarrollo daría para otro artículo, se debe diferenciar entre la “digitalización para la preservación” (digitisation for preservation) y el cambio de formato para la preservación (preservation reformatting), enfoques relacionados pero cuyos estándares, procesos, tecnologías, costes y retos organizativos subyacentes resultan diferentes.

La mayoría de las instituciones, sin embargo,  suelen generar un documento en PDF, JPG o PNG para difundir los objetos digitales a través de su Intranet o de sus portales corporativos de consulta pública, pero no saben como gestionar los máster en TIFF. Suelen contentarse con almacenarlos en un disco duro y replicarlos continuamente a lo largo del tiempo, sin sistematizar el control exhaustivo de los formatos, las condiciones de almacenamiento, los metadatos y la garantía de accesibilidad. No existen muchas empresas en la actualidad que ofrezcan consultoría de preservación digital ni de momento hay demasiada demanda por parte de las entidades y organismos, ya que desconocen su naturaleza e importancia; es una práctica que requiere conocimientos técnicos en relación a la tipología de objetos digitales existentes y los formatos de conservación más recomendables que los soportan y es necesario una infraestructura escalable de almacenamiento, consulta y acceso a las colecciones preservadas, la cua, no siempre está disponible.

Conforme a lo anterior, la preservación de los documentos requiere la utilización de “formatos sostenibles” que cumplan al menos con las siguientes características:
  • Documentación de libre acceso: por ello reciben el nombre de “open source” o “no propietarios”, ya que la descripción de sus especificaciones se encuentra en acceso público y cualquiera puede crear herramientas para acceder o trabajar con este tipo de formatos sin restricciones de copyright. El uso de estos formatos garantiza en mayor medida que los formatos propietarios el acceso a la información en el futuro.
  • Uso extendido y generalizado: suelen ser formatos de uso generalizado y por ello cuentan con múltiples herramientas para su lectura y modificación.
  • Formatos autodescriptivos: contienen metadatos dentro de su estructura que aportan información relativa al contenido y contexto del registro y por ello no requieren documentación externa de apoyo (lo que les otorga más independencia respecto a la obsolescencia).
  • Archivos sin cifrar: el cifrado impide que los registros electrónicos sean accesibles a largo plazo, ya que los métodos de encriptación cambian drásticamente con el tiempo y las herramientas de software que se utilizan para acceder a los registros cifrados, puede que ya no existan en el futuro. Como alternativa se puede regular el acceso mediante filtros de seguridad que eviten la modificación del contenido y estructura de los documentos.
Conforme a las características anteriores, el Archivos del Estado de Illinois (Estados Unidos), ofrece recomendaciones de formatos para la conservación a largo plazo de registros electrónicos:

Para documentos textuales (digitales o digitalizados), la opción más adecuada es PDF / A (Portable Document Format / Archives), variante del formato PDF sistematizada por el estándar ISO 19005-1: 2005. Garantiza una fiabilidad total con el documento original, al suprimir el uso de hipervínculos y la incrustación de video y audio, e incluir los metadatos y fuentes del archivo en el propio documento. Es un formato versátil al que los documentos se pueden importar utilizando una gran variedad de herramientas de software y plugins de procesadores de texto.

Frente al más popularizado HTML, para información estructurada en la web recomienda XML, ya que el primero, al no contener metadatos descriptivos, presenta límites en la recuperación de los datos al no permitir la realización de búsquedas avanzadas dentro de los documentos.

Los documentos ofimáticos (hojas de cálculo, textos, presentaciones…) cuentan con ODF (OpenDocument Format) de Sun Microsystem, cuya variedad ODS para hojas de cálculo soposta incluso funcionalidades más avanzadas que CSV y está disponible a través del paquete ofimático OpenOffice.

La extensión .txt que reconocemos en los archivos por defecto del blog de notas de Windows, es un estándar para texto plano (pain text). Al no permitir características de formato, se emplea generalmente para textos de reducido tamaño (documentos readme de software y notas cortas).

En el caso de las hojas de cálculo, lo más apropiado, para garantizar la conservación de la información y de la funcionalidad total de los documentos (datos enlazados y fórmulas) es conservar los datos mediante un formato libre como CSV u ODS y al mismo tiempo guardar en lo posible una copia del formato propietario, dada su complejidad intrínseca. Su carácter funcional y dinámico hace que los formatos de conservación sean más apropiados para tablas con datos tabulados simples y que incluso haya problemas de importación entre programas por los métodos no normalizados de ejecución de las fórmulas.

El líder de los formatos de preservación de imágenes sigue siendo TIFF. Creado en los ‘80 para estandarizar los archivos generados por los escáneres comerciales, ha logrado, tras varias revisiones, convertirse en un estándar internacional para imágenes electrónicas. Su adopción para la conservación permamente, se debe a que no comprime los documentos (no hay perdida de información), lo cual por otra parte hace que los archivos generados ocupen un gran volumen. En este sentido, la empresa Libnova cuenta con las soluciones Libdata y Libsafe que ofrecen un servicios de almacenamiento y la garantía de acceso y gestión a largo plazo de grandes volúmenes de originales.

El audio y el video presentan un reto para la preservación, sobre todo porque su conservación con formatos “sin pérdida” hace necesario un gran volumen de espacio y recursos de procesamiento informático que resultan relativamente costosos. En el audio se ha solucionado con el formato sin comprensión BWF (Broadcast WAVE Format) o BWAVE, que toma como punto de partida los archivos WAVE y les añade metadatos adicionales. Está considerado un estándar de facto para el audio digital de forma generalizada y particularmente se está empleando en la industria de la radio, el cine y la televisión. En el video, debido a la problemática de espacio que plantea, más acusada CODIGO-HAMMURABIsi cabe que en el audio, se ha aceptado el uso de formatos de comprensión sin pérdida o casi sin pérdida. Entre los más usuales encontramos el estándar MPEG-4 (norma ISO / IEC 14496-14: 2003) y Motion JPEG-2000 (ISO / IEC 15444-3: 2004).

La importancia de seleccionar los formatos apropiados para la conservación permanente de la información se remonta a los inicios de la escritura. En Mesopotamia, cuna del alfabeto Cuneiforme, hacia el 1760 a.C. fue creado el código legislativo de Hammurabi sobre piedra. La elección de este soporte es indicativo de que fue realizado con intención de perdurabilidad, mientras que para otros textos más cotidianos (para contabilidad, gestión admnistrativa, etc) se empleaban tablillas de arcilla cuyo grado de conservación presentaba más dificultades.

Realmente la accesibilidad a largo plazo plantea un problema serio, porque ni tan siquiera los formatos descritos en líneas anteriores ofrecen plena garantía de la disponibilidad y salvaguarda perpetua de los documentos digitales. Alexandre Stille planteaba en 2006 este hecho inexorable en Are We Losing Our Memory? or The Museum of Obsolete Technology”, artículo publicado en Lost Magazine, con estas palabras:
"The beauty of digital technology is that it reduces everything to a series of zeroes and ones - a simple, seemingly universal mathematical language - but unless one has the software that gives meaning to those zeroes and ones, the data is meaningless. The problem of deciphering Egyptian hieroglyphs may look like child’s play compared with recovering all the information on the hundreds of major software programs that have been discarded during the astonishing transformations of the computer revolution".
Y es que aunque la tecnología ofrezca cambios positivos mediante la digitalización  (ahorro de espacio, eficacia de procesamiento, conservación de la información) si no se tiene el software que permite acceder a los registros y la interfaz que lleva a recuperarlos (los medios de consulta), las operaciones de captura y preservación dejan de tener sentido por sí solas. Por ello, las recomendaciones de conservación digital a largo plazo inciden en el uso de formatos open source multiplataforma, de uso universal y estandarizado, cuya lectura y modificación no dependa de un software comercial y/o de métodos de encriptación propietarios que hoy están vigentes pero que por políticas de negocio o por obsolescencia pueden dejar de funcionar en el futuro.

Finalmente, como ya hemos apuntado, las instituciones y entidades no suelen estar preparadas en términos de infraestructura para soportar adecuadamente el almacenamiento y acceso a colecciones de documentación de gran valor y volumen, que implican baja frecuencia de acceso. Se trataría de unidades de volumen a partir del Terabyte. Convencer a los gestores de las entidades de invertir en preservación supone, en muchos casos, la dificultad añadida de tener que realizar una tarea compleja, relativamente cara y con una reducida visibilidad al exterior de la institución. Sin embargo, los archivos originales deben quedar a buen recaudo porque son los únicos que garantizan la conservación de la información que contienen y la reproducción futura de la misma en otros formatos que puedan ser leídos por la tecnología de ese momento.

Frente a la práctica habitual del uso de CD, DVD, Pen Drives o Discos Duros, se recomienda el uso de una infraestructura preparada para ello que incluya hardware especializado en preservación digital como Libdata que resulte escalable, que esté preparado para un alto volumen de información (una cifra ideal para su utilización sería a partir de 50 Tb) y que contemple medidas de seguridad específicas. La infraestructura física ha de combinarse con un software, basado en el estándar internacional OAIS como Libsafe. Como mínimo, los sistemas no solo tendrán que definir y documentar el plan de preservación digital de la empresa o institución; sino también verificar, limpiar y ordenar la información cargada en el sistema; gestionar los metadatos y versiones de los objetos y realizar auditorías automáticas y cíclicas para asegurar que la información preservada se encuentra accesible en todo momento.

Referencias
Créditos de las imágenes
Fuente: <http://www.dokumentalistas.com/>
Publicar un comentario