
Lundi, 03 mai 2021
Concepts de l’archivage numérique
article paru dans le numéro 366 de “la revue des ingénieurs ESME SUDRIA”
L’archivage une approche holistique
L’archivage est un ensemble de pratiques transversales visant à préserver la connaissance. Il se distingue nettement de la sauvegarde en ce qu’il ne vise pas à la continuité de la production immédiate, mais bien à la conservation à long terme des informations, des savoirs, des pratiques.
Le passage de beaucoup des processus archivistiques dans le domaine numérique impacte significativement les pratiques, les méthodes, les ressorts économiques et les métiers de l’archivage.
Motivations de l’archivage
on distingue essentiellement deux grandes catégories dans l’archivage en général et l’archivage électronique en particulier, selon leur motivation principale:
l’archivage à valeur probante qui vise à garantir l’intégrité et l’authenticité, généralement sur une durée définie de façon réglementaire et rarement supérieure à 10 ans (factures, contrats, etc). C’est ce que recouvrent les solutions dites “coffres-forts électroniques”. C’est l’approche utilisée dans la banque, la finance, l’administration. Dans cette approche, un accent particulier est mis sur les normes, les certifications, les éléments à valeur de preuve (horodatage certifié, signature électronique, validation par tiers de confiance, infrastructures de clefs publiques…).
l’archivage patrimonial : de très longue durée, voire définitif, il vise à conserver le maximum d’informations utiles à fins d’exploitation éventuelle ultérieure. Il y a de nombreuses approches en fonction des opérations ultérieures envisagées, selon qu’il s’agit de données industrielles ou d’ingénierie, de données scientifiques ou techniques, à valeur artistique, etc.
Dans un cadre industriel (voir encadré Airbus) les informations nécessaires et les cadres possibles de leur exploitation ultérieure sont évidemment bien différents d’un archivage de données scientifiques (par exemple les données collectées par de grands instruments physiques ou astronomiques), ou à visée historique plus large (dépôt légal, conservation à caractère artistique ou muséal, etc).
Évolution de l’archivage
Le métier de l’archiviste accompagne de plus en plus le processus métier. S’il n’est jamais trop tard pour archiver, il peut être intéressant d’intégrer la problématique d’archivage dès le début du processus de production d’information, afin de pouvoir archiver le maximum d’information sur les données (métadonnées), et ce au fur et à mesure même de la production si possible. Une fois l’archivage terminé, on continuera à enrichir les métadonnées lorsqu’une requête fait ressortir les données, ou fait ressortir de nouvelles relations entre données archivées à des périodes différentes. Ainsi les données peuvent prendre de la valeur par leur enrichissement ultérieur, leurs croisements, etc.
Historiquement, une stratégie d’archivage venait en fin de production et/ou d’exploitation de la donnée: lorsqu’un document, livre, film était publié en version définitive, par exemple. L’archivage était alors un “sort final du document” et c’est encore l’approche généralement utilisée dans le cadre de l’archivage légal et de l’archivage à valeur probante.
Cet archivage définitif se produit selon deux modes principaux : lors de la finalisation du produit (par exemple un livre chez un éditeur), un exemplaire est envoyé au dépôt légal qui tient lieu d’archive définitive.
La numérisation permet cependant une approche renouvelée, en ce qu’elle permet d’enrichir les archives d’informations nouvelles en fonction des utilisations et de nouvelles techniques: par exemple l’INA pourra faire des statistiques sur les médias les plus consultés, et donc d’une part modifier la stratégie de stockage des données (pour faciliter l’accès aux plus demandées), et enrichir ces mêmes données de nouvelles informations (comme “telle archive de 1982 est la vidéo la plus consultée par les internautes en octobre 2014”). Ou bien de nouvelles fonctionnalités comme la conversion automatique de la parole en texte, ou la reconnaissance de visages, permettront une indexation beaucoup plus fine des vidéos.
Ainsi, quoique les éléments d’origine de l’archive n’évoluent plus, elle est néanmoins susceptible de s’enrichir sans cesse de nouvelles métadonnées ouvrant la voie à de nouveaux usages.
Il y a également un important travail qui consiste à “migrer” un fond vers un nouveau format: les livres, films et cassettes vidéos sont alors numérisé pour une exploitation plus aisée (indexation, recherche facilitée, nouvelle publication aisée).
Sujet complexe, se pose aussi le problème de la migration des formats physiques et des formats de données: s’il est encore relativement aisé de lire une disquette 3,5 pouces, il devient délicat de récupérer une disquette 8 pouces, une bande DECTape… Les supports numériques ont souvent été conçus sans tenir compte de leur capacité à perdurer et à rester exploitables. La situation est encore plus complexe pour les formats issus de différents logiciels: certains types de données sont enregistrées dans des formats propriétaires, peut-être issues de logiciels anciens peu répandus, dont les éditeurs ont pu disparaître, ainsi que le matériel servant à les faire fonctionner!
De ce fait, certaines politiques d’archivage à long terme doivent envisager d’une part la conversion des informations numériques dans des formats à la fois physiquement durables mais surtout pérennes d’un point de vue logique, c’est à dire en général des formats normalisés, ouverts et bien documentés (comme par exemple le PDF/A ou les formats basés sur XML). Cependant dans certains cas il peut être nécessaire d’envisager la conservation de la donnée originale et son environnement logiciel et matériel afin de garantir la conformité de la restitution ultérieure de l’information.
Ainsi, dans le cadre des recherches sur l’archivage de données à très long terme portant sur la sécurité nucléaire, a été étudié la conservation de systèmes informatiques complets (ordinateurs, consoles, périphériques d’entrées-sorties…), avec les logiciels originaux, pour conserver un accès le plus long possible des données sensibles dans leur configuration originale.
Économie de l’archivage
Un des intérêts de la numérisation des archives est de permettre de nouvelles possibilités d’exploitation. Un exemple bien connu est la mise en ligne des archives de l’INA, de la BNF qui donne accès à tout un chacun à d’immenses ressources documentaires. Pour de nombreux producteurs, éditeurs et ayant-droits, c’est la possibilité d’une amélioration substantielle de la rentabilité des données conservées.
Cette évolution a créé l’espace nécessaire à un vaste marché de l’archivage: de nombreux acteurs publics et privés proposent logiciels, matériels et services pour pratiquement tous les usages.
Les services hébergés sont encore essentiellement limités aux solutions nécessitant peu de débit et de stockage, de type “coffre-fort électronique” (locarchive, arkhinéo, Cecurity) plutôt qu’orientées vers l’archivage massif, encore que certaines solutions commencent à apparaître comme Amazon Glacier (qui reste cependant une plate-forme générique et non une solution intégrée). Les solutions matérielles et logicielles sont trop nombreuses pour être citées extensivement, d’ASG ADA, Active Circle, FrontPorch, Intellique, à XenData et Yoyotta, sans compter les nombreuses solutions proposées par des SSII comme Atos, ou des généralistes comme IBM, HP et Oracle qui ont souvent des gammes complètes de solutions se recouvrant partiellement dans leurs fonctions et leurs usages.
Concernant les services publics français, on citera bien sûr l’INA (archives audiovisuelles), la BNF (archivage texte et image), l’IGN (données cartographiques), le CINES (données scientifiques)…
Politiques d’archivage
Aujourd’hui les bonnes pratiques se calquent généralement sur un modèle normé de type OAIS, qui définit les étapes nécessaires de l’archivage : production, collecte, stockage, administration, consultation… Les acteurs souhaitant archiver leurs données doivent définir leur politique pour chaque opération: qui collecte? à quel moment de la production de données? Quels sont les droits d’accès nécessaires? Qui archive? Comment sont indexées les données? Qui a accès aux informations? Selon quels critères? etc.
La solution logicielle ou le service choisi contraindra fréquemment certains aspects de la politique d’archivage. C’est à la fois un avantage et un inconvénient: un avantage car il est difficile et souvent contre-intuitif pour des non spécialistes de définir ex nihilo tous les aspects d’une politique efficace qui résiste à l’épreuve du temps; un inconvénient parce qu’une solution peut restreindre l’accès à certains choix qui auraient pu être sinon préférés.
On peut définir un ensemble de bonnes pratiques généralisées qui devront être mises en oeuvre dans la mesure possible et qui peuvent vous aider à choisir une solution d’archivage:
0° si possible, concevoir le système d’archivage comme un ensemble logique distinct du système d’information. 1° essayer de collecter au plus près de la production de données. 2° collecter le maximum d’information afférentes aux données (métadonnées). 3° organiser les métadonnées de façon à maximiser les possibilités de recherche (par exemple en utilisant un SGBDR). 4° créer au moins trois copies distinctes, sur deux technologies de supports différentes (par exemple disques durs et bandes magnétiques), dans au moins deux lieux entièrement distincts, ceci afin de garantir la pérennité des données. 5° déterminer quand et comment purger les données: toutes les données ne demandent pas à être conservées indéfiniment. 6° définir à l’avance quand et comment migrer les supports, et éventuellement les formats de données.
Bibliographie
- Mémoire CNAM INTD : « Conduire un projet d’archivage électronique » de Marie Mathias Dronne, 2006
- Rapport APROGED : « La maîtrise du cycle de vie du document numérique », 2006
- « La Gazette du CINES » février 2013, numéro spécial « Archivage numérique pérenne »
- « Economic considerations for long term data retention », Randy Kerns for Evaluator Group, January 2015
- Actes du colloque des Archives Nationales, « Quand l’archivage devient électronique », 5 et 6 février 2013.
posté à: 18:24 permalink