BP 9 - Mettre en place une politique d'archivage
Priorité :
Mise en œuvre :
Exemple(s) d’indicateur(s) de pilotage
Volume de données archivées par an
Nombre de références de données archivées
Volume de données disponible directement via le portail OpenData
Nombre de jeux de données travaillés avec archivistes
Exemple de pilote : Services des Archives
Contexte
La conservation des données publiques par l'archivage vise 4 objectifs : rendre les données et documents produits accessibles, en garantir leur intégrité, leur intelligibilité via leur documentation et enfin leur lisibilité.
Il demeure une réalité organisationnelle où tout ne peut cependant être conservé en l'état dans les portails OpenData. Les services archives disposent de méthodes de suivi, de documentation et d'outils de gestion pour traiter les données publiques et leur conservation. La question de l'archivage des données ouvertes en open data n'est pas actuellement bien traitée (il existe même des activistes éthiques qui archivent l'open data de l'état). Il est pourtant légitimes de conserver des données qui ont été publiées, probablement exploitées, indépendamment de leurs sources (applications du système d'information) qui suivent une politique d'archivage propre. Et à ce jour, le problème de la conservation des données temps réel est rarement exploré (volumétrie, format, opportunité).
Cette pratique vise à développer une réflexion autour d'une stratégie d'archivage des données ouvertes au sein des organisations, afin de limiter l'impact environnemental du stockage de données ouvertes. On fera notamment la distinction entre données "vivantes", c'est à dire à jour et applicables, et les données "historiques", qui ne sont plus entretenus ni nécessairement à jour, mais dont l'accès doit être maintenu à de fins de consultation (suivi des politiques, comparaison, patrimoine informationnel).
Description de la bonne pratique
1 - Animer et acter la démarche
Constituer et animer un groupe de travail dédié à la question de l'archivage des données ouvertes.
Ce collectif aura pour tâche de définir la stratégie d'archivage des données ouvertes : qui décide de garder/supprimer/archiver sur temps long... Quelles sont les règles de nommage et de versionning ? Comment identifier, contrôler et à quelles conditions supprimer des données obsolètes stockées en masse ? Quels sont les moyens d'accès à ces données archivées ? Ce groupe doit être animé par les membres du service des archives, et pourrait impliqué le référent aux données ouvertes, le délégué à la protection des données ou encore du responsable de la sécurité des systèmes d'information, de la personne responsable de l’accès aux documents administratifs, et des producteurs de données.
2 - Définir les conditions et critères d'archivage
Il est important de définir clairement pour chaque jeu de données, ses conditions d’archivage :
quoi archiver : dans de nombreux cas, conserver un échantillonnage des données produites suffit à développer des modèles et analyses comparatives;
mécanismes d’archivage : durée d'utilité administrative des données avant archivage temporaire et enfin pérenne avec accès sur demande,
formats ouverts et pérennes des données archivées, infrastructure sécurisée,
création et maintien d'un index des données ouvertes archivées,
modalité d'accès aux données archivées
règles d’administration définissant les modalités d'accès aux archives.
3 - Mieux identifier les données archivées
Séparer les données "vivantes", c'est à dire à jour, applicables ou pertinentes, des données "anciennes", éventuellement utiles à des fins de comparaison (suivi temporal) ou de recherche de version. La séparation évite de trouver ou utiliser des données inexploitables ou avariées; elle permet aussi une gestion d'archivage différente.
Il peut être utile pour mieux identifier les données d'archives, de le labelliser dans le titre ou la description du jeu de données. Un attribut précisant le caractère d'archive d'un jeu de données peut aussi être précisé dans les métadonnées.
4 - Favoriser l'échantillonnage
Plutôt que de conserver l'ensemble d'un jeu de donnée, dans certains cas, en conserver un échantillon peut être suffisant pour limiter la charge de stockage tout en garantissant l'exploitation de modèles et d'analyses.
Retour d'expérience
Mise en oeuvre : La ville d'Antibes en lien étroit avec le service d'archive, démarre une réflexion et expérimente l'archivage de jeux de données très spécifiques (exemple, centre de vaccination), aujourd’hui dé-publié, mais pourtant caractérisé comme stratégique.
Identification : Le Ministère de l'Enseignement, de la Recherche et de l'Innovation a par exemple labellisé dans le titre le caractère d'archive d'un jeu de données "Archives - Appels à projets ANR - Projets retenus et participants identifiés".
Pour aller plus loin
Le portail opendatArchives proposer d'archiver et historiser l'opendata français. Il héberge aujourd'hui environ 50 To de donnée, soit plus de 70000 jeux de données issus de 300 portails.
Norme AFNOR NF Z42-013 présente les exigences opérationnelles et techniques à mettre en œuvre au sein du système d’archivage électronique
Dernière mise à jour