BP 9 - Mettre en place une politique d'archivage

Priorité :

Mise en œuvre :

Exemple(s) d’indicateur(s) de pilotage

  • Volume de données archivées par an

  • Nombre de références de données archivées

  • Volume de données disponible directement via le portail OpenData

  • Nombre de jeux de données travaillés avec archivistes

Exemple de pilote : Services des Archives

Contexte

La conservation des données publiques par l'archivage vise 4 objectifs : rendre les données et documents produits accessibles, en garantir leur intégrité, leur intelligibilité via leur documentation et enfin leur lisibilité.

Il demeure une réalité organisationnelle où tout ne peut cependant être conservé en l'état dans les portails OpenData. Les services archives disposent de méthodes de suivi, de documentation et d'outils de gestion pour traiter les données publiques et leur conservation. La question de l'archivage des données ouvertes en open data n'est pas actuellement bien traitée (il existe même des activistes éthiques qui archivent l'open data de l'état). Il est pourtant légitimes de conserver des données qui ont été publiées, probablement exploitées, indépendamment de leurs sources (applications du système d'information) qui suivent une politique d'archivage propre. Et à ce jour, le problème de la conservation des données temps réel est rarement exploré (volumétrie, format, opportunité).

Cette pratique vise à développer une réflexion autour d'une stratégie d'archivage des données ouvertes au sein des organisations, afin de limiter l'impact environnemental du stockage de données ouvertes. On fera notamment la distinction entre données "vivantes", c'est à dire à jour et applicables, et les données "historiques", qui ne sont plus entretenus ni nécessairement à jour, mais dont l'accès doit être maintenu à de fins de consultation (suivi des politiques, comparaison, patrimoine informationnel).

Description de la bonne pratique

1 - Animer et acter la démarche

Constituer et animer un groupe de travail dédié à la question de l'archivage des données ouvertes.

Ce collectif aura pour tâche de définir la stratégie d'archivage des données ouvertes : qui décide de garder/supprimer/archiver sur temps long... Quelles sont les règles de nommage et de versionning ? Comment identifier, contrôler et à quelles conditions supprimer des données obsolètes stockées en masse ? Quels sont les moyens d'accès à ces données archivées ? Ce groupe doit être animé par les membres du service des archives, et pourrait impliqué le référent aux données ouvertes, le délégué à la protection des données ou encore du responsable de la sécurité des systèmes d'information, de la personne responsable de l’accès aux documents administratifs, et des producteurs de données.

2 - Définir les conditions et critères d'archivage

Il est important de définir clairement pour chaque jeu de données, ses conditions d’archivage :

  • quoi archiver : dans de nombreux cas, conserver un échantillonnage des données produites suffit à développer des modèles et analyses comparatives;

  • mécanismes d’archivage : durée d'utilité administrative des données avant archivage temporaire et enfin pérenne avec accès sur demande,

  • formats ouverts et pérennes des données archivées, infrastructure sécurisée,

  • création et maintien d'un index des données ouvertes archivées,

  • modalité d'accès aux données archivées

  • règles d’administration définissant les modalités d'accès aux archives.

3 - Mieux identifier les données archivées

Séparer les données "vivantes", c'est à dire à jour, applicables ou pertinentes, des données "anciennes", éventuellement utiles à des fins de comparaison (suivi temporal) ou de recherche de version. La séparation évite de trouver ou utiliser des données inexploitables ou avariées; elle permet aussi une gestion d'archivage différente.

Il peut être utile pour mieux identifier les données d'archives, de le labelliser dans le titre ou la description du jeu de données. Un attribut précisant le caractère d'archive d'un jeu de données peut aussi être précisé dans les métadonnées.

4 - Favoriser l'échantillonnage

Plutôt que de conserver l'ensemble d'un jeu de donnée, dans certains cas, en conserver un échantillon peut être suffisant pour limiter la charge de stockage tout en garantissant l'exploitation de modèles et d'analyses.

Retour d'expérience

Mise en oeuvre : La ville d'Antibes en lien étroit avec le service d'archive, démarre une réflexion et expérimente l'archivage de jeux de données très spécifiques (exemple, centre de vaccination), aujourd’hui dé-publié, mais pourtant caractérisé comme stratégique.

Identification : Le Ministère de l'Enseignement, de la Recherche et de l'Innovation a par exemple labellisé dans le titre le caractère d'archive d'un jeu de données "Archives - Appels à projets ANR - Projets retenus et participants identifiés".

Pour aller plus loin

Dernière mise à jour