Ressources OpenDataFrance
OpenDataLocaleSocle Commun des Données Locales
  • Description des ressources
  • Les enjeux politiques et stratégiques de la donnée
    • Les enjeux politiques et stratégiques
      • 1 - Transparence
      • 2 - Conformité réglementaire
      • 3 - Transformation
      • 4 - Confiance
      • 5 - Souveraineté
      • 6 - Gouvernance et coopération
      • 7 - Valorisation
      • 8 - Pilotage
      • 9 - Transition
      • Dossier "Enjeux politiques et stratégiques de la donnée" (version imprimable)
  • Guides méthodologiques
    • Comprendre
      • Définition : les données
      • Le glossaire de la donnée
      • Définition : Les données ouvertes
      • Ouvrir les données : une obligation légale
        • Ouvrir les données pour la démocratie
        • Ouvrir les données pour la modernisation de l’action publique
        • Ouvrir les données pour l’innovation économique
      • Inventaire juridique sur les données
      • Guide pédagogique RGPD
      • Comprendre le cycle de vie des données
      • Les métiers autour des données
      • Les acteurs publics de l’ouverture des données
      • Les acteurs associatifs de l’ouverture des données
      • Les acteurs économiques de l’ouverture des données
      • 10 commandements de l'ouverture des données publiques
      • Les premières étapes pour s’engager dans une démarche d’ouverture des données
      • Les dispositifs de publication des données en open data
      • La conduite de projet
    • Produire
      • Choix des licences open data
      • Foire aux questions sur la licence ODbL
      • Comment publier en open data en présence de données à caractère personnel
      • Les données prioritaires
      • Documenter les données avant publication
      • Produire un fichier CSV de qualité
      • Choisir un portail open data
      • Comment publier un jeu de données sur data.gouv.fr
      • Jeux de données des communes les plus fréquemment ouverts
      • Comment afficher sur son site web des données publiées sur data.gouv.fr
        • Préparer les données pour une publication en open data
      • Recommandations pour favoriser l'interopérabilité des données open data
      • Prestataires Conseil et Formation en open data
    • Animer
      • Dataposition Agent/Elu
      • Animation territoriale open data
        • Le Programme OpenDataLocale
        • Identifier les collectivités de son périmètre d'intervention
        • Convention d'accompagnement
      • Les réutilisations de données
      • Les tiers-lieux et acteurs de la médiation numérique
      • Les Infolabs
      • Autres formats d’animation de l’ouverture des données
      • Hackathon
      • Cartopartie
      • Transparence, Concertation, Observatoire
    • Réutiliser
    • Modèles de documents utiles
      • Exemple de délibération en vue du lancement d’un projet open data dans une commune
      • Consultation pour un portail OpenData
      • Mentions légales pour un portail open data
      • Exemple d'accord Cadre sur l'accompagnement d'une démarche Data
      • Clauses à insérer dans les marchés publics
      • Fiche de poste Chef de projet Data
  • GUIDES THEMATIQUES
    • DataEditorial
    • Données et transition
    • GreenData
    • CultureD
  • Formations
    • CultureD
      • Modules complémentaires de formation (CultureD)
        • PA-AM1 : La donnée: pourquoi s'y intéresser? De sa création à son exploitation
        • PA-AM 2 : Maitriser les fonctions de base d'un tableur
    • Formations en ligne (MOOC)
      • La donnée au coeur de la transformation numérique des territoires, comprendre et agir.
      • Programme e-Learning du Portail Européen de Données
    • MasterClass Dataviz
    • Autres supports de formation
      • L'ouverture des données publiques pour et par les collectivités territoriales
      • Archives
        • Comprendre l'open data
        • Mener un projet d'ouverture de données dans ma collectivité
    • Webinaires
      • Le Mois de la Data (ODF)
      • La data dans les territoires (ODF/Cerema)
      • L'open data et vous (CNFPT/Cerema/ODF)
      • Webinaires TNT
        • Webinaire DCANT #5 - Comment mettre en œuvre l'open data dans les territoires
        • Webinaire DCANT #10 - RGPD et collectivités territoriales
        • Webinaire DCANT #13 - Moissonnage des données territoriales sur datagouv
    • Jeux sérieux
      • Les explorateurs des données territoriales
      • Belle Colline
      • Datopolis
  • Outillages
    • DataClic
    • D-Lyne
    • GéoDataMine
    • Standards des données ouvertes
    • Validata
    • Publier.etalab.io
  • Algorithmes et IA
    • Préambule sur les algorithmes
    • 1 - Règlementations
    • 2 - Recommandations de la CNIL
    • 3 - Guides et Recommandations de l'Etat (DINUM / Etalab)
    • 4 - Autres sources
    • 5 - Exemples et Chartes Territoriales
    • 6 - Inventaire de cas d'usage de l'IA dans les collectivités locales et bonnes pratiques
    • 7 - L'actualité IA
      • Actu IA
      • Lancement officel de l'expérimentaiotn IA générative au sein de la fonction publique
      • La CNIL ouvre une consultation sur la constitution de bases de données d’apprentissage | CNIL [fiche
      • Comment les collectivités se préparent à l'arrivée de l'IA ?
      • Vers un IA Act en Europe… ce qu'il faut retenir du projet de réglementation
      • L'IGN combine IA et open data pour cartographier les fermes solaires
      • Quels régimes de régulation des données pour entraîner les IA ?
      • Enquête sur les profils métiers de l'IA
      • L’Espagne se dote de la première agence de supervision de l’IA en Europe
      • DSI : l'intelligence artificielle au sommet des priorités
      • L'IA pilotée par les données : pierre angulaire de l'innovation
      • France 2030 : les inscriptions pour la seconde vague de l'AAP DIAT sont toujours ouvertes
      • Pourquoi l'open source est le berceau de l'intelligence artificielle
      • L’intelligence artificielle peut optimiser la gestion d’un équipement existant
      • Le gouvernement crée un comité d’experts pour d’établir sa stratégie autour de l’IA générative
      • IA Microsoft couvrira ses clients en cas de poursuite pour violation de propriété intellectuelle
  • RGPD - Protection des données personnelles
    • L'atelier RGPD de la CNIL
    • Kit RGPD de Mégalis Bretagne
  • Ressources complémentaires
    • Fiches OpenDataLab (Occitanie)
    • Etude Cycle de la donnée et transformation du SI (FNCCR)
    • Guide pratique opendata du ministère de la culture
    • Open Data Canvas
    • 1, 2, 3 data, expérimenter !
  • Vidéos pédagogiques tierces
    • Le b.a.-ba de la donnée
    • L'open data à la loupe
    • Grand Lyon Data
    • Open data et secteur public
  • EUROPE ET DONNEES
    • Projets open data en Europe
      • Commission européenne
      • Belgique
    • Références et Actualités
      • Le data Act est adopté par le Parlement
      • Les États membres arrêtent une position commune sur l'équité de l'accès aux données
      • Data Act: MEPs back new rules for fair access to and use of industrial data
      • L'Europe multiplie les initiatives pour réglementer l'IA avant l'heure (Les Echos)
  • Espace ressources partenaires
    • Agence Nationale de la Cohésion des Territoires
    • Etalab
    • INET
    • ECOLAB / CGDD / MTE
  • Group 1
Propulsé par GitBook
Sur cette page
  • Définition
  • Le schéma du cycle de vie des données
  • Explication “phase par phase”
  • T0 : Planification de la gestion des données
  • T1 : Acquisition de données
  • T2 : Vérification - contrôle qualité des données
  • T3 : Validation des données
  • T4 : La réutilisation
  • T5 : archives et tri des données
  • 4 - Conclusion
Exporter en PDF
  1. Guides méthodologiques
  2. Comprendre

Comprendre le cycle de vie des données

Présentation du schéma “Le cycle de vie des données”

PrécédentGuide pédagogique RGPDSuivantLes métiers autour des données

Dernière mise à jour il y a 3 ans

Source : OpenDataFrance - Licence : CC-BY-SA

Version : v2.0, date : mai 2022

Crédits : Document élaboré avec les partenaires des territoires d’expérimentation dans le cadre du sprint “cycle de vie des données” OpenDataLocale et en particulier les archives du CD83

Définition

Le cycle de vie des données présente le processus de production, d’utilisation et de conservation ou destruction des données dans une organisation. Il liste les différentes étapes et les acteurs intervenants. Le cycle de vie des données s’applique à l’ensemble des données des organisations. Il permet de repérer la manière d’utiliser les données en fonction de leurs caractéristiques et de préciser les différents usages des données en fonction de leur spécificité. Il présente les différentes interventions nécessaires tout au long de la vie des données dans et hors de l’organisation.

Il existe un cycle par usage. Une donnée peut donc appartenir à plusieurs cycles de vie.

Le schéma du cycle de vie des données

Le schéma présente les différentes phases du cycle de vie. Il est un outil utile pour diffuser, auprès de tous, la bonne compréhension de la circulation des données au sein d’une organisation ainsi que les bonnes pratiques qui y sont attachées.

Explication “phase par phase”

T0 : Planification de la gestion des données

La première phase réside dans dans le choix, l’implémentation et/ou le paramétrage de l’application-métier. Ce premier choix est déterminant car il conditionne l’ensemble du processus d’acquisition et de gestion de la donnée. A l’heure de l’ouverture des données, une application qui ne permettrait qu’un export au format pdf, par exemple, compliquerait la tâche de mise à disposition du jeu de données.

Si la donnée est créée au moment où elle est saisie, cette dernière est conditionnée par les choix effectués en amont sur notamment l’application métier, dans les champs des formulaires. Lors de la phase de planification de la gestion des données, certaines décisions sont prises et déterminent la manière dont les données seront structurées. Le paramétrage de l’application métier conduit ainsi à la production de la structure générale de la base de données interne.

Les outils du SI contraignent la structuration des données. Par exemple : le nommage des champ, leur présence (obligatoire ou pas), le format et la codification de ces champs

Les choix qui sont effectués à cette étape ont des conséquences déterminantes sur le cycle de vie des données : cela a des implications sur la possibilité d’exporter des données et des métadonnées, et sur le choix du/des formats d’export (csv, xml, json...). La qualité des données est clairement un enjeu de cette phase car c’est à ce moment-là que sont définies les règles. L’application doit avant tout répondre aux besoins métiers tout en prenant en compte les besoins techniques et juridiques (archives, CNIL…). C’est à ce stade que la gouvernance est cruciale pour impliquer les personnes concernées et réaliser les bons arbitrages.

T1 : Acquisition de données

La phase d’acquisition de données correspond à la "production" de la donnée.

Les données peuvent être saisies manuellement par un producteur de données (un agent à l’Etat civil, par exemple), ou produites grâce à un capteur (comme lors du comptage du public dans un lieu). Dans le cas d’une captation automatique, représentée par la flèche marquée [1] sur le schéma, on importe des données issues d’une autre application. Les données peuvent donc être récupérées, via des protocoles informatiques, pour limiter la saisie manuelle d’informations existant déjà dans d’autres applications. Cela impose une parfaite correspondance entre l’objet décrit dans chaque champ, le nom et les valeurs possibles de ce champ. Par exemple : dans le cadre d’un marché public, la donnée “identification de l’acheteur” est le SIRET de l’acheteur, elle est donc normée de facto (suite unique de 14 chiffres pour chaque entité), en revanche le “nom de l’acheteur” doit être normalisé en définissant la règle de nommage à utiliser (Par exemple, on a le choix entre Conseil Départemental du Tarn, Département du Tarn, CD Tarn, CD81...). Il est possible de définir les caractères autorisés (majuscules en début de mot ou pour la totalité du mot, minuscules pour toute ou partie du mot, accents, etc.). L’arrêté du 14 avril 2017 relatif aux données essentielles dans la commande publique est un bon exemple de normalisation des données. C'est la question de la standardisation. A ce stade du cycle, il est fondamental que la saisie des données soit guidée. Car la saisie sans contrainte a une forte incidence sur l'hétérogénéité et la complétude, donc sur la qualité. La préparation de la phase de production, via du paramétrage et de la formation, est donc capitale pour la suite du cycle.

T2 : Vérification - contrôle qualité des données

T3 : Validation des données

Dans cette phase T3, iI s’agit de travailler à la validation-métier, sur le “fond”, de la donnée. Les étapes précédentes garantissent la validation sur la forme. Et ce n'est qu'à l'issue de cette phase de validation que la donnée est considérée fiable : elle peut alors être utilisée par le métier, partagée au sein de la collectivité et publiée en ligne à destination des citoyens et des organisations. L’exemple du budget est intéressant : dans une collectivité, chaque entité ou service fait sa demande de budget ; cette demande fait l’objet d’un arbitrage et les montants attribués peuvent être modifiés avant validation. La validation formalise le moment où la donnée correspond à une réalité, à une décision de la collectivité et où elle peut être publiée. Il est important que les outils permettent de figer les données une fois validées afin de garantir la fiabilité et la pérennité.

Le format des données dans la base métier peut ne pas être le même que le format d’export défini pour l’open data. Ce qui est important, c’est que la donnée disponible comporte toutes les informations nécessaires à son formatage open data : éléments nécessaires pour codifier une date, une entité juridique (SIRENE), une adresse ou une localisation (format de projection et niveau de précision), etc.

T4 : La réutilisation

Juste après la validation, les données peuvent donc être utilisées par d’autres applications-métiers ou être publiées en ligne. Ici, il y a deux branches pour illustrer la diversité des usages :

  • La publication en open data qui consiste à donner un accès à des fichiers contenant des copies des données sur des sites web (ou portail) avec une licence (la Licence Ouverte ou Licence OdBL). Pour rendre en rendre l'exploitation possible, il est important que les données soient clairement présentées et documentées (métadonnées) et que les fichiers soient lisibles par des machines, dans des formats non propriétaires. Rappelons que la mise en ligne des données est une obligation pour les collectivités de plus de 3500 habitants et 50 agents (ETP) depuis la loi pour une république numérique, dite Loi Lemaire.

  • L'utilisation par une autre application : dans cette hypothèse, les données correspondent aux besoins de cette application ce qui impose, sur le fond, d’assurer la fiabilité, l’exhaustivité et la fraîcheur des données afin d’éviter de fausser les données de l’application de “destination”. Sur la forme, une standardisation sera la garantie d'une interopérabilité entre les deux applications et assurera qualité et homogénéité.

Pour être possible et facile à mettre en place, il est préférable de prévoir et d’anticiper cette phase de mise à disposition en vue de la réutilisation.

T5 : archives et tri des données

Le numérique laisse penser que tout peut être entreposé et gardé dans les serveurs informatiques sans limite de temps. Or, on ne peut pas tout conserver! Comme dans l’univers du papier, il faut savoir faire un tri. Ce tri consiste à faire le choix de conserver ou détruire certaines données. Il y a des lois qui encadrent la durée de conservation et qui définissent si les données doivent être détruites ou conservées définitivement. Cela dépend de la valeur des données :

  • la valeur juridique (combien de temps ai-je besoin de conserver pour prouver un délit ou, plus largement, prouver les actes),

  • la valeur informationnelle (pendant combien de temps ai-je besoin de l’information pour travailler),

  • la valeur patrimoniale (quand il n’y a plus de valeur juridique ou informationnelle, on l’évalue sous l’angle de la valeur patrimoniale : il est possible d’identifier intérêt pour l’histoire).

Point de vigilance : il peut être intéressant d’avoir réalisé le travail de recensement et d’évaluation de cette fin de cycle (conservation ou destruction) le plus en amont possible. En effet, dans l’environnement numérique, il est beaucoup plus difficile, voire impossible, de réaliser les actions d’“archives” si cela n’a pas été prévu en amont. Associer des compétences expertes sur cette dimension (archivistes) est essentiel.

NB : Les données publiées en open data sont généralement des copies (extrait, normalisation, agrégation) de données-métier. Les données-métier possèdent une logique d’archivage propre, établie en concertation entre les métiers, les archives et la DSI. A priori, il n’y a pas de nécessité absolu pour les données publiées en open data d'être archivées. Cependant, cette pratique est utile si l’on veut conserver l’historique et le contenu des données publiées à un moment donné. Cette décision doit être prise en concertation avec le service des Archives qui décidera de son intérêt juridique, opérationnel ou historique et de son coût.

4 - Conclusion

Nombreux sont les acteurs, agents ou usagers de service public, qui jouent un rôle dans la production, la circulation et l'utilisation de la donnée. L’open data révèle l’importance de la gestion de la donnée (ou de sa gouvernance) durant tout son cycle de vie. Cela a des impacts fonctionnels et techniques mais également organisationnelle. L’amélioration des processus de gestion des données apporte des bénéfices importants à la collectivité dans la maîtrise de son patrimoine informationnel. Cela profite à tous et l’ouverture des données s’en trouve largement facilitée.

Le procédé de vérification et de contrôle qualité est nécessaire pour s’assurer de la fiabilité des données. Il peut prendre la forme de contrôles automatiques ou manuels (c’est pourquoi les procédures de la première phase doivent être réalisées avec précision et de façon exhaustive). Par exemple, dans le cas d’utilisateurs devant saisir manuellement des champs normalisés (tel qu’une date), une application bien paramétrée contraindra la saisie (le champ se présentera sous la forme de date définie : jj/mm/aaaa) ; à l’opposé, une application moins performante nécessitera un contrôle humain. Les phases et T2 peuvent se répéter tant que la donnée n’est pas prête à être validée. La procédure-métier peut nécessiter des modifications, des traitements, des corrections ou des enrichissements.

T1
https://frama.link/cycle_de_vie_donnees