Ressources OpenDataFrance
OpenDataLocaleSocle Commun des Données Locales
  • Description des ressources
  • Les enjeux politiques et stratégiques de la donnée
    • Les enjeux politiques et stratégiques
      • 1 - Transparence
      • 2 - Conformité réglementaire
      • 3 - Transformation
      • 4 - Confiance
      • 5 - Souveraineté
      • 6 - Gouvernance et coopération
      • 7 - Valorisation
      • 8 - Pilotage
      • 9 - Transition
      • Dossier "Enjeux politiques et stratégiques de la donnée" (version imprimable)
  • Guides méthodologiques
    • Comprendre
      • Définition : les données
      • Le glossaire de la donnée
      • Définition : Les données ouvertes
      • Ouvrir les données : une obligation légale
        • Ouvrir les données pour la démocratie
        • Ouvrir les données pour la modernisation de l’action publique
        • Ouvrir les données pour l’innovation économique
      • Inventaire juridique sur les données
      • Guide pédagogique RGPD
      • Comprendre le cycle de vie des données
      • Les métiers autour des données
      • Les acteurs publics de l’ouverture des données
      • Les acteurs associatifs de l’ouverture des données
      • Les acteurs économiques de l’ouverture des données
      • 10 commandements de l'ouverture des données publiques
      • Les premières étapes pour s’engager dans une démarche d’ouverture des données
      • Les dispositifs de publication des données en open data
      • La conduite de projet
    • Produire
      • Choix des licences open data
      • Foire aux questions sur la licence ODbL
      • Comment publier en open data en présence de données à caractère personnel
      • Les données prioritaires
      • Documenter les données avant publication
      • Produire un fichier CSV de qualité
      • Choisir un portail open data
      • Comment publier un jeu de données sur data.gouv.fr
      • Jeux de données des communes les plus fréquemment ouverts
      • Comment afficher sur son site web des données publiées sur data.gouv.fr
        • Préparer les données pour une publication en open data
      • Recommandations pour favoriser l'interopérabilité des données open data
      • Prestataires Conseil et Formation en open data
    • Animer
      • Dataposition Agent/Elu
      • Animation territoriale open data
        • Le Programme OpenDataLocale
        • Identifier les collectivités de son périmètre d'intervention
        • Convention d'accompagnement
      • Les réutilisations de données
      • Les tiers-lieux et acteurs de la médiation numérique
      • Les Infolabs
      • Autres formats d’animation de l’ouverture des données
      • Hackathon
      • Cartopartie
      • Transparence, Concertation, Observatoire
    • Réutiliser
    • Modèles de documents utiles
      • Exemple de délibération en vue du lancement d’un projet open data dans une commune
      • Consultation pour un portail OpenData
      • Mentions légales pour un portail open data
      • Exemple d'accord Cadre sur l'accompagnement d'une démarche Data
      • Clauses à insérer dans les marchés publics
      • Fiche de poste Chef de projet Data
  • GUIDES THEMATIQUES
    • DataEditorial
    • Données et transition
    • GreenData
    • CultureD
  • Formations
    • CultureD
      • Modules complémentaires de formation (CultureD)
        • PA-AM1 : La donnée: pourquoi s'y intéresser? De sa création à son exploitation
        • PA-AM 2 : Maitriser les fonctions de base d'un tableur
    • Formations en ligne (MOOC)
      • La donnée au coeur de la transformation numérique des territoires, comprendre et agir.
      • Programme e-Learning du Portail Européen de Données
    • MasterClass Dataviz
    • Autres supports de formation
      • L'ouverture des données publiques pour et par les collectivités territoriales
      • Archives
        • Comprendre l'open data
        • Mener un projet d'ouverture de données dans ma collectivité
    • Webinaires
      • Le Mois de la Data (ODF)
      • La data dans les territoires (ODF/Cerema)
      • L'open data et vous (CNFPT/Cerema/ODF)
      • Webinaires TNT
        • Webinaire DCANT #5 - Comment mettre en œuvre l'open data dans les territoires
        • Webinaire DCANT #10 - RGPD et collectivités territoriales
        • Webinaire DCANT #13 - Moissonnage des données territoriales sur datagouv
    • Jeux sérieux
      • Les explorateurs des données territoriales
      • Belle Colline
      • Datopolis
  • Outillages
    • DataClic
    • D-Lyne
    • GéoDataMine
    • Standards des données ouvertes
    • Validata
    • Publier.etalab.io
  • Algorithmes et IA
    • Préambule sur les algorithmes
    • 1 - Règlementations
    • 2 - Recommandations de la CNIL
    • 3 - Guides et Recommandations de l'Etat (DINUM / Etalab)
    • 4 - Autres sources
    • 5 - Exemples et Chartes Territoriales
    • 6 - Inventaire de cas d'usage de l'IA dans les collectivités locales et bonnes pratiques
    • 7 - L'actualité IA
      • Actu IA
      • Lancement officel de l'expérimentaiotn IA générative au sein de la fonction publique
      • La CNIL ouvre une consultation sur la constitution de bases de données d’apprentissage | CNIL [fiche
      • Comment les collectivités se préparent à l'arrivée de l'IA ?
      • Vers un IA Act en Europe… ce qu'il faut retenir du projet de réglementation
      • L'IGN combine IA et open data pour cartographier les fermes solaires
      • Quels régimes de régulation des données pour entraîner les IA ?
      • Enquête sur les profils métiers de l'IA
      • L’Espagne se dote de la première agence de supervision de l’IA en Europe
      • DSI : l'intelligence artificielle au sommet des priorités
      • L'IA pilotée par les données : pierre angulaire de l'innovation
      • France 2030 : les inscriptions pour la seconde vague de l'AAP DIAT sont toujours ouvertes
      • Pourquoi l'open source est le berceau de l'intelligence artificielle
      • L’intelligence artificielle peut optimiser la gestion d’un équipement existant
      • Le gouvernement crée un comité d’experts pour d’établir sa stratégie autour de l’IA générative
      • IA Microsoft couvrira ses clients en cas de poursuite pour violation de propriété intellectuelle
  • RGPD - Protection des données personnelles
    • L'atelier RGPD de la CNIL
    • Kit RGPD de Mégalis Bretagne
  • Ressources complémentaires
    • Fiches OpenDataLab (Occitanie)
    • Etude Cycle de la donnée et transformation du SI (FNCCR)
    • Guide pratique opendata du ministère de la culture
    • Open Data Canvas
    • 1, 2, 3 data, expérimenter !
  • Vidéos pédagogiques tierces
    • Le b.a.-ba de la donnée
    • L'open data à la loupe
    • Grand Lyon Data
    • Open data et secteur public
  • EUROPE ET DONNEES
    • Projets open data en Europe
      • Commission européenne
      • Belgique
    • Références et Actualités
      • Le data Act est adopté par le Parlement
      • Les États membres arrêtent une position commune sur l'équité de l'accès aux données
      • Data Act: MEPs back new rules for fair access to and use of industrial data
      • L'Europe multiplie les initiatives pour réglementer l'IA avant l'heure (Les Echos)
  • Espace ressources partenaires
    • Agence Nationale de la Cohésion des Territoires
    • Etalab
    • INET
    • ECOLAB / CGDD / MTE
  • Group 1
Propulsé par GitBook
Sur cette page
  • Les étapes pour préparer les données avant publication
  • Identifier les données ou les bases de données
  • Identifier si une standardisation existe
  • Choisir le modèle d’extraction, le format et la licence
  • Si les données ne sont pas dans un système d’information : convertir les données dans un format ouvert
  • Si les données sont dans un SI : identifier les opérations d'exportation des données
  • Évaluer les données brutes
  • Rendre les données intelligibles
  • Faire en sorte que la prochaine diffusion de données se fasse facilement
  • Valider les données prêtes à faire publier
  • Mettre en scène la publication des données
Exporter en PDF
  1. Guides méthodologiques
  2. Produire
  3. Comment afficher sur son site web des données publiées sur data.gouv.fr

Préparer les données pour une publication en open data

Ce document détaille les étapes de préparation d’un jeu de données

PrécédentComment afficher sur son site web des données publiées sur data.gouv.frSuivantRecommandations pour favoriser l'interopérabilité des données open data

Dernière mise à jour il y a 2 ans

Source : OpenDataFrance - Licence : CC-BY-SA

Version : v2.0, date : juillet 2022

Les étapes pour préparer les données avant publication

Identifier les données ou les bases de données

Cela exige de procéder par de multiples approches car il est rare d'avoir un inventaire exhaustif des données. Les services les plus compétents pour aider dans cette démarche sont les services d'archive, de documentation, d'informatique, d'information géographique, du numérique, d'observatoire, de pilotage, de dgs, de communication. On sera vigilant à récupérer des données brutes et non des données travaillées, comme par exemple sous forme de statistiques.

Identifier si une standardisation existe

OpenDataFrance propose le , il s’agit des données que les collectivités doivent publier en priorité, dans un format normalisé.

Un premier périmètre de données “prioritaires” a été établi autour des données suivantes :

  • Catalogue : dictionnaire des données publiées

  • Délibérations : données déclaratives (date, objet, type), sans données personnelles

  • Marchés Publics : date, nature, montant et identification des tiers bénéficiaires

  • Subventions : date, nature, montant et identification des tiers bénéficiaires

  • Équipements Collectifs Publics : inventaire géolocalisé des équipements collectifs publics implantés sur un territoire

  • État Civil : statistiques sur les prénoms des nouveaux-nés

  • Base Adresse Locale : correspondance entre l'adresse et la géolocalisation précise

  • Infrastructures de Recharge de Véhicules Électriques : localisation géographique et caractéristiques techniques des stations et des points de recharge pour véhicules électriques

  • Normalisation des éléments de base : codification normalisée des champs habituellement utilisés

Choisir le modèle d’extraction, le format et la licence

Si une standardisation existe vous devrez essayer de l’appliquer au plus près. Cette opération peut être plus ou moins facile.

Votre modèle d’extraction est l’occasion de faire un premier niveau de nettoyage, autrement dit, l’occasion de sortir les données qui n’apportent rien au fichier tels que des identifiants techniques internes, ou des données qui font l’objet d’une législation qui empêchent leur publication.

Certains acteurs choisissent de publier leurs données dans plusieurs formats, comme le fait par exemple Bordeaux métropole qui pour ses données géographiques a choisi les formats suivants : ESRI Shapefile RGF93/CC45, ESRI Shapefile RGF93/Lambert93, Google KMZ, WebService OGC WMS, WebService OGC WFS, Fichier CSV, AutoCAD DWG.

En ce qui concerne la licence, elle aura été probablement choisie en amont et annoncée dans la délibération donnant le cadre de l’ouverture des données. Mais il est toutefois utile de se poser la question avant la publication de chaque jeu de données.

Si les données ne sont pas dans un système d’information : convertir les données dans un format ouvert

Il arrive que les données qui sont dans des fichiers, pour en faciliter les lectures et traitements sont "esthétisées": les cases des tableurs sont esthétisées, des cellules sont fusionnées, des textes sont en italique ou graissés... Certains fichiers de type tableur, peuvent être organisés en onglets ou bénéficier de "macro" plus ou moins complexes.

L'ensemble de ces aménagements spécifiques éloignent le fichier de son potentiel de réutilisation. Un fichier qui aurait au moins une de ces “fantaisies” ne répond pas aux standards de l'ouverture.

Si les données sont dans un SI : identifier les opérations d'exportation des données

Chaque base de données ou application métier a ses opérations préalables à l'exportation. Parfois, il y a aura un bouton ou un menu “exporter les données”, dans d'autres cas il sera possible de présélectionner les données avant de les exporter, dans d'autres cas encore, rien n'est prévu nativement pour exporter les données. Dans cette hypothèse, il faudra mettre en place une opération technique qui réalise l'export, opération souvent désignée comme "moulinette" ou "patch". La "moulinette" peut être une simple ligne de commande ou bien réalisée par un programme ou un outil d'extraction tels que les ETL (Extract, Transform, Load) : Talend, Knime, Pentaho Data Integration...

Ces derniers outils permettent d'extraire des données de n'importe quel format (fichiers, bases de données, pages html...) pour ensuite les traiter si besoin (changer le nom des entêtes, corriger les formats de dates, uniformiser les différences de nommage de certains champs, croiser des données entre-elles...) pour ensuite les réinjecter dans un entrepôt de données spécifique pour l'opendata, dans des fichiers csv ou tout autre format.

Certains standards, comme GTFS, demandent beaucoup de rigueur pour répondre à leurs exigences. L'export des données va exposer les données sous une nouvelle réalité. En effet, tant que les données sont dans leur environnement logiciel, elles ont une cohérence utile aux exploitations quotidiennes, mais sorties de leur contexte usuel, elles peuvent faire apparaître des "défauts" de qualité. Dans cette phase, il est vraiment important de faire un travail avec les agents qui s'occupent de l'alimentation des données à la source pour que les erreurs repérées puissent être corrigées au plus prés de l'alimentation source.

Si possible, on organisera le SI de sorte à ne pas activer la “moulinette” manuellement mais à appliquer des procédés automatisés. La solution usuellement retenue est la mise en place d’API, simple à mettre en place et appréciée des réutilisateurs.

Évaluer les données brutes

Lorsque les données viennent d'être exportées, il faut avoir un regard général pour cette nouvelle forme de présentation. Dans certains cas, il y a aura des défaut des formes; par exemples, les caractères accentués s'afficheront mal. Dans d'autres cas, il y aura des habitudes de services, les agents, dans leur travail quotidien, utilisant des abréviations ou diverses expressions, sorte d'argot professionnel. Une personne extérieure au service, n'aura pas facilement les significations des différents termes utilisés, à moins qu'ils soient documentés. Dans d'autres cas, la nouvelle mise en forme des données fait apparaître des notions dérangeantes : un lieu est privilégié, un élu est sur ou sous exposé, les effets des politiques du moment ne se voient pas dans les données qui sont représentatives des mois antérieurs.... La diffusion des données pourraient venir perturber les missions de services publics. Par exemple, diffuser les sections des tuyaux des réseaux d'assainissement pourrait favoriser des explorations dans les tuyaux dans lesquels il est possible de tenir debout. Enfin, l'ouverture des données pourrait être contrainte pour une disposition réglementaire spécifique.

Rendre les données intelligibles

Faire en sorte que la prochaine diffusion de données se fasse facilement

Le fichier de données brutes pour répondre aux attendus d’intelligibilités des humains et des machines a subit de nombreuses transformations. Certaines transformations sont des transformations de mises à niveau pour une ouverture facilitée. Il est souhaitable qu'elles soient le plus nombreuses possibles et qu'il ne soit plus obligé de revenir dessus pour chaque mises à jour. Les transformations de mises à jour sont le minimum des transformations qu'il faut opérer pour publier la nouvelle version du jeu de données. Par exemple, il est souhaitable que la publication mensuelle du fichier des marchés publics ne demande qu'un changement de date dans le nom du fichier. Cette étape peut être l'objet d'une réorganisation plus ou moins profonde du travail de production de données ou peut révéler un besoin de formation…

Valider les données prêtes à faire publier

Dans bien des cas, avant l'ouverture du jeu de données, l'agent producteur aura validé les données prêtes pour l’application. Et à son tour, il aura fait valider le fichier à un de ses responsables hiérarchiques. C’est l’occasion de conforter le rythme des mises à jour.

Mettre en scène la publication des données

Il faudra produire un texte qui présente le service producteur et les données afin de mettre en avant le jeu de données sur le site internet ou les éventuels messages dans les communiqués de presse ou sur les réseaux sociaux.

Il faudra également savoir si le jeu de données est présenté ou non sous forme de datavisualisation.

Il existe peut-être un événement ou un document qui est en lien avec l’ouverture de ces données. Par exemple, l’ouverture des données des vélos en libre service peut être présentée dans un encadré sur le flyers de la semaine de la mobilité.

Pour aller plus loin se reporter au .

Si il n’y a pas de standardisation, vous devrez au moins appliquer les préconisations faites sur les intitulés de colonnes usuels tel l’adresse, la date, le nom de l’acteur… Le document “” du Socle Commun des Données Locales (SCDL) peut vous y aider.

Ensuite, vous devrez savoir sur quel(s) format(s) doivent être présentés vos données. Les attendus de la loi pour une République numérique sont “dans un format ouvert, aisément réutilisable et exploitable par un système de traitement automatisé”. Le format le plus répandu est le format .csv. La fiche est rédigée pour vous aider à ce travail.

Enfin, des doublons ou des incohérences pourraient apparaître; ainsi, souvent, c’est une nouvelle occasion de faire des opérations de nettoyage. Elles seront facilités par des outils tels que les ETL ou d'autres comme

Il peut y avoir certaines transformations du texte, des intitulés des colonnes, des abréviations pour rendre les données lisibles par toutes les personnes extérieures au service producteur de données. Une documentation viendra compléter cette mise en visibilité des données. Pour rédiger la documentation, il est possible de s’appuyer sur la trame type rédigée par OpenDataFrance : C’est l’occasion, de mettre en place les métadonnées. Dans bien des cas, ces dernières s’appuient sur un dictionnaire des métadonnées. C’est à ce moment qu’on décide de la fréquence de mises à jour des données.

Socle Commun des Données Locales
Socle Commun des Données Locales
Normalisation des éléments de base
Produire un fichier CSV de qualité
Openrefine
Documenter les données avant publication