Séquence 8
Identifier et trouver des sources de données pertinentes
Description
La recherche des données est naturellement la première tâche d’un ré-utilisateur en quête de données à collecter et à exploiter. Dans cette séquence, nous allons découvrir quelles sont les différentes sources de données et comment y accéder.
Objectif de la séquence
Permettre aux apprenants de connaître les principales sources de données et les moyens de les rechercher.
Compétences visées
Produire et utiliser les données :
Durée : 10 minutes
Type d'activité : lecture
Niveau : débutant
Instructions : lors de cette séquence, il vous sera demandé de lire la synthèse ci-dessous (cela ne prendra que 5 minutes), et de compléter l'activité pédagogique et le quiz. Pensez à partager vos réponses sur le forum !
Identifier et trouver des sources de données pertinentes
La recherche des données est la première tâche d’un ré-utilisateur de données qui se trouve dans trois cas :
Connaît précisément la source de données.
Connaît quelques sources (locales ou nationales).
Ne sait absolument pas où chercher.
Toutefois, dans tous les cas, il faut comprendre comment les données sont (plus ou moins) présentées ! Quelque soit la source de données (un site web, une base de données, un portail spécialisé), les données sont présentées selon trois niveaux :
L'exemple ci-dessous montre comment des données peuvent se présenter sur différents niveaux. Ici nous avons les données de suivi de l'épidémie de Covid 19, dont la présentation commence avec des tableaux de données brutes, puis des métadonnées pour expliquer le contexte et enfin des indicateurs et visualisations qui permettent une meilleure compréhension.
Rechercher un jeu de données
Quand on ne sait pas où se trouvent les données, il faut partir à la découverte !
Le cas le moins favorable : on recherche sur le web (recherche Google, Qwant, autres…) avec des mots-clés : data, open data, données ouvertes + thématique (exemple : “open data covid”).
Le cas le plus favorable : on présume que les données sont référencées sur un portail particulier. Essayez : les données du covid sur le portail national (“data.gouv” + “covid”), mais aussi :
les données de subvention sur le portail d’une collectivité (“data.toulouse” + “subvention”)
des données “horaire de bus” sur un portail thématique : “transport.data.gouv.fr” + “transport en commun” + “poitiers”)
Lors que les sources de données sont identifiées, la recherche de données devient plus facile :
Exemple 1 : portail open data de Bordeaux (406 jeux de données)
Pour connaître toutes les plateformes open data locale, l’observatoire open data des territoires propose un référencement (par nature évolutif) : https://odf-carto.netlify.app/?datami_tab=2&datami_view=table
Exemple 2 : le portail des données de transport : https://transport.data.gouv.fr/
Il existe de nombreux autres référentiels thématiques : datatourisme, Data.économie.gouv, data.education.gouv, etc
Exemple 3 : un référentiel se proposant de référencer les données environnementales accessibles : https://airtable.com/appHwbUm6OOJNGZ3h/shrTGeH61EnzlzpfO/tblco21iILl7TKJT8
Collecter/récupérer des données
De manière générale, il existe deux manières de collecter des données :
Collecter des données ouvertes et/ou déjà publiées en ligne
La loi république numérique rend obligatoire la pubication des données produites (et non protégées) par les acteurs publics (et plus généralement toutes les structures pubiques ou privées dans le cadre de mission de services publics) au delà de 3 500 habitants.
Faire une demande auprès d'une administration (en application de la loi CADA par exemple)
Lorsque l'acteur public ne publie pas les données recherchées en open data, il est possible de s'adresser à lui pour en faire formellement la demande et, en cas de refus non justifié, d'invoquer la Commission d'Accès aux Documents Administratifs.
Les métadonnées : le point essentiel dans la recherche !
Qu’est-ce qu’une métadonnée ?
Il s’agit de la description des données : description précise, qui les produit ? à quelle date ? à quelle échelle ? quelle thématique ? les droits et obligations (Licences) ? où se trouvent les données et dans quel format ?
Il existe différents standards de métadonnées
Il existe différents standards de métadonnées (Inspire, standard Catalogue simplifié sur schema.data.gouv.fr, format spécifique lié à une plateforme/ou une technologie) qui donnent à peu près les mêmes informations obligatoires. Exemples :
Les métadonnées dans le champ de l’information géographique : https://cnig.gouv.fr/IMG/pdf/guide-de-saisie-des-elements-de-metadonnees-inspire-v2_0.pdf
Les métadonnées proposées dans le standard national Catalogue (métadonnées simplifiées) https://schema.data.gouv.fr/scdl/catalogue/0.1.3/documentation.html
Les métadonnées sur le portail national Data.gouv.fr (imposées par la plateforme) https://recherche.data.gouv.fr/fr/categorie/39/guide/guide-de-saisie-des-metadonnees-generales
Les métadonnées des données publiées par l’INSEE : sauriez-vous trouver les métadonnées associées à des données statistiques publiées par l’INSEE ? https://www.insee.fr/fr/statistiques?debut=0&idprec=105299226&theme=28+30+32+33+36+35+27
Plus de ressources sur les métadonnées :
Qu'est-ce qu'une métadonnée ?
https://opendatafrance.gitbook.io/kit-de-ressources-odf/
Licences : Quels sont les droits et obligations dans la réutilisation des données ?
https://opendatafrance.gitbook.io/kit-de-ressources-odf/
Les métadonnées, élément incontournable de la qualité des données
La qualité des données est relative, elle ne dépend que de l’usage https://drive.google.com/file/d/1n220nkkZUUlk44skQ86WmgDYUmleRHMJ/view
Activité
Voici un jeu de données de "parking" publié par Rennes Métropole
https://data.rennesmetropole.fr/explore/dataset/parkings/information/
Selon vous, qui a produit ces données ?
Quelle est la date de publication ou de mise à jour ?
La licence impose-t-elle un partage à l'identique (share-alike) ?
N'hésitez pas à partager vos résultats sur le forum !
Base "Inventaire des outils d'acculturation aux données - Culture D" + filtre par Compétence "Produire et utiliser les données "
Dernière mise à jour