Séquence 8

Identifier et trouver des sources de données pertinentes

Description

La recherche des données est naturellement la première tâche d’un ré-utilisateur en quête de données à collecter et à exploiter. Dans cette séquence, nous allons découvrir quelles sont les différentes sources de données et comment y accéder.

Objectif de la séquence

Permettre aux apprenants de connaître les principales sources de données et les moyens de les rechercher.

Compétences visées

  • Produire et utiliser les données :


  • Durée : 10 minutes

  • Type d'activité : lecture

  • Niveau : débutant

  • Instructions : lors de cette séquence, il vous sera demandé de lire la synthèse ci-dessous (cela ne prendra que 5 minutes), et de compléter l'activité pédagogique et le quiz. Pensez à partager vos réponses sur le forum !


Identifier et trouver des sources de données pertinentes

La recherche des données est la première tâche d’un ré-utilisateur de données qui se trouve dans trois cas :

  • Connaît précisément la source de données.

  • Connaît quelques sources (locales ou nationales).

  • Ne sait absolument pas où chercher.

Toutefois, dans tous les cas, il faut comprendre comment les données sont (plus ou moins) présentées ! Quelque soit la source de données (un site web, une base de données, un portail spécialisé), les données sont présentées selon trois niveaux :

L'exemple ci-dessous montre comment des données peuvent se présenter sur différents niveaux. Ici nous avons les données de suivi de l'épidémie de Covid 19, dont la présentation commence avec des tableaux de données brutes, puis des métadonnées pour expliquer le contexte et enfin des indicateurs et visualisations qui permettent une meilleure compréhension.

Rechercher un jeu de données

Quand on ne sait pas où se trouvent les données, il faut partir à la découverte !

  1. Le cas le moins favorable : on recherche sur le web (recherche Google, Qwant, autres…) avec des mots-clés : data, open data, données ouvertes + thématique (exemple : “open data covid”).

  2. Le cas le plus favorable : on présume que les données sont référencées sur un portail particulier. Essayez : les données du covid sur le portail national (“data.gouv” + “covid”), mais aussi :

  • les données de subvention sur le portail d’une collectivité (“data.toulouse” + “subvention”)

  • des données “horaire de bus” sur un portail thématique : “transport.data.gouv.fr” + “transport en commun” + “poitiers”)

Lors que les sources de données sont identifiées, la recherche de données devient plus facile :

  • Exemple 1 : portail open data de Bordeaux (406 jeux de données)

https://opendata.bordeaux-metropole.fr/explore/?disjunctive.publisher&disjunctive.frequence&disjunctive.keyword&sort=title

Pour connaître toutes les plateformes open data locale, l’observatoire open data des territoires propose un référencement (par nature évolutif) : https://odf-carto.netlify.app/?datami_tab=2&datami_view=table

Il existe de nombreux autres référentiels thématiques : datatourisme, Data.économie.gouv, data.education.gouv, etc

Collecter/récupérer des données

De manière générale, il existe deux manières de collecter des données :

  • Collecter des données ouvertes et/ou déjà publiées en ligne

La loi république numérique rend obligatoire la pubication des données produites (et non protégées) par les acteurs publics (et plus généralement toutes les structures pubiques ou privées dans le cadre de mission de services publics) au delà de 3 500 habitants.

  • Faire une demande auprès d'une administration (en application de la loi CADA par exemple)

Lorsque l'acteur public ne publie pas les données recherchées en open data, il est possible de s'adresser à lui pour en faire formellement la demande et, en cas de refus non justifié, d'invoquer la Commission d'Accès aux Documents Administratifs.

Les métadonnées : le point essentiel dans la recherche !

Qu’est-ce qu’une métadonnée ?

Il s’agit de la description des données : description précise, qui les produit ? à quelle date ? à quelle échelle ? quelle thématique ? les droits et obligations (Licences) ? où se trouvent les données et dans quel format ?

Il existe différents standards de métadonnées

Il existe différents standards de métadonnées (Inspire, standard Catalogue simplifié sur schema.data.gouv.fr, format spécifique lié à une plateforme/ou une technologie) qui donnent à peu près les mêmes informations obligatoires. Exemples :

Plus de ressources sur les métadonnées :

  • Qu'est-ce qu'une métadonnée ?

https://opendatafrance.gitbook.io/kit-de-ressources-odf/

  • Licences : Quels sont les droits et obligations dans la réutilisation des données ?

https://opendatafrance.gitbook.io/kit-de-ressources-odf/

  • Les métadonnées, élément incontournable de la qualité des données

https://opendatafrance.gitbook.io/le-mois-de-la-data/saison-1-en-mode-replay/linteroperabilite-et-qualite-des-donnees


Activité

Voici un jeu de données de "parking" publié par Rennes Métropole

https://data.rennesmetropole.fr/explore/dataset/parkings/information/

  • Selon vous, qui a produit ces données ?

  • Quelle est la date de publication ou de mise à jour ?

  • La licence impose-t-elle un partage à l'identique (share-alike) ?

N'hésitez pas à partager vos résultats sur le forum !


Base "Inventaire des outils d'acculturation aux données - Culture D" + filtre par Compétence "Produire et utiliser les données "

Dernière mise à jour

Logo

CC-BY-SA 2023