Séquence 8
Identifier et trouver des sources de données pertinentes
Description
La recherche des données est naturellement la première tâche d’un ré-utilisateur en quête de données à collecter et à exploiter. Dans cette séquence, nous allons découvrir quelles sont les différentes sources de données et comment y accéder.
Objectif de la séquence
Permettre aux apprenants de connaître les principales sources de données et les moyens de les rechercher.
Compétences visées
Produire et utiliser les données :
Durée : 10 minutes
Type d'activité : lecture
Niveau : débutant
Instructions : lors de cette séquence, il vous sera demandé de lire la synthèse ci-dessous (cela ne prendra que 5 minutes), et de compléter l'activité pédagogique et le quiz. Pensez à partager vos réponses sur le forum !
Identifier et trouver des sources de données pertinentes
La recherche des données est la première tâche d’un ré-utilisateur de données qui se trouve dans trois cas :
Connaît précisément la source de données.
Connaît quelques sources (locales ou nationales).
Ne sait absolument pas où chercher.
Toutefois, dans tous les cas, il faut comprendre comment les données sont (plus ou moins) présentées ! Quelque soit la source de données (un site web, une base de données, un portail spécialisé), les données sont présentées selon trois niveaux :
L'exemple ci-dessous montre comment des données peuvent se présenter sur différents niveaux. Ici nous avons les données de suivi de l'épidémie de Covid 19, dont la présentation commence avec des tableaux de données brutes, puis des métadonnées pour expliquer le contexte et enfin des indicateurs et visualisations qui permettent une meilleure compréhension.
Rechercher un jeu de données
Quand on ne sait pas où se trouvent les données, il faut partir à la découverte !
Le cas le moins favorable : on recherche sur le web (recherche Google, Qwant, autres…) avec des mots-clés : data, open data, données ouvertes + thématique (exemple : “open data covid”).
Le cas le plus favorable : on présume que les données sont référencées sur un portail particulier. Essayez : les données du covid sur le portail national (“data.gouv” + “covid”), mais aussi :
les données de subvention sur le portail d’une collectivité (“data.toulouse” + “subvention”)
des données “horaire de bus” sur un portail thématique : “transport.data.gouv.fr” + “transport en commun” + “poitiers”)
Lors que les sources de données sont identifiées, la recherche de données devient plus facile :
Exemple 1 : portail open data de Bordeaux (406 jeux de données)
Collecter/récupérer des données
De manière générale, il existe deux manières de collecter des données :
Collecter des données ouvertes et/ou déjà publiées en ligne
La loi république numérique rend obligatoire la pubication des données produites (et non protégées) par les acteurs publics (et plus généralement toutes les structures pubiques ou privées dans le cadre de mission de services publics) au delà de 3 500 habitants.
Faire une demande auprès d'une administration (en application de la loi CADA par exemple)
Lorsque l'acteur public ne publie pas les données recherchées en open data, il est possible de s'adresser à lui pour en faire formellement la demande et, en cas de refus non justifié, d'invoquer la Commission d'Accès aux Documents Administratifs.
Les métadonnées : le point essentiel dans la recherche !
Qu’est-ce qu’une métadonnée ?
Il s’agit de la description des données : description précise, qui les produit ? à quelle date ? à quelle échelle ? quelle thématique ? les droits et obligations (Licences) ? où se trouvent les données et dans quel format ?
Il existe différents standards de métadonnées
Plus de ressources sur les métadonnées :
Qu'est-ce qu'une métadonnée ?
Licences : Quels sont les droits et obligations dans la réutilisation des données ?
Les métadonnées, élément incontournable de la qualité des données
Activité
Voici un jeu de données de "parking" publié par Rennes Métropole
Selon vous, qui a produit ces données ?
Quelle est la date de publication ou de mise à jour ?
La licence impose-t-elle un partage à l'identique (share-alike) ?
N'hésitez pas à partager vos résultats sur le forum !
Dernière mise à jour