Séquence 9

Produire des données de qualité

Description

Si on entend souvent parler de "quantité" lorsqu'il s'agit des données, notamment en référence au big data, la qualité des données n'est certainement pas à négliger. Elle doit être au coeur de l'attention de toute démarche de production et de gouvernance de données afin d'assurer des données "saines", exploitables, cohérentes et utilisables. Dans cette séquence, nous découvrirons les différents critères de qualité des données.

Objectif de la séquence

Permettre aux apprenants de savoir comment garantir au mieux la qualité des données produites.

Compétences visées

  • Produire et utiliser les données :


  • Durée : entre 30 minutes.

  • Type d'activité : lecture

  • Niveau : débutant - intermédiaire

  • Instructions : lisez attentivement le résumé ci-dessous ainsi que le document pour découvrir en détails les critères de qualité des données. À l'issue de votre lecture, nous vous invitons vivement à compléter le jeu des 20 erreurs. N'hésitez pas à partager vos trouvailles sur le forum !


Produire des données de qualité

De quelles données parlons-nous ?

Distinguons d’abord les données de “production métier”, c’est-à-dire les données qu’un service produit ou génère dans le cadre de ses missions. Ces données sont issues des processus de gestion du service concerné. Elles sont stockées dans des bases de données à travers des applications métier ou tout simplement dans des outils bureautique (ex tableur de type excel.

Pourquoi s’intéresser à la qualité des données produites ?

Les bonnes pratiques de travail dans un monde ouvert où les données sont au coeur des décisions, il devient important d’anticiper leur réutilisation par d’autres acteurs que le seul producteur : un collègue de travail, un autre service, une autre collectivité, des acteurs de la société civile. S’assurer que les données que je produis apportera plus d’efficacité aux autres acteurs mais améliorera aussi singulièrement mon propre travail : données plus fiables, plus à jour, plus faciles à exploiter. Mais si les autres acteurs font de même, alors je profiterai à mon tour de la qualité des données des autres acteurs. Globalement, nous serons donc plus efficaces et professionnels.

La qualité a un coût, le manque de qualité a un coût encore plus important !

Une règle absolue en matière de qualité des données : la qualité des données est toujours relative, elle ne dépend que de l’usage ! Depuis le début de l’open data, l’un des principaux reproches formulé par les réutilisateurs est celui d’une médiocre qualité des données. Par exemple, l’agrégation de plusieurs sources, combinée à une mauvaise qualité de données, demande un temps de préparation considérable pour les data scientists. L’effort de qualité au-delà des besoins de l’usage premier, lorsqu’il est raisonnable, peut donc se révéler très utile pour les multiples vies de la donnée. La qualité des données engendre une source intéressante d’externalités positives. Outre la réduction des coûts, la qualité des données sert à développer des opportunités, de nouveaux services. Il y a un lien direct entre la qualité d’une donnée et son usage.

Où s’arrêter ?

Il n’y a pas de qualité “absolue”, c’est l’usage, le bon sens et l’exigence professionnelles qui dictent le travail raisonnable à produire.

Existe-t-il un référentiel pour la qualité de données de production ?

Assez peu en fait, ou bien très générique… Mais il existe des préconisations sur la qualité de données publiées en open data. Puisqu’elles sont issues de bases de données métier, il est fort probable que toutes les règles “Qualité des données open data” soient applicables aux données sources. On peut même dire que plus les données ont une qualité intrinsèque au niveau de la base de données métier “suffisamment bonne”, plus les données qui seront extraites et publiées en open data seront aussi de bonne qualité ou, qu’en tout cas, le travail de préparation avant publication sera plus facile.

Quelles sont les bonnes pratiques pour des données de qualité ?

==> Découvrez en bref les critères d'une donnée de qualité :

Pour découvrir les critères en détail et comment s'en assurer, parcourez le document ci-dessous :


Activité

Voici un jeu de données : parcourez-le attentivement et tentez de repérer les erreurs qui s'y trouvent, un petit indice...il y en a 20.

Partagez vos résultats sur le forum et découvrez le corrigé de l'activité !


Base "Inventaire des outils d'acculturation aux données - Culture D" + filtre par Compétence = "Produire et utiliser les données "


Sources et références

Le jeu des 20 erreurs a été créé dans la cadre du programme "Infolabs" de la Fing, 2015.

Dernière mise à jour

Logo

CC-BY-SA 2023