2️⃣Des outils pour préparer les données

Le travail de préparation des données avant de créer la dataviz est, de loin, l'étape la plus longue. deux grands cas de figure sont à distinguer :

  1. Les données fournies sont brutes et n'ont pas fait encore l'objet d'une publication en open data. L'exploitation des données aura alors comme préalable un (laborieux) travail d'extraction, de nettoyage et de contrôle de qualité des données.

  2. Les données ont été publiées et respectent a minima les règles de lisibilité des données par une machine. Il s'agira alors de traiter les données pour les adaptera au message que l'on souhaite passer et/ou de les organiser pour les rendre exploitables par le logiciel de datavisualisation.

Pour connaitre les principales erreurs et les méthodes pour les éliminer on renverra vers ce guide réalisé par l'infolab de la fing de mise en qualité des données et le "sprint qualité" proposé pour y remédier.

Quelques exemples dans la préparation des données :

  • Regroupement de catégories trop nombreuses pour être représentées de manière lisible

  • Distinction des valeurs zéro des valeurs manquantes

  • Reformulation de libellés pour les rendre compréhensibles par un large public

  • Elimination de colonnes inutiles dans l'optique de la dataviz

  • Adaptation de nomenclatures pour les adapter à l'outil de datavisualisation. Par exemple l'écriture des dénominations de communes (avec tiret, sans tiret pour les noms composés, présence ou pas de caractères spéciaux...) permettant de générer une carte varie d'un outil à l'autre.

  • Organisation des données pour les rendre compatibles avec la datavisualisation choisie

👍 On peut partir de l'organisation des données et du nombre de variables pour trouver les datavizs adaptées

Pour nettoyer les données comme pour les organiser, un outil s'impose, il s'agit d'OpenRefine. A l'origine créé par Google, OpenRefine est désormais un logiciel libre avec une traduction française. Beaucoup plus puissant qu'Excel et a pour particularité de garder la trace de toutes les modifications opérées -l'accès au fichier initial reste toujours possible - voire de les enregistrer pour être "rejouées" sur un jeu de données similaires. On renverra vers ce tutoriel récent et en Français.

Dernière mise à jour