> For the complete documentation index, see [llms.txt](https://opendatafrance.gitbook.io/editorialisation-des-donnees-publiques/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://opendatafrance.gitbook.io/editorialisation-des-donnees-publiques/mettre-en-oeuvre-son-projet-dataviz/des-outils-pour-preparer-les-donnees.md).

# Des outils pour préparer les données

Le travail de préparation des données avant de créer la dataviz est, de loin, l'étape la plus longue. deux grands cas de figure sont à distinguer :&#x20;

1. Les **données fournies sont brutes** et n'ont pas fait encore l'objet d'une publication en open data. L'exploitation des données aura alors comme préalable un (laborieux) travail d'extraction, de nettoyage et de contrôle de qualité des données.&#x20;
2. **Les données ont été publiées** et respectent a minima les règles de lisibilité des données par une machine. Il s'agira alors de traiter les données pour les adaptera au message que l'on souhaite passer et/ou de **les organiser pour les rendre exploitables** par le logiciel de datavisualisation.

{% hint style="info" %}
Pour connaitre les principales erreurs et les méthodes pour les éliminer on renverra vers ce guide réalisé par [l'infolab de la fing](https://docs.google.com/document/d/1jHOI6y00AhFCxy2tW4niBxaEORWZOdaV9K9YHaqNtsc/edit) de mise en qualité des données et le "sprint qualité" proposé pour y remédier.
{% endhint %}

**Quelques exemples dans la préparation des données :**&#x20;

* Regroupement de catégories trop nombreuses pour être représentées de manière lisible&#x20;
* Distinction des valeurs zéro des valeurs manquantes&#x20;
* Reformulation de libellés pour les rendre compréhensibles par un large public
* Elimination de colonnes inutiles dans l'optique de la dataviz
* Adaptation de nomenclatures pour les adapter à l'outil de datavisualisation. Par exemple l'écriture des dénominations de communes (avec tiret, sans tiret pour les noms composés, présence ou pas de caractères spéciaux...) permettant de générer une carte varie d'un outil à l'autre.
* Organisation des données pour les rendre compatibles avec la datavisualisation choisie

:thumbsup: On peut partir de l'**organisation des données** et **du nombre de variables** pour trouver les datavizs adaptées

![A partir de l'organisation des données (input) le site Datavizproject aiguille vers les datavisualisations adaptées](/files/BlGUborYH8cGBkLzIm4t)

{% hint style="info" %}
Pour nettoyer les données comme pour les organiser, un outil s'impose, il s'agit d'OpenRefine. A l'origine créé par Google, OpenRefine est désormais un logiciel libre avec une traduction française. Beaucoup plus puissant qu'Excel et a pour particularité de garder la trace de toutes les modifications opérées -l'accès au fichier initial reste toujours possible - voire de les enregistrer pour être "rejouées" sur un jeu de données similaires. On renverra vers ce [tutoriel récent et en Français](https://msaby.gitlab.io/tutoriel-openrefine/).<br>
{% endhint %}