Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Dernière mise à jour : septembre 2022
Ce document a pour objet d’accompagner les agents des collectivités territoriales dans leur montée en compétences sur la visualisation et l’éditorialisation des données .
Il s'adresse plus particulièrement aux :
Responsables communication web et print qui traitent des données
Journalistes territoriaux
Personnes en charge de l’ouverture des données publiques
Formateurs à l’open data
Ce document aborde la datavisualisation du point de vue des collectivités territoriales. Il propose une sélection de ressources sur :
Les enjeux de la datavisualisation
Les différents types de datavisualisation
Une méthodologie
Les bonnes pratiques
Une sélection d'outils et de plateformes "no code"
Cette première version n'aborde pas (sauf à la marge) la question de la géodata qui requiert des outils et méthodes spécifiques.
Version : 0.0.2 Date : Septembre 2022 Rédacteur : Olivier Devillers Licence : CC-BY-SA
Ce programme est financé par les collectivités locales avec le soutien de ses partenaires : la DINUM, l'ANCT et la Banque des Territoires.
La datavitualisation n'est pas une affaire de mode mais de nécessité à l'heure où les acteurs publics sont submergés de données et ouvrent massivement leurs propres données. La dataviz est un moyen de transformer la donnée en un "actionnable" pour aider sa cible (citoyen, décideur...) à comprendre, dialoguer, agir et anticiper. Elle ne se substitue pas à la donnée mais vient l'éclairer, la mettre en perspective.
La datavisualisation concerne tous les domaines et n'est plus cantonnée à quelques services traditionnellement producteurs de graphiques (finances, RH, études...). Le besoin de visualiser des données va de pair avec la transformation numérique des métiers et l'outillage des agents en applications, capteurs et autres générateurs de données.
La dataviz s'impose enfin pour aider les citoyens à s'approprier les données ouvertes, à appréhender des sujets complexes voire à changer des comportements.
Pour certaines données comme celles produites en temps réel par des capteurs (comptage, température, polluants...) la dataviz est enfin le seul moyen de rendre la donnée exploitable.
La dataviz participe à la démocratisation de la donnée,
La dataviz permet de croiser des jeux de données pour faciliter leur interprétation
La dataviz permet de montrer une évolution, de raconter une histoire
La dataviz est le principal moyen d’exploiter des données temps réel inadaptées à une présentation sous forme de tableau
La dataviz est la base d’applications interactives pour un meilleur service à l’usager
La dataviz contribue à la montée en qualité des données pour repérer des erreurs
Une datavisualisation réunit des données, une représentation visuelle et du texte. Comme toute communication, elle présuppose de définir une cible pour calibrer le message que l'on souhaite véhiculer. La réflexion sur la cible et le message est un préalable à toute datavisualisation.
Dictée par la rigueur statistique, la dataviz ne doit pas faire mentir les données. Il ne s'agit pas de chercher à transformer les données pour transmettre un message qui arrange son émetteur.
La datavisualisation droit trouver un équilibre et des synergies entre ces trois composantes.
Les données dont il faut respecter l'intégrité,
Le visuel aide à clarifier les données sans les déformer ou les trahir
La narration (titres, exergue...) permet d'expliquer de contextualiser
Ce chapitre ne se veut pas exhaustif, loin s'en faut. Les datavisualisations ne cessent en effet de s'enrichir de nouvelles formes ou de variantes. Il s'agit d'une sélection fondée sur deux critères :
La possibilité de les réaliser avec des logiciels ou plateformes "no code", gratuites ou freemium.
Le fait qu'elles ne nécessitent pas de connaissances poussées en statistiques ou datascience.
Pour les exemples illustratifs, les données utilisées sont de "vraies" données en open data de l'Etat ou des collectivités locales.
L'outil utilisé pour créer les dataviz présentées est spécifié. La liste des outils fait l'objet d'un chapitre spécifique.
NB : les cartes, qui font appel à des logiciels et compétences spécifiques, ne sont pas traitées dans ce chapitre.
On notera qu'il n'y a pas de standard dans la datavisualisation. Cela signifie par exemple qu'en cas d'automatisation des datavisualisations avec un outil ou une plateforme, il faudra tout reprogrammer si la collectivité souhaite en changer.
C'est un point de vigilance qui concerne plus particulièrement les tableaux de bord.
La datavisualisation n'est pas un besoin nouveau. La datavisualisation a émergé en même temps que la donnée et on peut remonter son origine aux débuts de l'humanité avec l'art pariétal... Avec l'imprimerie on a ensuite vu apparaître les arbres généalogiques, cartes du "tendre" et autres tentatives de classement de connaissances. Ce sont autant de datavizs.
Les débuts de la statistique au XIXe siècle ont accru le besoin de visualisation. A cette époque ont été inventées des formes de datavisualisation toujours utilisées.
La visualisation des données a connu au ensuite deux grandes accélérations :
L'invention de la bureautique, à la fin du 20e, a démocratisé l'usage d'Excel et autres tableurs facilitant la création de graphiques .
Le développement d'internet et du HTML 5 avec aujourd'hui la possibilité de créer des datavisualisations spectaculaires à l'aide d'un simple navigateur web.
Si la bureautique a démocratisé la datavisualisation, les grandes formes de dataviz remontent pour certaines à plusieurs décennies. Et certaines représentations font toujours partie du quotidien des collectivités.
Carte choroplèthe
La carte choroplèthe - avec des zonages dont la couleur varie en fonction de la valeur - est aussi répandue que le camembert car elle permet de visualiser des disparités territoriales.
Diagramme de Sankey
Le diagramme de Sankey est aujourd'hui utilisé pour visualiser des flux avec des origines / destinations : populations, voyageurs, énergie, déchets...
La contribution de l'ingénieur des Ponts et chaussées Charles Joseph Minard (1781-1870) à la visualisation de données est tout à fait considérable. Cartes choroplèthes, diagrammes en barres, cartes de flux, camemberts sur des cartes... il a été à l'origine de dizaines de représentations graphiques innovantes toujours utilisées et dont on peut découvrir sur ce site un panorama.
Carte de points / corrélation
Cette carte a permis d'établir la corrélation entre le nombre de morts du choléra (géolocalisés) et la présence d'un puits infecté par le bacille à proximité du logement des personnes décédées.
Réseaux de transports
La représentation des stations de métro sous forme de diagramme simplifié sans tenir compte des distances entre les stations ou de l'exactitude des tracés est une idée d'Harry Beck, dessinateur industriel anglais. C'est aujourd'hui devenue le schéma universel de représentation des plans de transport publics.
La dataviz suivante permet de découvrir les concepteurs de datavisualisations depuis près de trois siècles en lien avec leur domaine d'application. La statistique et la géographie arrivent en tête des disciplines pourvoyeuses de dataviz... avant que la datavisualisation devienne une discipline à part entière !
La datavisualisation, traduction du mot anglais “datavizualisation” souvent raccourci en dataviz, consiste à transformer des données en une forme graphique pour en extraire le sens. Une datavisualisation peut être statique - pour une publication papier - mais elle est de plus en plus souvent interactive rendant possible l'intégration d'informations plus nombreuses.
La datavisualisation est à la croisée de trois phénomènes : l’augmentation des volumes de données (notamment ouvertes) disponibles ; la nécessité de mieux exploiter et valoriser les données ; l’arrivée d’outils ou de plateformes facilitant la création de datavisualisations.
La notion d’infographie ne recouvre pas totalement celle de datavisualisation. L’infographie induit une représentation des données plutôt statique avec un travail sur la scénarisation des données et une mise en page élaborée en vue de son impression.
Elle est souvent réalisée à l’aide de logiciels comme Illustrator, par un graphiste ayant des objectifs esthétiques. La datavisualisation exploite davantage les possibilités du code, et notamment de langages comme Java ou Python pour produire des graphiques interactifs. Infographie ou dataviz, leur réussite passe par un dialogue entre trois profils : data, créatif et informatique.
Un tableau de bord réunit des indicateurs - sous forme de plusieurs datavisualisations dans un objectif précis : analyser des données, dresser un état des lieux, piloter une politique, suivre des objectifs… La cible du tableau de bord est souvent interne ou à destination d’un public averti, avec peu de textes.
Une fois construit, le tableau de bord a vocation à se mettre à jour automatiquement en étant connecté à des bases de données via des API (interfaces de programmation). Le tableau de bord est par ailleurs souvent synonyme de “plateforme”, outil qui cible plutôt de grandes organisations.
L'intérêt des tableaux de bord a été mis en exergue par la crise du covid-19. Des tableaux de bord mis en place par l'Etat comme celui de Santé Publique France, mais aussi par de nombreux territoires.
Les barres verticales ou horizontales peuvent être utilisées pour représenter une répartition entre catégories. Si ces catégories sont continues, (âge, durée...) on parlera d'histogramme, la pyramide des âges étant par exemple constituée de deux histogrammes opposés. Un graphique en barres est souvent plus lisible que le camembert, notamment lorsqu'il y a de nombreuses catégories.
Barres horizontales
Les barres horizontales autorisent une lecture immédiate du graphique en mettant l’accent sur les les valeurs extrêmes. Il est important de classer les valeurs dans un ordre qui facilite la lecture, ici hiérarchique.
Barres verticales
Également facilement interprétables, les barres verticales ont pour principal inconvénient d’être peu propices à l’insertion de texte. Le classement des données suivant un ordre logique en facilite la lecture.
Barres groupées
Les barres groupées permettent des comparaisons entre plusieurs catégories et sous catégories.
Barres empilées
L’histogramme empilé sur une gradation à 100% est à utiliser avec précaution : la valeur la plus lisible est celle située sur l’axe horizontal. L’affichage des pourcentages s’impose pour en faciliter la lecture.
Budget, population, effectifs, catégories d'objets... L'usage d'une datavisualisation pour représenter une répartition est très commun.
Cette partie vise à aider à "sortir du camembert" pour présenter des formes de dataviz moins courantes et pour lesquels des outils no code existent.
Les icones sont adaptées à des répartitions avec peu de variables. Elles contribuent à simplifier la lecture des données en donnant du sens. Particulièrement adaptées à des infographies ou à des publications papier "grand public", elles traduisent cependant plus des ordres de grandeurs que des chiffres précis car l'œil humain percoit mal les différences de tailles quand les valeurs sont proches.
On peut aussi opter pour une représentation ou chaque icone équivaut à une unité (ou une dizaine), la nature de l'icone facilitant la lecture du graphique.
Le camembert ou pie chart révèle la part relative de catégories dans un tout. Il est d’autant plus signifiant que les chiffres (et donc les angles) ont des écarts importants.
Mode de représentation « universel » d’une répartition de données où les surfaces sont proportionnelles aux valeurs
Facilité de conception et de production : fonction de base d'un tableur
Le camembert est inadapté pour représenter plus de 4/5 variables ou encore des pourcentages proches : l’œil ne différencie pas bien les angles.
Les camemberts en 3D sont à prohiber : ils génèrent une surreprésentation des secteurs situés sur la partie avant du graphique.
Les formes de camembert à proscrire
Donut ou anneau
Plus léger que le camembert, le donut permet l’ajout de texte au milieu. Mais il ne résout pas tous les défauts du camembert avec une difficulté persistante à comparer des angles ou à représenter plus de 5 catégories.
Hémicycle
Incontournable pour l’analyse de phénomènes politiques (élections, votes, sondages avec des réponses binaires…) il est très adapté pour montrer un phénomène majoritaire. Il reste peu adapté à la représentation de catégories nombreuses.
Camembert irrégulier
Dans cette représentation, la longueur des rayons de chaque zone est proportionnelle aux valeurs des données en plus de l'angle qui exprime la proportion. Les zones des catégories peuvent être subdivisées pour apporter des informations supplémentaires.
Le camembert irrégulier sert à mettre en exergue les valeurs les plus extrêmes. Seuls les angles expriment les proportions… au prix d’une déformation contestable des surfaces censées représenter les valeurs. A utiliser avec modération.
Le bubble chart ou graphique en bulle a les même vertus que le compartimentage : montrer des catégories nombreuses avec, éventuellement, des regroupements plusieurs niveaux de catégories.
Ce type de représentation surfacique - l'aire est proportionnelle, la taille de la bulle est proportionnelle à la valeur- est intéressant pour comparer rapidement des valeurs, même si elles sont nombreuses. Il est également possible de jouer sur les couleurs pour différencier des catégories ou thématiques.
Le compartimentage, carte de carrés ou Treemap permet de visualiser une répartition avec des aires proportionnelles aux valeurs. Ce graphique permet notamment de visualiser des hiérarchies.
Difficile à lire s’il y a des valeurs très proches et/ou de petites valeurs. Il est en revanche adapté à la représentation de catégories avec de nombreuses sous catégories.
C'est surtout dans sa version interactive (la souris révèle les valeurs) qu'il est intéressant.
Ce graphique affiche des variables quantitativ forme d'une série de points de données reliés par des segments de ligne droite. Les points de données sont classés, souvent par ordre chronologique) avec
Courbes en lignes
Graphique parmi les plus classiques. Le choix de l'échelle et la taille même du graphique jouent un grand rôle dans la l'interprétation du graphique et la mesure de l'ampleur de l'évolution ().
Courbes pleines
Les courbes pleines sont particulièrement parlantes pour montrer l'évolution relative de chaque catégorie. Ce type graphique devient cependant peu lisible quand les courbes se croisent, sauf à jouer sur des transparences.
Quelques pistes de dataviz pour comparer des valeurs dans le temps, qu'il s'agisse de séries longues ou non.
L'histogramme ou graphique en colonnes est adapté à suivre des évolutions, même sur de longues période. Il est facile à lire visuellement
L'histogramme simple
Facile à lire, ce type de dataviz permet de montrer l'évolution dans le temps d'une ou plusieurs catégories via la ligne qui se dessine au-dessus des barres. Plus il y aura de catégories, moins il sera facile à lire.
Histogrammes empilés
L'histogramme empilé permet de visualiser une évolution de plusieurs catégories d'un tout et de mettre en valeur l'évolution d'une répartition.
Le diagramme de Sankey, aussi appelé diagramme alluvial, est adapté à la représentation de flux, la largeur des liens étant proportionnelle aux valeurs.
Ce type de datavisualisation est souvent utilisé pour représenter des données liées à l'énergie (production/ consommation) aux déchets (quoi/ où), la mobilité (origine/ destination).
Le diagramme de Venn montre les relations entre des ensembles. Les interactions entre les idées, les concepts ou les phénomènes sont visualisées par les superpositions de couleurs.
Un même graphique (camembert, anneau, icone...) est utilisé plusieurs fois pour représenter une évolution dans le temps. s'ils changent des courbes et histogrammes, ils sont plus compliqués à lire. On le réservera à des séries chronologiques / de catégories peu nombreuses.
Les catégories, différenciées par des couleurs, sont placées en périphérie d'un cercle. Elles sont reliées entre elles par des liens dont l'épaisseur est proportionnelle à une valeur.
Ce type de graphique ne fonctionne qu'en ligne : c'est au survol par le curseur que les relations et les valeurs s'affichent.
La couleur, une information à part entière
Le choix des couleurs pour une datavisualisation n’a rien d’anodin. Les couleurs sont en elles-mêmes porteuses de sens, celui-ci pouvant varier selon les pays et les contextes (cf. ci-dessous)
D’une façon générale, en France, les couleurs chaudes (rouge, orange et jaune) véhiculent l’énergie, l’action, les couleurs froides (bleu, vert, violet) dégagent des sensations plus paisibles. La nature des données, la cible de la datavisualisation, le contexte géographique, le message que l'on souhaite véhiculer sont autant de paramètres qui interfèrent dans le choix des couleurs.
Mais dans tous les cas on préfèrera la sobriété, gage de lisibilité de la dataviz. Plus il y aura de couleurs, plus le graphique sera difficile à comprendre.
Quelques évidences dans le choix des couleurs
La couleur, source potentielle d'exclusion
Le daltonisme ou déficience de la vision des couleurs (DVC), touche environ 8 % des hommes et 0,5 % des femmes dans le monde. Il doit conduire à privilégier des contrastes élevés entre les couleurs et à éviter certaines combinaisons comme rouge et verts, marron et verts ou bleu et violet.
Les couleurs, des symboliques variables en fonction des pays
La signification des couleurs n'a rien d'universel et leur usage doit être adapté au public cible. La datavisualisation suivante montre toute cette diversité dans l'association des couleurs à des valeurs.
Le rouge symbolisera la gauche/ les partis progressistes dans une dataviz sur la vie démocratique en France, cette même couleur étant celle des conservateurs/républicains aux Etats-Unis. Utilisé dans une carte de chaleur, le rouge sera spontanément interprété comme une zone de danger.
Le site de création de dataviz Datawrapper propose un guide des couleurs très complet avec une dimension accessibilité visuelle : il es possible de choisir des combinaisons de couleurs adaptées aux différentes visions des couleurs.
1- Définir un objectif
On ne fait pas un graphique pour "faire joli" mais pour donner du sens aux données, les mettre au service d'une finalité. Une datavisualisation par définition n'est pas neutre : elle fait des choix dans ce qu'elle veut montrer.
Définir un objectif, c'est aussi définir une cible : à qui s'adresse-t-on ? à des agents qui connaissent le sujet ? à des élus qui ont un besoin d'être aidés dans la prise de décision ? à des citoyens à qui l'on veut expliquer un phénomène complexe ou que l'on veut inciter à modifier le comportement ?
La cible influence l'ensemble du projet : le choix et l'organisation des données, le mode de représentation, le message, l'esthétique...
2 - Sélectionner et préparer les données
Cette étape est potentiellement la plus longue mais même si les données sont "propres" car la datavisualisation va imposer un travail de préparation spécifique, lié au logiciel utilisé.
Il s'agit notamment d'opérer une sélection de données (éliminer certaines colonnes par exemple) en déterminant celles qui sont les plus pertinentes pour le message que l'on veut faire passer.
Il s'agit aussi de réaliser des regroupements, des classements, des transpositions (...) pour que les données puissent être correctement interprétées par l'outil de visualisation.
Cette étape doit aider à affiner le choix éditorial en "anglant" la dataviz sur un message clé.
3 - Trouver le mode de représentation le plus adapté
Il s'agit de trouver à ce stade le mode de représentation des données le plus adaptée.
Cette étape peut être alimentée par la recherche de datavisualisations inspirantes sur des thématiques similaires.
Elle peut aussi s'alimenter de la consultation de catalogues de datavisualisation ou de sites spécialisés dans la veille sur la datavisualisation
On citera la veille proposée par OpenDataSoft via son ou des sites comme
4 - Éditorialiser le rendu (forme, contexte)
Cette étape consiste à produire la datavisualisations à l'aide d'un logiciel ou d'une plateforme.
L'éditorialisation des données passe par le choix des couleurs, l'ajout de textes explicatifs ou d'informations contextuelles permettant de comprendre les données.
Cette étape doit intégrer les contraintes inhérentes au support de diffusion : papier, présentation, mobile...
La carte de chaleur met en valeur la relation entre deux données montrant de potentielles corrélations.
Par convention, plus la couleur est foncée - on peut aussi utiliser une gamme chaud/ froid ou rouge/ vert - plus le nombre d'occurrences est élevé.
Appliqué initialement aux cartes géographiques pour montrer une densité, une répartition, la carte de chaleur peut se décliner en tableau pour favoriser une lecture rapide d'un grand nombre de valeurs.
Le travail de préparation des données avant de créer la dataviz est, de loin, l'étape la plus longue. deux grands cas de figure sont à distinguer :
Les données fournies sont brutes et n'ont pas fait encore l'objet d'une publication en open data. L'exploitation des données aura alors comme préalable un (laborieux) travail d'extraction, de nettoyage et de contrôle de qualité des données.
Les données ont été publiées et respectent a minima les règles de lisibilité des données par une machine. Il s'agira alors de traiter les données pour les adaptera au message que l'on souhaite passer et/ou de les organiser pour les rendre exploitables par le logiciel de datavisualisation.
Pour connaitre les principales erreurs et les méthodes pour les éliminer on renverra vers ce guide réalisé par l'infolab de la fing de mise en qualité des données et le "sprint qualité" proposé pour y remédier.
Quelques exemples dans la préparation des données :
Regroupement de catégories trop nombreuses pour être représentées de manière lisible
Distinction des valeurs zéro des valeurs manquantes
Reformulation de libellés pour les rendre compréhensibles par un large public
Elimination de colonnes inutiles dans l'optique de la dataviz
Adaptation de nomenclatures pour les adapter à l'outil de datavisualisation. Par exemple l'écriture des dénominations de communes (avec tiret, sans tiret pour les noms composés, présence ou pas de caractères spéciaux...) permettant de générer une carte varie d'un outil à l'autre.
Organisation des données pour les rendre compatibles avec la datavisualisation choisie
On peut partir de l'organisation des données et du nombre de variables pour trouver les datavizs adaptées
Pour nettoyer les données comme pour les organiser, un outil s'impose, il s'agit d'OpenRefine. A l'origine créé par Google, OpenRefine est désormais un logiciel libre avec une traduction française. Beaucoup plus puissant qu'Excel et a pour particularité de garder la trace de toutes les modifications opérées -l'accès au fichier initial reste toujours possible - voire de les enregistrer pour être "rejouées" sur un jeu de données similaires. On renverra vers ce tutoriel récent et en Français.
La datavisualisation peut aider à comprendre les données, à les explorer, ou être un moyen d'information, pour expliquer un phénomène. La datavisualisation exploratoire vise plutôt un public de personnes averties (de la nature des données, du contexte...) et vise à les aider à réfléchir, à comprendre un phénomène.
La datavisualisation explicative s'adresse à un public que l'on cherche à convaincre en lui racontant une histoire, avec un message essentiel. Ce type de datavisualisation implique de ne pas chercher à tout vouloir dire et de veiller à fournir toutes les informations nécessaires à la compréhension des données.
La datavisualisation exploratoire est parfois un préalable à sa version explicative : elle permettra de comprendre les données, de repérer d'éventuelles erreurs ou singularités et aidera à concevoir sa version explicative, adaptée à un public défini.
La dataviz statique, telle que celle crée par un tableur, est celle qui sera utilisée dans un document papier, une présentation ou une infographie. Sous peine de devenir illisible, la dataviz statique induit une sélection des données et du texte pour informer du contexte.
La dataviz ne signifie pas forcément un graphique ou un visuel. Un simple tableau avec des chiffres peut parfois faire l'affaire. C'est du reste une des options proposées par le site Datawrapper.de.
La dataviz dynamique, autorisée par les outils de datavisualisation en ligne, ne peut être visualisée que sur un terminal numérique. Elle induit une interactivité avec l'utilisateur, plus ou moins élaborée : du passage de la souris pour afficher une valeur, une catégorie, à la possibilité de faire varier des paramètres d'affichage. Attention à prendre en compte la problématique du mobile dans sa conception.
Les plateformes de dataviz grand public "no code" proposent des scénario d'animation/ d'interactivité préétablis avec la possibilité de les activer, ou non, voire de les personnaliser
Pour représenter des catégories (groupes politiques, compétences, nature des dépenses/recettes....) on utilisera des couleurs différentes. On se limitera cependant au maximum à six couleurs différentes, quitte à faire des regroupements.
Pour représenter la variation d'une valeur numérique (ex : taux de chômage, population, niveau de revenu...) on privilégiera un dégradé entre une ou deux couleurs.
Un dégradé sur une seule couleur (séquentiel) induira une progressivité et une continuité dans les données (ex : une densité de population).
Un dégradé entre deux couleurs permet :
de mettre en valeur les données extrêmes
de rendre plus lisibles les valeurs intermédiaires et notamment celles autour de la médiane qui sépare en deux l'effectif
Certains auteurs, à l'image d'Edward Tufte, plaident pour une simplification à l'extrême du nombre de couleurs. Voir ci-dessous ce que cela peut donner.
Le dataviz catalogue liste et décrit une soixantaine de types de datavisualisations. Les formes graphiques peuvent être triées par fonction : comparaison, classement, évolution, distribution, partie d'un tout...
Chaque graphique fait l'objet d'un descriptif détaillée avec des exemples et des alternatives possibles. Il renvoie aussi à une liste d'outils pour le créer (en anglais et avec des outils pas toujours très à jour)
La plupart des plateformes et logiciels de datavisualisation proposent des nuanciers de couleurs prêts à l'emploi. Mais il est aussi possible de créer sa propre gamme de couleurs, en jouant sur le nombre de couleurs, sa teinte ou sa saturation.
Leurs références sont exportables au format HEX ou HTML.
Ces outils utilisent une "roue chromatique" pour créer en quelques clics une gamme respectant les règles d'harmonie chromatique : couleurs monochromes, complémentaires ou encore situées dans une même zone du spectre. on citera :
En fonction du type de données - chiffres, catégories, données chronologiques, géographiques... - le site From data to viz propose une arborescence de choix. Chaque graphique fait l'objet d'une description et d'exemples.
Des recommandations et erreurs à éviter sont proposées pour chaque graphique.
L'utilisateur est aussi renvoyé vers les bibliothèques de scripts proposant le type de graphique décrit.
La vision "analyste de données" privilégiée par ce site doit être croisée avec celle du datajournaliste : quel message veut on faire passer ? la dataviz choisie est-elle percutante par rapport au public ? Le rendu est-il suffisamment explicite ?
En triant les données, on en facilitera la lecture. Ce tri doit répondre à une logique intuitive pour le lecteur. Ce tri n'est pas neutre : il induit une lecture des chiffres.
Exemple 1 : Graphique en barres
Les dépenses 2018 des conseils régionaux (source : ARF)
Exemple 2 : camembert
Ce classement est indispensable pour faciliter la lecture de valeurs proches. Il se fait par convention dans le sens inverse des aiguilles d'une montre.
Face à l'étendue des possibilités de représentation il n'est pas toujours facile de choisir. Plusieurs principes doivent prévaloir :
C'est la nature des données qui constitue le paramètre déterminant. La forme graphique n'est là que pour mettre en valeur les données, en extraire du sens, un message.
Le type de graphique dépend également du message : veut on montrer une évolution ? une corrélation ? une répartition ?
Plusieurs essais avec les données dans un tableur peuvent aider à sélectionner la famille de graphique appropriée avant d'utiliser une plateforme de datavisualisation.
Il est également possible d'utiliser des outils en ligne qui aiguillent l'utilisateur vers les représentations les plus adaptées en fonction du nombre de variables, du type de variable et de l'organisation des données.
Ces outils ont pour inconvénient d'être en anglais avec des noms de dataviz qui n'ont pas toujours d'équivalent en Français.
Par ailleurs ces diagrammes décisionnels ne renvoient pas toujours vers les logiciels capables de créer les représentations qu'ils proposent.
La création d'un graphique doit être dictée par un principe d'honnêteté, de respect des chiffres et des règles de représentation. Il s'agit notamment d'avoir une échelle régulière et lisible grâce à des repères visuels.
Ne pas respecter cette règle conduit à déformer la courbe et à trahir les chiffres.
Exemple avec ce graphique sur les chiffres de la croissance
Le fichier source peut contenir des valeurs à zéro ou des données manquantes. Or les deux n'ont pas du tout le même sens, un zéro pouvant constituer une information à part entière.
Exemple : Pour des chiffres portant sur la délinquance, une valeur à zéro pour un territoire d'observation constituera une information à part entière. La donnée manquante devra être distinguée de l'absence de donnée sauf à tromper le lecteur.
Dans la phase d'analyse des données, ce sujet doit être un point de vigilance. Les auteurs des données ne précisent hélas pas toujours ce que cache un "0" ou une case vide.
L'information manquante doit en théorie être mentionnée sous forme de trait "-", de "ND" (non disponible) mais en pratique ce n'est pas le cas et ces "trous" ne sont pas toujours documentés ou interprétables.
Quand on souhaite comparer des données, il faut se garder de comparer ce qui est effectivement comparable en ne mélangeant pas les choux et les carottes. La recommandation peut paraitre triviale mais elle est à l'origine de nombreuses erreurs ou constats erronés.
Comparer des données régionales sur 15 ans en omettant de signaler la fusion des régions intervenue en 2015 (passage de 22 à 10 régions) conduirait évidemment à avoir des courbes totalement erronés. Idem pour l'Europe avec ou sans la Grande Bretagne...
La taille, le format (portrait/ paysage) de la datavisualisation peuvent jouer substantiellement sur l'interprétation des chiffres. C'est particulièrement le cas pour les courbes et les graphiques avec des échelles.
Un graphique basique avec les même chiffres illustre parfaitement cette problématique. Hélas, il n'y a pas de règle claire si ce n'est un principe d'honnêteté intellectuelle.
Le médium de diffusion interfère également. Dans une publication papier la dataviz devra entrer dans un gabarit induisant un format, une taille. Le mobile a aussi ses contraintes en imposant (parfois) un format portrait. Pour éviter les mauvaises surprises, le mieux est de partir de l'espace disponible (gabarit) pour déterminer la forme de datavisualisation la plus adaptée.
Dataviz project classe les datavisualisations par familles, par fonctions et par formes.
On appréciera ses précisions sur l'organisation des données d'entrée (nature, nombre de variables minimales, données ordonnées ou non... ) et le renvoie vers de nombreux exemples pour chacune des formes de datavisualisation.
Les indications sur l'organisation des données pour concevoir la dataviz sélectionnée
Certains graphiques sont très esthétiques mais on aura du mal à les reproduire car ils ont été conçus/ embellis via Illustrator
Pour mettre en valeur les chiffres, éviter une représentation inesthétique, il peut être tentant de ne pas faire démarrer l'axe des ordonnées à zéro.
Dans un graphique en barres, la taille de chaque barre est proportionnelle aux valeurs. En ne mettant pas l'axe à zéro, on fausse donc totalement la lecture des chiffres.
Exemple
Ce graphique est en fait basé sur un axe des ordonnées qui n'est pas à zéro mais à 7000
Voici ce que cela donne avec un axe des ordonnées à zéro.
Dans le cas de courbes, un axe à zéro peut être toléré dans la mesure où il ne trahit pas (trop) les données. Le couper permet de mettre l'accent sur les hausses ou les baisses. On recommandera cependant de ne pas en abuser tant la pente peut être trompeuse. Et on recommandera de tronquer l'axe des ordonnées avec un espace blanc.
Avec un axe dont on montre qu'il est tronqué, on ne risque plus de tromper le lecteur.
Les chiffres parlent rarement d'eux-mêmes. Des informations contextuelles sont indispensables pour comprendre les données, établir des points de comparaison, éviter des erreurs de jugement, susciter le débat (...)
Enrichir la datavisualisation de textes
Une datavisualisation doit avoir un titre aussi explicite que possible. Il peut être neutre : "la répartition de la production d'énergies" ou orienter le lecteur : "le nucléaire toujours largement en tête des sources énergies".
Les différentes catégories doivent ensuite être clairement indiquées. La légende en bas du graphique n'est pas toujours lisible : inscrites au plus près des barres ou courbes, elles seront plus lisibles. Enfin des annotations seront utiles pour signaler un élément de contexte expliquant une bizarrerie dans les chiffres.
Ci-dessous, la variation soudaine de la courbe de mortalité et donc du solde naturel mérite d'être expliquée. Une flèche pointe l'impact de la pandémie de Covid 19 en 2020.
Le cas des chiffres isolés
Cette règle de l'information contextuelle est valable pour toute forme de visualisation, et plus particulièrement pour les chiffres bruts mis en exergue dans certaines infographies. Faute de mise en perspective - ou d'un réel travail de conception d'une datavisualisation - ces chiffres n'apportent en définitive que peu d'information au lecteur.
Proposer des textes lisibles
Le titre, la légende comme les étiquettes de données doivent être lisibles facilement, sans avoir à se tordre le cou ou à faire des allers-retours entre le titre, la légende et le graphique.
Pour cette raison on préfèrera les graphiques en barres horizontales et les légendes placées au plus près des données.
Sélection de datavisualisations "inspirantes" collectées par OpenDataFrance. Ce tableau réunit quelques datavizs, cartoviz et tableaux de bords créés par des collectivités, des administrations ou des acteurs travaillant avec le secteur public.
La solution technique utilisée est indiquée quand elle a pu être identifiée.
Réunion ou publication ?
Une datavisualisation est généralement issue d'une commande avec un rendu à la clef. Celui-ci peut prendre la forme d'une présentation, d'un rapport, d'une diffusion en ligne, sur les médias sociaux ou encore d'une présentation à une réunion.
Trop souvent la même datavisualisation sera utilisée indifféremment. C'est une erreur dans la mesure où les publics ne seront pas les mêmes, de même que le support ou le mode de diffusion.
Une présentation face à un public peut justifier de la simplifier, les données contextuelles étant fournies à l'oral. Une mise en scène peut même être organisée pour accentuer le sens de la datavisualisation. Le même sujet traité sur un support papier devra être contextualisé.
Dans son film "Une vérité qui dérange" l'ex vice président des Etats Unis Al Gore utilise un monte charge pour suivre l'évolution de la courbe des températures : arrivé au XXe siècle il se retrouve soudainement projeté en l'air pour montrer que la hausse soudaine des températures n'a rien à voir avec les épisodes de réchauffement antérieurs.
Mobile first !
Quand la publication est privilégiée, le support cible de diffusion doit être pris en compte dès la conception de la dataviz quitte à en produire plusieurs versions. Dans une présentation type Powerpoint les dataviz au format paysage seront privilégiées autorisant des dataviz relativement complexes avec des explications.
Sur internet il faut garder à l'esprit que près de 80% des destinataires utiliseront un mobile pour la voir. Cela suppose une datavisualisation en format portrait et une certaine simplification du message. En cas de dataviz interactive, les interactions devront être "évidentes" selon une ergonomie pensée pour un écran tactile.
Un certains nombres de datavisualisations sont basées sur une taille d'objet (leur surface) proportionnelle aux valeurs : cela concerne les camemberts, les icônes ou encore les histogrammes. C'est aussi le cas des cercles utilisés pour représenter des valeurs sur une carte.
La taille des cercles, icônes (...) est généralement créée automatiquement par les logiciels de datavisualisation avec parfois la possibilité de modifier l'échelle pour en faciliter la lecture (voir le territoire qui est derrière...). Dans les faits, il n'est pas toujours possible de vérifier l'exactitude du rendu par rapport aux données sachant que l'œil humain a du mal à évaluer et comparer les surfaces.
Le choix de l'échelle - avoir des "petits" cercles plutôt que des grands - ne répond pas qu'à un objectif de lisibilité. Ce choix n'est pas neutre sur le message et peut même conduire à des erreurs d'interprétation.
Cette vidéo sur le nombre de migrants syriens accueillis en Europe, signée de Nicolas Lambert en fournit une éclatante démonstration.
La corrélation, où deux séries de données semblent liées et convergent dans le même sens ne signifie pas nécessairement qu'il y ait un lien de causalité, de cause à effet. La tentation du déterminisme et de la recherche d'une causes uniques dans l'explication de phénomènes est pourtant fortement ancrée, du café du commerce à la sphère politique... L'éventualité d'une causalité relève cependant d'une analyse du contexte, d'éléments explicatifs que les chiffres seuls ne peuvent pas suffire à démontrer.
Les corrélations absurdes ne manquent pas, l'équipe des Décodeurs du journal Le Monde a même créé un générateur de corrélations absurdes sur le modèle du site américain Spurious correlations.
Cette carte est à prendre avec précaution : la frontière entre payant et gratuit est notamment très poreuse. Beaucoup de solutions sont sur un modèle Freemium (fonctionnalités limitées, obligation de rendre publiques les créations, limites quantitatives...). Elles permettent toutefois de répondre à des besoins de datavisualisation ponctuels.
Les bibliothèques de scripts constituent des "réservoirs" de fonctionnalités dans lesquelles puisent les éditeurs de solutions propriétaires et sont aussi sources de déclinaisons (typiquement Datawrapper et Rawgraphs) accessibles à un plus large public.
On notera que les outils utilisés en 2021 restent ceux d'éditeurs présents depuis plusieurs années sur le marché de la datavisualisation.
La conception de datavisualisations a longtemps reposé sur des logiciels – souvent onéreux – qu’il fallait installer sur un poste de travail, les plus emblématiques étant Excel, Illustrator et Powerpoint.
Internet et la "plateformisation" des applications a radicalement changé la donne au cours des dix dernières années : désormais un simple navigateur internet permet à n'importe qui de réaliser des dataviz statiques, interactives, mise à jour en temps réel... Ces plateformes, qui nécessitent peu de connaissances techniques, proposent souvent une offre Freemium, avec un socle gratuit et des fonctions, services ou nombre de créations limités sauf à prendre un abonnement.
La datavisualisation a par ailleurs suscité l'intérêt des développeurs qui ont créé de nombreuses "bibliothèques" de codes et scripts, souvent sur des plateformes libres comme Github . Prisées des datascientists, ces bibliothèques ne sont pas abordées par ce guide. Ces bibliothèques "nourrissent" les plateformes citées précédemment ou encore les prestataires proposant des tableaux de bords et autres outils de dataviz prêts à l'emploi.
Enfin on soulignera que le foisonnement des outils est intense... avec le risque d'utiliser des outils / plateformes désertés aussi soudainement qu'ils ont suscité l'enthousiasme. Malgré ce foisonnement, la plupart des outils sont en anglais, ceux totalement traduits restant rares.
MasterClass DataViz / OpenDataFrance
OpenDataFrance a mis en place une formation/action de 2 jours pour comprendre et mettre en pratique la dataviz. Il s’agit de s’approprier de nouvelles compétences, par la pratique et avec l’appui d’experts (coach). Ces MasterClass sont réservées à des agents publics issus des collectivités locales et ayant déjà une certaine connaissance des données publiques. Lors des MasterClass, ils approfondiront leurs connaissances, pratiqueront des outils, développeront leur autonomie sur la manipulation et la valorisation des données.
Les sessions ont eu lieu en 2022. D'autres sessions peuvent être programmées à la demande auprès d'OpenDataFrance (conditions d'accès : payantes avec réduction de 50% pour les membres d'OpenDataFrance).
Mois de la data / OpenDataFrance
Les témoignages sur la datavisualisation présentés à l'occasion du mois de la data de 2021 et début 2022 https://opendatafrance.gitbook.io/le-mois-de-la-data/datavisualisation https://opendatafrance.gitbook.io/le-mois-de-la-data/saison-1-en-mode-replay/les-indicateurs-et-la-datavisualisation
Supports du Master Sigat / Boris Mericskay,
Le master Sigat de l'université de Rennes 2 est spécialisé dans la formation à la cartographie et la représentation de données. Son professeur coordonnateur, Boris Mericskay, met en ligne une grande partie de ses supports de cours ainsi qu'une veille sur la datavisualisation
Il propose également des tutoriels sur l'usage d'outils libres de manipulation de données.
Le site personnel de Boris Mericskay: https://bmericskay.github.io/portfolio/cours.html
Le site du Master Sigat : https://sites-formations.univ-rennes2.fr/mastersigat/
Présentations de datacktivist
La coopérative Datacktivist, spécialisée dans l'accompagnement de projets data / open data propose plusieurs supports sur la datavisualisation :
Formats, outils et bonnes pratiques de la visualisation de données https://datactivist.coop/opendatadays/4/#1
Panorama des formats et des outils de data visualisation https://datactivist.coop/dataweek/dataviz/#1
Vidéos
La datavisualisation pour les nouilles - Mois de la data 2019 https://youtu.be/ytZW9Ws93eI
Intervention de Caroline Goulard, CEO de Dataveyes https://moocdigital.paris/cours/data-visualisation/des-donnees-pour-quoi-faire
Par ordre chronologique
Manuel de datavisualisation - 2e édition Méthodes - Cas pratiques Jean-Marie Lagnel (2021)
Cartographie radicale Explorations Nepthys Zwer, Philippe Rekacewicz -2021
Datavisualisation. Utilisez le storytelling pour faire parler vos données Cole Nussbaumer Knaflic - 2019
La graphique et le traitement graphique de l'information Jacques Bertin (Auteur) - 2017
Guide de sémiologie graphique - 2018 Insee
Démocratiser l'accès et les usages de la donnée OpenDataSoft - Jean-Marc Lazard (2020)
Data visualisation De l'extraction des données à leur représentation graphique (2013)
Le sujet de la dataviz est largement préempté par les anglosaxons et les sites en anglais sont de loin les plus nombreux et les plus riches. L'objectif est ici de vous proposer des expertises et ressources essentiellement francophones, à quelques exceptions.
Datajournos, un site de veille de datajournalistes sur les outils, pratiques, méthodes : https://datajournos.fr/
Geodataviz site sur la cartographie et la datavisualisation, https://cartonumerique.blogspot.com
Datawrapper qui tient un blog (en anglais) avec énormément de ressources sur les bonnes pratiques : https://blog.datawrapper.de/
OpenDataSoft et son club des utilisateurs de l'éditeur OpenDataSoft
Datacentric un centre de ressources & conseils sur la datavisualisation : https://dataviz-centric.com/
L'Agenre ORE qui, fédère les distributeurs d'électricité et de gaz, propose un répertoire de plus de 450 datavisualisations dans le domaine de l'énergie
La veille sur les outils de Loïc Hay, très complète mais avec des ressources essentiellement en anglais.
Les dataviz du jour de l'éditeur Tableau
Orange Business Service : Comment réussir son projet de data visualisation ?
Christophe Bontemps @Xtophe_Bontemps statisticien Co-fondateur de Toulouse Dataviz
Julia Dumont @Jul_Dum qui nourrit le recueil des pires dataviz sous le tag #nifnaf retrouver tout ce qui ne va pas dans ce joli #nifnaf
Loïc Haÿ@LoicHay en charge de projets data à la FNCCR
Sylvain Lapoix @SylvainLapoix membre de Datactivist
Éric Mauvière @ericMauviere Statisticien, facilitateur en datavisualisation et open data, formateur en datascience et son blog
Boris Mericskay @BorisMericskay
Alain Roan @AlainRoanfondateur de perceptible.fr
Jules Grandin @JulesGrandin datajournaliste aux Echos
Et aussi
WSJ Graphics @WSJGraphics les infographies du Wall Street Journal
NYT Graphics @nytgraphics celles du New York Times
Cette sélection s'adresse à des collectivités qui n'ont pas de compétences en datascience et/ou en développement informatique. Elle privilégie les outils libres et gratuits ainsi que ceux dont on sait qu'ils sont plus particulièrement présents dans le secteur public.