1 sur 58

Editorialisation des données publiques

LA DATAVISUALISATION PAS A PAS

Dernière mise à jour : septembre 2022

Ce document a pour objet d’accompagner les agents des collectivités territoriales dans leur montée en compétences sur la visualisation et l’éditorialisation des données .

Il s'adresse plus particulièrement aux :

Responsables communication web et print qui traitent des données

Définition, contexte et enjeux de la datavisualisation

Datavisualisation, infographie, tableau de bord...

La datavisualisation, traduction du mot anglais “datavizualisation” souvent raccourci en dataviz, consiste à transformer des données en une forme graphique pour en extraire le sens. Une datavisualisation peut être statique - pour une publication papier - mais elle est de plus en plus souvent interactive rendant possible l'intégration d'informations plus nombreuses.

La datavisualisation est à la croisée de trois phénomènes : l’augmentation des volumes de données (notamment ouvertes) disponibles ; la nécessité de mieux exploiter et valoriser les données ; l’arrivée d’outils ou de plateformes facilitant la création de datavisualisations.

La notion d’infographie ne recouvre pas totalement celle de datavisualisation. L’infographie induit une représentation des données plutôt statique avec un travail sur la scénarisation des données et une mise en page élaborée en vue de son impression.

Elle est souvent réalisée à l’aide de logiciels comme Illustrator, par un graphiste ayant des objectifs esthétiques. La datavisualisation exploite davantage les possibilités du code, et notamment de langages comme Java ou Python pour produire des graphiques interactifs. Infographie ou dataviz, leur réussite passe par un dialogue entre trois profils : data, créatif et informatique.

Un tableau de bord réunit des indicateurs - sous forme de plusieurs datavisualisations dans un objectif précis : analyser des données, dresser un état des lieux, piloter une politique, suivre des objectifs… La cible du tableau de bord est souvent interne ou à destination d’un public averti, avec peu de textes.

Une fois construit, le tableau de bord a vocation à se mettre à jour automatiquement en étant connecté à des bases de données via des API (interfaces de programmation). Le tableau de bord est par ailleurs souvent synonyme de “plateforme”, outil qui cible plutôt de grandes organisations.

L'intérêt des tableaux de bord a été mis en exergue par la crise du covid-19. Des tableaux de bord mis en place par l'Etat comme celui de , mais aussi par de nombreux territoires.

Les enjeux de la datavisualisation pour les collectivités

La datavitualisation n'est pas une affaire de mode mais de nécessité à l'heure où les acteurs publics sont submergés de données et ouvrent massivement leurs propres données. La dataviz est un moyen de transformer la donnée en un "actionnable" pour aider sa cible (citoyen, décideur...) à comprendre, dialoguer, agir et anticiper. Elle ne se substitue pas à la donnée mais vient l'éclairer, la mettre en perspective.

La datavisualisation concerne tous les domaines et n'est plus cantonnée à quelques services traditionnellement producteurs de graphiques (finances, RH, études...). Le besoin de visualiser des données va de pair avec la transformation numérique des métiers et l'outillage des agents en applications, capteurs et autres générateurs de données.

La dataviz s'impose enfin pour aider les citoyens à s'approprier les données ouvertes, à appréhender des sujets complexes voire à changer des comportements.

Pour certaines données comme celles produites en temps réel par des capteurs (comptage, température, polluants...) la dataviz est enfin le seul moyen de rendre la donnée exploitable.

Les trois composantes d'une dataviz réussie

Une datavisualisation réunit des données, une représentation visuelle et du texte. Comme toute communication, elle présuppose de définir une cible pour calibrer le message que l'on souhaite véhiculer. La réflexion sur la cible et le message est un préalable à toute datavisualisation.

Dictée par la rigueur statistique, la dataviz ne doit pas faire mentir les données. Il ne s'agit pas de chercher à transformer les données pour transmettre un message qui arrange son émetteur.

La datavisualisation droit trouver un équilibre et des synergies entre ces trois composantes.

Les données dont il faut respecter l'intégrité,
Le visuel aide à clarifier les données sans les déformer ou les trahir
La narration (titres, exergue...) permet d'expliquer de contextualiser

La dataviz, une histoire ancienne

La datavisualisation n'est pas un besoin nouveau. La datavisualisation a émergé en même temps que la donnée et on peut remonter son origine aux débuts de l'humanité avec l'art pariétal... Avec l'imprimerie on a ensuite vu apparaître les arbres généalogiques, cartes du "tendre" et autres tentatives de classement de connaissances. Ce sont autant de datavizs.

Les débuts de la statistique au XIXe siècle ont accru le besoin de visualisation. A cette époque ont été inventées des formes de datavisualisation toujours utilisées.

La visualisation des données a connu au ensuite deux grandes accélérations :

L'invention de la bureautique, à la fin du 20e, a démocratisé l'usage d'Excel et autres tableurs facilitant la création de graphiques .
Le développement d'internet et du HTML 5 avec aujourd'hui la possibilité de créer des datavisualisations spectaculaires à l'aide d'un simple navigateur web.

Quelques formes anciennes de dataviz toujours utilisées

Si la bureautique a démocratisé la datavisualisation, les grandes formes de dataviz remontent pour certaines à plusieurs décennies. Et certaines représentations font toujours partie du quotidien des collectivités.

Carte choroplèthe

La carte choroplèthe - avec des zonages dont la couleur varie en fonction de la valeur - est aussi répandue que le camembert car elle permet de visualiser des disparités territoriales.

Diagramme de Sankey

Le diagramme de Sankey est aujourd'hui utilisé pour visualiser des flux avec des origines / destinations : populations, voyageurs, énergie, déchets...

La contribution de l'ingénieur des Ponts et chaussées Charles Joseph Minard (1781-1870) à la visualisation de données est tout à fait considérable. Cartes choroplèthes, diagrammes en barres, cartes de flux, camemberts sur des cartes... il a été à l'origine de dizaines de représentations graphiques innovantes toujours utilisées et dont on peut découvrir un panorama.

Carte de points / corrélation

Cette carte a permis d'établir la corrélation entre le nombre de morts du choléra (géolocalisés) et la présence d'un puits infecté par le bacille à proximité du logement des personnes décédées.

Réseaux de transports

La représentation des stations de métro sous forme de diagramme simplifié sans tenir compte des distances entre les stations ou de l'exactitude des tracés est une idée d'Harry Beck, dessinateur industriel anglais. C'est aujourd'hui devenue le schéma universel de représentation des plans de transport publics.

L'histoire de la datavisualisation en une seule dataviz

La dataviz suivante permet de découvrir les concepteurs de datavisualisations depuis près de trois siècles en lien avec leur domaine d'application. La statistique et la géographie arrivent en tête des disciplines pourvoyeuses de dataviz... avant que la datavisualisation devienne une discipline à part entière !

Les grandes familles de dataviz

Une sélection de datavisualisations

Ce chapitre ne se veut pas exhaustif, loin s'en faut. Les datavisualisations ne cessent en effet de s'enrichir de nouvelles formes ou de variantes. Il s'agit d'une sélection fondée sur deux critères :

La possibilité de les réaliser avec des logiciels ou plateformes "no code", gratuites ou freemium.
Le fait qu'elles ne nécessitent pas de connaissances poussées en statistiques ou datascience.

Pour les exemples illustratifs, les données utilisées sont de "vraies" données en open data de l'Etat ou des collectivités locales.

L'outil utilisé pour créer les dataviz présentées est spécifié. La liste des outils fait l'objet d'un .

NB : les cartes, qui font appel à des logiciels et compétences spécifiques, ne sont pas traitées dans ce chapitre.

On notera qu'il n'y a pas de standard dans la datavisualisation. Cela signifie par exemple qu'en cas d'automatisation des datavisualisations avec un outil ou une plateforme, il faudra tout reprogrammer si la collectivité souhaite en changer.

C'est un point de vigilance qui concerne plus particulièrement les tableaux de bord.

Représenter une répartition, les parties d'un tout

Budget, population, effectifs, catégories d'objets... L'usage d'une datavisualisation pour représenter une répartition est très commun.

Cette partie vise à aider à "sortir du camembert" pour présenter des formes de dataviz moins courantes et pour lesquels des outils no code existent.

Le camembert

Le camembert ou pie chart révèle la part relative de catégories dans un tout. Il est d’autant plus signifiant que les chiffres (et donc les angles) ont des écarts importants.

Mode de représentation « universel » d’une répartition de données où les surfaces sont proportionnelles aux valeurs

Facilité de conception et de production : fonction de base d'un tableur

Le camembert est inadapté pour représenter plus de 4/5 variables ou encore des pourcentages proches : l’œil ne différencie pas bien les angles.

Les camemberts en 3D sont à prohiber : ils génèrent une surreprésentation des secteurs situés sur la partie avant du graphique.

Les formes de camembert à proscrire

Les variations autour du camembert

Donut ou anneau

Plus léger que le camembert, le donut permet l’ajout de texte au milieu. Mais il ne résout pas tous les défauts du camembert avec une difficulté persistante à comparer des angles ou à représenter plus de 5 catégories.

Hémicycle

Incontournable pour l’analyse de phénomènes politiques (élections, votes, sondages avec des réponses binaires…) il est très adapté pour montrer un phénomène majoritaire. Il reste peu adapté à la représentation de catégories nombreuses.

Camembert irrégulier

Dans cette représentation, la longueur des rayons de chaque zone est proportionnelle aux valeurs des données en plus de l'angle qui exprime la proportion. Les zones des catégories peuvent être subdivisées pour apporter des informations supplémentaires.

Le camembert irrégulier sert à mettre en exergue les valeurs les plus extrêmes. Seuls les angles expriment les proportions… au prix d’une déformation contestable des surfaces censées représenter les valeurs. A utiliser avec modération.

Les graphiques en barres

Les barres verticales ou horizontales peuvent être utilisées pour représenter une répartition entre catégories. Si ces catégories sont continues, (âge, durée...) on parlera d'histogramme, la pyramide des âges étant par exemple constituée de deux histogrammes opposés. Un graphique en barres est souvent plus lisible que le camembert, notamment lorsqu'il y a de nombreuses catégories.

Barres horizontales

Les barres horizontales autorisent une lecture immédiate du graphique en mettant l’accent sur les les valeurs extrêmes. Il est important de classer les valeurs dans un ordre qui facilite la lecture, ici hiérarchique.

Barres verticales

Également facilement interprétables, les barres verticales ont pour principal inconvénient d’être peu propices à l’insertion de texte. Le classement des données suivant un ordre logique en facilite la lecture.

Barres groupées

Les barres groupées permettent des comparaisons entre plusieurs catégories et sous catégories.

Barres empilées

L’histogramme empilé sur une gradation à 100% est à utiliser avec précaution : la valeur la plus lisible est celle située sur l’axe horizontal. L’affichage des pourcentages s’impose pour en faciliter la lecture.

Le compartimentage

Le compartimentage, carte de carrés ou Treemap permet de visualiser une répartition avec des aires proportionnelles aux valeurs. Ce graphique permet notamment de visualiser des hiérarchies.

Difficile à lire s’il y a des valeurs très proches et/ou de petites valeurs. Il est en revanche adapté à la représentation de catégories avec de nombreuses sous catégories.

C'est surtout dans sa version interactive (la souris révèle les valeurs) qu'il est intéressant.

Graphique en bulles

Le bubble chart ou graphique en bulle a les même vertus que le compartimentage : montrer des catégories nombreuses avec, éventuellement, des regroupements plusieurs niveaux de catégories.

Ce type de représentation surfacique - l'aire est proportionnelle, la taille de la bulle est proportionnelle à la valeur- est intéressant pour comparer rapidement des valeurs, même si elles sont nombreuses. Il est également possible de jouer sur les couleurs pour différencier des catégories ou thématiques.

Icônes / surfaces

Les icones sont adaptées à des répartitions avec peu de variables. Elles contribuent à simplifier la lecture des données en donnant du sens. Particulièrement adaptées à des infographies ou à des publications papier "grand public", elles traduisent cependant plus des ordres de grandeurs que des chiffres précis car l'œil humain percoit mal les différences de tailles quand les valeurs sont proches.

On peut aussi opter pour une représentation ou chaque icone équivaut à une unité (ou une dizaine), la nature de l'icone facilitant la lecture du graphique.

Représenter une évolution dans le temps

Quelques pistes de dataviz pour comparer des valeurs dans le temps, qu'il s'agisse de séries longues ou non.

Histogramme

L'histogramme ou graphique en colonnes est adapté à suivre des évolutions, même sur de longues période. Il est facile à lire visuellement

L'histogramme simple

Facile à lire, ce type de dataviz permet de montrer l'évolution dans le temps d'une ou plusieurs catégories via la ligne qui se dessine au-dessus des barres. Plus il y aura de catégories, moins il sera facile à lire.

Histogrammes empilés

L'histogramme empilé permet de visualiser une évolution de plusieurs catégories d'un tout et de mettre en valeur l'évolution d'une répartition.

Courbes et lignes

Ce graphique affiche des variables quantitativ forme d'une série de points de données reliés par des segments de ligne droite. Les points de données sont classés, souvent par ordre chronologique) avec

Courbes en lignes

Graphique parmi les plus classiques. Le choix de l'échelle et la taille même du graphique jouent un grand rôle dans la l'interprétation du graphique et la mesure de l'ampleur de l'évolution ().

Courbes pleines

Les courbes pleines sont particulièrement parlantes pour montrer l'évolution relative de chaque catégorie. Ce type graphique devient cependant peu lisible quand les courbes se croisent, sauf à jouer sur des transparences.

Répétition de graphiques

Un même graphique (camembert, anneau, icone...) est utilisé plusieurs fois pour représenter une évolution dans le temps. s'ils changent des courbes et histogrammes, ils sont plus compliqués à lire. On le réservera à des séries chronologiques / de catégories peu nombreuses.

Représenter des relations entre les données

Diagramme de Sankey

Le diagramme de Sankey, aussi appelé diagramme alluvial, est adapté à la représentation de flux, la largeur des liens étant proportionnelle aux valeurs.

Ce type de datavisualisation est souvent utilisé pour représenter des données liées à l'énergie (production/ consommation) aux déchets (quoi/ où), la mobilité (origine/ destination).

Diagramme de Venn

Le diagramme de Venn montre les relations entre des ensembles. Les interactions entre les idées, les concepts ou les phénomènes sont visualisées par les superpositions de couleurs.

Diagramme circulaire

Les catégories, différenciées par des couleurs, sont placées en périphérie d'un cercle. Elles sont reliées entre elles par des liens dont l'épaisseur est proportionnelle à une valeur.

Ce type de graphique ne fonctionne qu'en ligne : c'est au survol par le curseur que les relations et les valeurs s'affichent.

Carte de chaleur

La carte de chaleur met en valeur la relation entre deux données montrant de potentielles corrélations.

Par convention, plus la couleur est foncée - on peut aussi utiliser une gamme chaud/ froid ou rouge/ vert - plus le nombre d'occurrences est élevé.

Appliqué initialement aux cartes géographiques pour montrer une densité, une répartition, la carte de chaleur peut se décliner en tableau pour favoriser une lecture rapide d'un grand nombre de valeurs.

Mettre en oeuvre son projet dataviz

Les 4 grandes étapes

1- Définir un objectif

On ne fait pas un graphique pour "faire joli" mais pour donner du sens aux données, les mettre au service d'une finalité. Une datavisualisation par définition n'est pas neutre : elle fait des choix dans ce qu'elle veut montrer.

Définir un objectif, c'est aussi définir une cible : à qui s'adresse-t-on ? à des agents qui connaissent le sujet ? à des élus qui ont un besoin d'être aidés dans la prise de décision ? à des citoyens à qui l'on veut expliquer un phénomène complexe ou que l'on veut inciter à modifier le comportement ?

La cible influence l'ensemble du projet : le choix et l'organisation des données, le mode de représentation, le message, l'esthétique...

2 - Sélectionner et préparer les données

Cette étape est potentiellement la plus longue mais même si les données sont "propres" car la datavisualisation va imposer un travail de préparation spécifique, lié au logiciel utilisé.

Il s'agit notamment d'opérer une sélection de données (éliminer certaines colonnes par exemple) en déterminant celles qui sont les plus pertinentes pour le message que l'on veut faire passer.

Il s'agit aussi de réaliser des regroupements, des classements, des transpositions (...) pour que les données puissent être correctement interprétées par l'outil de visualisation.

Cette étape doit aider à affiner le choix éditorial en "anglant" la dataviz sur un message clé.

3 - Trouver le mode de représentation le plus adapté

Il s'agit de trouver à ce stade le mode de représentation des données le plus adaptée.

Cette étape peut être alimentée par la recherche de datavisualisations inspirantes sur des thématiques similaires.

Elle peut aussi s'alimenter de la consultation de catalogues de datavisualisation ou de sites spécialisés dans la veille sur la datavisualisation

On citera la veille proposée par OpenDataSoft via son ou des sites comme

4 - Éditorialiser le rendu (forme, contexte)

Cette étape consiste à produire la datavisualisations à l'aide d'un logiciel ou d'une plateforme.

L'éditorialisation des données passe par le choix des couleurs, l'ajout de textes explicatifs ou d'informations contextuelles permettant de comprendre les données.

Cette étape doit intégrer les contraintes inhérentes au support de diffusion : papier, présentation, mobile...

Des outils pour préparer les données

Le travail de préparation des données avant de créer la dataviz est, de loin, l'étape la plus longue. deux grands cas de figure sont à distinguer :

Les données fournies sont brutes et n'ont pas fait encore l'objet d'une publication en open data. L'exploitation des données aura alors comme préalable un (laborieux) travail d'extraction, de nettoyage et de contrôle de qualité des données.
Les données ont été publiées et respectent a minima les règles de lisibilité des données par une machine. Il s'agira alors de traiter les données pour les adaptera au message que l'on souhaite passer et/ou de les organiser pour les rendre exploitables par le logiciel de datavisualisation.

Pour connaitre les principales erreurs et les méthodes pour les éliminer on renverra vers ce guide réalisé par de mise en qualité des données et le "sprint qualité" proposé pour y remédier.

Quelques exemples dans la préparation des données :

Regroupement de catégories trop nombreuses pour être représentées de manière lisible
Distinction des valeurs zéro des valeurs manquantes
Reformulation de libellés pour les rendre compréhensibles par un large public

👍 On peut partir de l'organisation des données et du nombre de variables pour trouver les datavizs adaptées

Pour nettoyer les données comme pour les organiser, un outil s'impose, il s'agit d'OpenRefine. A l'origine créé par Google, OpenRefine est désormais un logiciel libre avec une traduction française. Beaucoup plus puissant qu'Excel et a pour particularité de garder la trace de toutes les modifications opérées -l'accès au fichier initial reste toujours possible - voire de les enregistrer pour être "rejouées" sur un jeu de données similaires. On renverra vers ce .

Dataviz statique ou dynamique ?

La dataviz statique, telle que celle crée par un tableur, est celle qui sera utilisée dans un document papier, une présentation ou une infographie. Sous peine de devenir illisible, la dataviz statique induit une sélection des données et du texte pour informer du contexte.

La dataviz ne signifie pas forcément un graphique ou un visuel. Un simple tableau avec des chiffres peut parfois faire l'affaire. C'est du reste une des options proposées par le site Datawrapper.de.

La dataviz dynamique, autorisée par les outils de datavisualisation en ligne, ne peut être visualisée que sur un terminal numérique. Elle induit une interactivité avec l'utilisateur, plus ou moins élaborée : du passage de la souris pour afficher une valeur, une catégorie, à la possibilité de faire varier des paramètres d'affichage. Attention à prendre en compte la problématique du mobile dans sa conception.

Les plateformes de dataviz grand public "no code" proposent des scénario d'animation/ d'interactivité préétablis avec la possibilité de les activer, ou non, voire de les personnaliser

Dataviz exploratoire ou explicative ?

La datavisualisation peut aider à comprendre les données, à les explorer, ou être un moyen d'information, pour expliquer un phénomène. La datavisualisation exploratoire vise plutôt un public de personnes averties (de la nature des données, du contexte...) et vise à les aider à réfléchir, à comprendre un phénomène.

La datavisualisation explicative s'adresse à un public que l'on cherche à convaincre en lui racontant une histoire, avec un message essentiel. Ce type de datavisualisation implique de ne pas chercher à tout vouloir dire et de veiller à fournir toutes les informations nécessaires à la compréhension des données.

La datavisualisation exploratoire est parfois un préalable à sa version explicative : elle permettra de comprendre les données, de repérer d'éventuelles erreurs ou singularités et aidera à concevoir sa version explicative, adaptée à un public défini.

Choisir des couleurs adaptées

La couleur, une information à part entière

Le choix des couleurs pour une datavisualisation n’a rien d’anodin. Les couleurs sont en elles-mêmes porteuses de sens, celui-ci pouvant varier selon les pays et les contextes (cf. ci-dessous)

D’une façon générale, en France, les couleurs chaudes (rouge, orange et jaune) véhiculent l’énergie, l’action, les couleurs froides (bleu, vert, violet) dégagent des sensations plus paisibles. La nature des données, la cible de la datavisualisation, le contexte géographique, le message que l'on souhaite véhiculer sont autant de paramètres qui interfèrent dans le choix des couleurs.

Mais dans tous les cas on préfèrera la sobriété, gage de lisibilité de la dataviz. Plus il y aura de couleurs, plus le graphique sera difficile à comprendre.

Quelques évidences dans le choix des couleurs

La couleur, source potentielle d'exclusion

Le daltonisme ou déficience de la vision des couleurs (DVC), touche environ 8 % des hommes et 0,5 % des femmes dans le monde. Il doit conduire à privilégier des contrastes élevés entre les couleurs et à éviter certaines combinaisons comme rouge et verts, marron et verts ou bleu et violet.

Les couleurs, des symboliques variables en fonction des pays

La signification des couleurs n'a rien d'universel et leur usage doit être adapté au public cible. La datavisualisation suivante montre toute cette diversité dans l'association des couleurs à des valeurs.

Le rouge symbolisera la gauche/ les partis progressistes dans une dataviz sur la vie démocratique en France, cette même couleur étant celle des conservateurs/républicains aux Etats-Unis. Utilisé dans une carte de chaleur, le rouge sera spontanément interprété comme une zone de danger.

Le site de création de dataviz Datawrapper propose très complet avec une dimension accessibilité visuelle : il es possible de choisir des combinaisons de couleurs adaptées aux différentes visions des couleurs.

Minimiser le nombre de couleurs

Pour représenter des catégories (groupes politiques, compétences, nature des dépenses/recettes....) on utilisera des couleurs différentes. On se limitera cependant au maximum à six couleurs différentes, quitte à faire des regroupements.

Pour représenter la variation d'une valeur numérique (ex : taux de chômage, population, niveau de revenu...) on privilégiera un dégradé entre une ou deux couleurs.

Un dégradé sur une seule couleur (séquentiel) induira une progressivité et une continuité dans les données (ex : une densité de population).

Un dégradé entre deux couleurs permet :

de mettre en valeur les données extrêmes
de rendre plus lisibles les valeurs intermédiaires et notamment celles autour de la médiane qui sépare en deux l'effectif

Certains auteurs, à l'image d'Edward Tufte, plaident pour une simplification à l'extrême du nombre de couleurs. Voir ci-dessous ce que cela peut donner.

Des outils pour choisir les couleurs

La plupart des plateformes et logiciels de datavisualisation proposent des nuanciers de couleurs prêts à l'emploi. Mais il est aussi possible de créer sa propre gamme de couleurs, en jouant sur le nombre de couleurs, sa teinte ou sa saturation.

Leurs références sont exportables au format HEX ou HTML.

Ces outils utilisent une "roue chromatique" pour créer en quelques clics une gamme respectant les règles d'harmonie chromatique : couleurs monochromes, complémentaires ou encore situées dans une même zone du spectre. on citera :

Adobe color CC 👍

Etre guidé dans le choix du type de dataviz

Face à l'étendue des possibilités de représentation il n'est pas toujours facile de choisir. Plusieurs principes doivent prévaloir :

C'est la nature des données qui constitue le paramètre déterminant. La forme graphique n'est là que pour mettre en valeur les données, en extraire du sens, un message.
Le type de graphique dépend également du message : veut on montrer une évolution ? une corrélation ? une répartition ?
Plusieurs essais avec les données dans un tableur peuvent aider à sélectionner la famille de graphique appropriée avant d'utiliser une plateforme de datavisualisation.

Il est également possible d'utiliser des outils en ligne qui aiguillent l'utilisateur vers les représentations les plus adaptées en fonction du nombre de variables, du type de variable et de l'organisation des données.

Ces outils ont pour inconvénient d'être en anglais avec des noms de dataviz qui n'ont pas toujours d'équivalent en Français.

Par ailleurs ces diagrammes décisionnels ne renvoient pas toujours vers les logiciels capables de créer les représentations qu'ils proposent.

Dataviz catalogue

Le dataviz catalogue liste et décrit une soixantaine de types de datavisualisations. Les formes graphiques peuvent être triées par fonction : comparaison, classement, évolution, distribution, partie d'un tout...

Chaque graphique fait l'objet d'un descriptif détaillée avec des exemples et des alternatives possibles. Il renvoie aussi à une liste d'outils pour le créer (en anglais et avec des outils pas toujours très à jour)

Dataviz project

Dataviz project classe les datavisualisations par familles, par fonctions et par formes.

On appréciera ses précisions sur l'organisation des données d'entrée (nature, nombre de variables minimales, données ordonnées ou non... ) et le renvoie vers de nombreux exemples pour chacune des formes de datavisualisation.

Les indications sur l'organisation des données pour concevoir la dataviz sélectionnée

Certains graphiques sont très esthétiques mais on aura du mal à les reproduire car ils ont été conçus/ embellis via Illustrator

From data to viz

En fonction du type de données - chiffres, catégories, données chronologiques, géographiques... - le site From data to viz propose une arborescence de choix. Chaque graphique fait l'objet d'une description et d'exemples.

Des recommandations et erreurs à éviter sont proposées pour chaque graphique.

L'utilisateur est aussi renvoyé vers les bibliothèques de scripts proposant le type de graphique décrit.

La vision "analyste de données" privilégiée par ce site doit être croisée avec celle du datajournaliste : quel message veut on faire passer ? la dataviz choisie est-elle percutante par rapport au public ? Le rendu est-il suffisamment explicite ?

10 points de vigilance

Bien dimensionner son graphique

La taille, le format (portrait/ paysage) de la datavisualisation peuvent jouer substantiellement sur l'interprétation des chiffres. C'est particulièrement le cas pour les courbes et les graphiques avec des échelles.

Un graphique basique avec les même chiffres illustre parfaitement cette problématique. Hélas, il n'y a pas de règle claire si ce n'est un principe d'honnêteté intellectuelle.

Le médium de diffusion interfère également. Dans une publication papier la dataviz devra entrer dans un gabarit induisant un format, une taille. Le mobile a aussi ses contraintes en imposant (parfois) un format portrait. Pour éviter les mauvaises surprises, le mieux est de partir de l'espace disponible (gabarit) pour déterminer la forme de datavisualisation la plus adaptée.

Une échelle régulière

La création d'un graphique doit être dictée par un principe d'honnêteté, de respect des chiffres et des règles de représentation. Il s'agit notamment d'avoir une échelle régulière et lisible grâce à des repères visuels.

Ne pas respecter cette règle conduit à déformer la courbe et à trahir les chiffres.

Exemple avec ce graphique sur les chiffres de la croissance

Privilégier un axe des Y à zéro

Pour mettre en valeur les chiffres, éviter une représentation inesthétique, il peut être tentant de ne pas faire démarrer l'axe des ordonnées à zéro.

A prohiber pour les graphiques en barres

Dans un graphique en barres, la taille de chaque barre est proportionnelle aux valeurs. En ne mettant pas l'axe à zéro, on fausse donc totalement la lecture des chiffres.

Exemple

Ce graphique est en fait basé sur un axe des ordonnées qui n'est pas à zéro mais à 7000

Voici ce que cela donne avec un axe des ordonnées à zéro.

A tolérer pour les courbes ?

Dans le cas de courbes, un axe à zéro peut être toléré dans la mesure où il ne trahit pas (trop) les données. Le couper permet de mettre l'accent sur les hausses ou les baisses. On recommandera cependant de ne pas en abuser tant la pente peut être trompeuse. Et on recommandera de tronquer l'axe des ordonnées avec un espace blanc.

Avec un axe dont on montre qu'il est tronqué, on ne risque plus de tromper le lecteur.

Trier les données

En triant les données, on en facilitera la lecture. Ce tri doit répondre à une logique intuitive pour le lecteur. Ce tri n'est pas neutre : il induit une lecture des chiffres.

Exemple 1 : Graphique en barres

Les dépenses 2018 des conseils régionaux (source : ARF)

Exemple 2 : camembert

Ce classement est indispensable pour faciliter la lecture de valeurs proches. Il se fait par convention dans le sens inverse des aiguilles d'une montre.

Pas de donnée ou valeur à zéro ?

Le fichier source peut contenir des valeurs à zéro ou des données manquantes. Or les deux n'ont pas du tout le même sens, un zéro pouvant constituer une information à part entière.

Exemple : Pour des chiffres portant sur la délinquance, une valeur à zéro pour un territoire d'observation constituera une information à part entière. La donnée manquante devra être distinguée de l'absence de donnée sauf à tromper le lecteur.

Dans la phase d'analyse des données, ce sujet doit être un point de vigilance. Les auteurs des données ne précisent hélas pas toujours ce que cache un "0" ou une case vide.

L'information manquante doit en théorie être mentionnée sous forme de trait "-", de "ND" (non disponible) mais en pratique ce n'est pas le cas et ces "trous" ne sont pas toujours documentés ou interprétables.

Fournir un contexte

Les chiffres parlent rarement d'eux-mêmes. Des informations contextuelles sont indispensables pour comprendre les données, établir des points de comparaison, éviter des erreurs de jugement, susciter le débat (...)

Enrichir la datavisualisation de textes

Une datavisualisation doit avoir un titre aussi explicite que possible. Il peut être neutre : "la répartition de la production d'énergies" ou orienter le lecteur : "le nucléaire toujours largement en tête des sources énergies".

Les différentes catégories doivent ensuite être clairement indiquées. La légende en bas du graphique n'est pas toujours lisible : inscrites au plus près des barres ou courbes, elles seront plus lisibles. Enfin des annotations seront utiles pour signaler un élément de contexte expliquant une bizarrerie dans les chiffres.

Ci-dessous, la variation soudaine de la courbe de mortalité et donc du solde naturel mérite d'être expliquée. Une flèche pointe l'impact de la pandémie de Covid 19 en 2020.

Comparer ce qui est comparable

Quand on souhaite comparer des données, il faut se garder de comparer ce qui est effectivement comparable en ne mélangeant pas les choux et les carottes. La recommandation peut paraitre triviale mais elle est à l'origine de nombreuses erreurs ou constats erronés.

Comparer des données régionales sur 15 ans en omettant de signaler la fusion des régions intervenue en 2015 (passage de 22 à 10 régions) conduirait évidemment à avoir des courbes totalement erronés. Idem pour l'Europe avec ou sans la Grande Bretagne...

Ne pas confondre corrélation et causalité

La corrélation, où deux séries de données semblent liées et convergent dans le même sens ne signifie pas nécessairement qu'il y ait un lien de causalité, de cause à effet. La tentation du déterminisme et de la recherche d'une causes uniques dans l'explication de phénomènes est pourtant fortement ancrée, du café du commerce à la sphère politique... L'éventualité d'une causalité relève cependant d'une analyse du contexte, d'éléments explicatifs que les chiffres seuls ne peuvent pas suffire à démontrer.

Les corrélations absurdes ne manquent pas, l'équipe des Décodeurs du journal Le Monde a même créé absurdes sur le modèle du site américain .

Limite des représentations surfaciques

Un certains nombres de datavisualisations sont basées sur une taille d'objet (leur surface) proportionnelle aux valeurs : cela concerne les camemberts, les icônes ou encore les histogrammes. C'est aussi le cas des cercles utilisés pour représenter des valeurs sur une carte.

La taille des cercles, icônes (...) est généralement créée automatiquement par les logiciels de datavisualisation avec parfois la possibilité de modifier l'échelle pour en faciliter la lecture (voir le territoire qui est derrière...). Dans les faits, il n'est pas toujours possible de vérifier l'exactitude du rendu par rapport aux données sachant que l'œil humain a du mal à évaluer et comparer les surfaces.

Le choix de l'échelle - avoir des "petits" cercles plutôt que des grands - ne répond pas qu'à un objectif de lisibilité. Ce choix n'est pas neutre sur le message et peut même conduire à des erreurs d'interprétation.

Cette vidéo sur le nombre de migrants syriens accueillis en Europe, signée de en fournit une éclatante démonstration.

Contexte de diffusion et mobile

Réunion ou publication ?

Une datavisualisation est généralement issue d'une commande avec un rendu à la clef. Celui-ci peut prendre la forme d'une présentation, d'un rapport, d'une diffusion en ligne, sur les médias sociaux ou encore d'une présentation à une réunion.

Trop souvent la même datavisualisation sera utilisée indifféremment. C'est une erreur dans la mesure où les publics ne seront pas les mêmes, de même que le support ou le mode de diffusion.

Une présentation face à un public peut justifier de la simplifier, les données contextuelles étant fournies à l'oral. Une mise en scène peut même être organisée pour accentuer le sens de la datavisualisation. Le même sujet traité sur un support papier devra être contextualisé.

DOCUMENTATION OPENDATAFRANCE

Plaquette / Poster DViz

Galerie de datavisualisations inspirantes

Sélection de datavisualisations "inspirantes" collectées par OpenDataFrance. Ce tableau réunit quelques datavizs, cartoviz et tableaux de bords créés par des collectivités, des administrations ou des acteurs travaillant avec le secteur public.

La solution technique utilisée est indiquée quand elle a pu être identifiée.

Plateformes et outils de dataviz disponibles

La conception de datavisualisations a longtemps reposé sur des logiciels – souvent onéreux – qu’il fallait installer sur un poste de travail, les plus emblématiques étant Excel, Illustrator et Powerpoint.

Internet et la "plateformisation" des applications a radicalement changé la donne au cours des dix dernières années : désormais un simple navigateur internet permet à n'importe qui de réaliser des dataviz statiques, interactives, mise à jour en temps réel... Ces plateformes, qui nécessitent peu de connaissances techniques, proposent souvent une offre Freemium, avec un socle gratuit et des fonctions, services ou nombre de créations limités sauf à prendre un abonnement.

La datavisualisation a par ailleurs suscité l'intérêt des développeurs qui ont créé de nombreuses "bibliothèques" de codes et scripts, souvent sur des plateformes libres comme Github . Prisées des datascientists, ces bibliothèques ne sont pas abordées par ce guide. Ces bibliothèques "nourrissent" les plateformes citées précédemment ou encore les prestataires proposant des tableaux de bords et autres outils de dataviz prêts à l'emploi.

Enfin on soulignera que le foisonnement des outils est intense... avec le risque d'utiliser des outils / plateformes désertés aussi soudainement qu'ils ont suscité l'enthousiasme. Malgré ce foisonnement, la plupart des outils sont en anglais, ceux totalement traduits restant rares.

Panorama des outils

Cette carte est à prendre avec précaution : la frontière entre payant et gratuit est notamment très poreuse. Beaucoup de solutions sont sur un modèle Freemium (fonctionnalités limitées, obligation de rendre publiques les créations, limites quantitatives...). Elles permettent toutefois de répondre à des besoins de datavisualisation ponctuels.

Les bibliothèques de scripts constituent des "réservoirs" de fonctionnalités dans lesquelles puisent les éditeurs de solutions propriétaires et sont aussi sources de déclinaisons (typiquement Datawrapper et Rawgraphs) accessibles à un plus large public.

On notera que les outils utilisés en 2021 restent ceux d'éditeurs présents depuis plusieurs années sur le marché de la datavisualisation.

Sélection d'outils

Cette sélection s'adresse à des collectivités qui n'ont pas de compétences en datascience et/ou en développement informatique. Elle privilégie les outils libres et gratuits ainsi que ceux dont on sait qu'ils sont plus particulièrement présents dans le secteur public.

Autres ressources

Sites internet et Twitosphère

Quelques sites

Le sujet de la dataviz est largement préempté par les anglosaxons et les sites en anglais sont de loin les plus nombreux et les plus riches. L'objectif est ici de vous proposer des expertises et ressources essentiellement francophones, à quelques exceptions.

Datajournos, un site de veille de datajournalistes sur les outils, pratiques, méthodes : https://datajournos.fr/

Geodataviz site sur la cartographie et la datavisualisation,

Datawrapper qui tient un blog (en anglais) avec énormément de ressources sur les bonnes pratiques :

OpenDataSoft et son de l'éditeur OpenDataSoft

Datacentric un centre de ressources & conseils sur la datavisualisation :

L'Agenre ORE qui, fédère les distributeurs d'électricité et de gaz, propose de plus de 450 datavisualisations dans le domaine de l'énergie

La de Loïc Hay, très complète mais avec des ressources essentiellement en anglais.

de l'éditeur Tableau

Orange Business Service : ?

Twitosphère : comptes très actifs sur le #dataviz

statisticien Co-fondateur de Toulouse Dataviz

qui nourrit le recueil des pires dataviz sous le tag #nifnaf retrouver tout ce qui ne va pas dans ce joli #nifnaf

en charge de projets data à la FNCCR

membre de Datactivist

Statisticien, facilitateur en datavisualisation et open data, formateur en datascience et

fondateur de perceptible.fr

datajournaliste aux Echos

Et aussi

les infographies du Wall Street Journal

celles du New York Times

Quelques ouvrages en français

Par ordre chronologique

Ouvrages de référence

Manuel de datavisualisation - 2e édition Méthodes - Cas pratiques Jean-Marie Lagnel (2021)

Cartographie radicale Explorations Nepthys Zwer, Philippe Rekacewicz -2021

Datavisualisation. Utilisez le storytelling pour faire parler vos données Cole Nussbaumer Knaflic - 2019

Data visualisation De l'extraction des données à leur représentation graphique (2013)

La graphique et le traitement graphique de l'information Jacques Bertin (Auteur) - 2017

Autres guides

Guide de sémiologie graphique - 2018 Insee

Démocratiser l'accès et les usages de la donnée OpenDataSoft - Jean-Marc Lazard (2020)

Présentations et webinaires

MasterClass DataViz / OpenDataFrance

OpenDataFrance a mis en place une formation/action de 2 jours pour comprendre et mettre en pratique la dataviz. Il s’agit de s’approprier de nouvelles compétences, par la pratique et avec l’appui d’experts (coach). Ces MasterClass sont réservées à des agents publics issus des collectivités locales et ayant déjà une certaine connaissance des données publiques. Lors des MasterClass, ils approfondiront leurs connaissances, pratiqueront des outils, développeront leur autonomie sur la manipulation et la valorisation des données.

Les sessions ont eu lieu en 2022. D'autres sessions peuvent être programmées à la demande auprès d'OpenDataFrance (conditions d'accès : payantes avec réduction de 50% pour les membres d'OpenDataFrance).

Mois de la data / OpenDataFrance

Les témoignages sur la datavisualisation présentés à l'occasion du mois de la data de 2021 et début 2022

Supports du Master Sigat / Boris Mericskay,

Le master Sigat de l'université de Rennes 2 est spécialisé dans la formation à la cartographie et la représentation de données. Son professeur coordonnateur, Boris Mericskay, met en ligne une grande partie de ses supports de cours ainsi qu'une veille sur la datavisualisation

Il propose également des tutoriels sur l'usage d'outils libres de manipulation de données.

Le site personnel de Boris Mericskay:

Le site du Master Sigat :

Présentations de datacktivist

La coopérative Datacktivist, spécialisée dans l'accompagnement de projets data / open data propose plusieurs supports sur la datavisualisation :

Formats, outils et bonnes pratiques de la visualisation de données

Panorama des formats et des outils de data visualisation

Vidéos

La datavisualisation pour les nouilles - Mois de la data 2019

Intervention de Caroline Goulard, CEO de Dataveyes

Cartographie

CartoViz

CartoTools

(produit par Loic Hay - FNCCR)

Editorialisation des données publiques

LA DATAVISUALISATION PAS A PAS

Définition, contexte et enjeux de la datavisualisation

Datavisualisation, infographie, tableau de bord...

Les enjeux de la datavisualisation pour les collectivités

Les trois composantes d'une dataviz réussie

La dataviz, une histoire ancienne

hashtagQuelques formes anciennes de dataviz toujours utilisées

hashtagL'histoire de la datavisualisation en une seule dataviz

Les grandes familles de dataviz

Une sélection de datavisualisations

Représenter une répartition, les parties d'un tout

Le camembert

Les variations autour du camembert

Les graphiques en barres

Le compartimentage

Graphique en bulles

Icônes / surfaces

Représenter une évolution dans le temps

Histogramme

Courbes et lignes

Répétition de graphiques

Représenter des relations entre les données

Diagramme de Sankey

Diagramme de Venn

Diagramme circulaire

Carte de chaleur

Mettre en oeuvre son projet dataviz

Les 4 grandes étapes

Des outils pour préparer les données

Dataviz statique ou dynamique ?

Dataviz exploratoire ou explicative ?

Choisir des couleurs adaptées

Minimiser le nombre de couleurs

Des outils pour choisir les couleurs

Etre guidé dans le choix du type de dataviz

Dataviz catalogue

Dataviz project

From data to viz

10 points de vigilance

Bien dimensionner son graphique

Une échelle régulière

Privilégier un axe des Y à zéro

hashtagA prohiber pour les graphiques en barres

hashtagA tolérer pour les courbes ?

Trier les données

Pas de donnée ou valeur à zéro ?

Fournir un contexte

Comparer ce qui est comparable

Ne pas confondre corrélation et causalité

Limite des représentations surfaciques

Contexte de diffusion et mobile

DOCUMENTATION OPENDATAFRANCE

Plaquette / Poster DViz

Galerie de datavisualisations inspirantes

Plateformes et outils de dataviz disponibles

Panorama des outils

Sélection d'outils

Autres ressources

Sites internet et Twitosphère

hashtagQuelques sites

hashtagTwitosphère : comptes très actifs sur le #dataviz

Quelques ouvrages en français

hashtagOuvrages de référence

hashtagAutres guides

Présentations et webinaires

Cartographie

hashtagCartoViz

hashtagCartoTools

La dataviz, une histoire ancienne

hashtagQuelques formes anciennes de dataviz toujours utilisées

hashtagL'histoire de la datavisualisation en une seule dataviz

LA DATAVISUALISATION PAS A PAS

Les enjeux de la datavisualisation pour les collectivités

hashtag6 raisons pour les collectivités d’exploiter la datavisualisation

Datavisualisation, infographie, tableau de bord...

Une sélection de datavisualisations

Les trois composantes d'une dataviz réussie

Représenter une répartition, les parties d'un tout

Icônes / surfaces

Quelques formes anciennes de dataviz toujours utilisées

L'histoire de la datavisualisation en une seule dataviz

A prohiber pour les graphiques en barres

A tolérer pour les courbes ?

Quelques sites

Twitosphère : comptes très actifs sur le #dataviz

Ouvrages de référence

Autres guides

CartoViz

CartoTools

Quelques formes anciennes de dataviz toujours utilisées

L'histoire de la datavisualisation en une seule dataviz

6 raisons pour les collectivités d’exploiter la datavisualisation

A prohiber pour les graphiques en barres

A tolérer pour les courbes ?

Ouvrages de référence

Autres guides

CartoViz

CartoTools

Quelques sites

Twitosphère : comptes très actifs sur le #dataviz