Séquence mise en pratique
Dernière mise à jour
Dernière mise à jour
CC-BY-SA 2023
Cette séquence sous forme d'exercice pratique, vous permet de découvrir les fonctions de base d'un tableur excel afin de manipuler ou produire un jeu de données.
Les étapes de l'exercice sont des opérations assez courantes lorsque l'on souhaite récupérer un fichier de données au format tabulaire, faire des traitements et produire de nouvelles données à des fins de partage (interne ou externe).
Nous présentons ici un exemple à partir du logiciel Excel, celui-ci figure parmi les logiciels les plus utilisés dans le monde bureautique. Les fonctions présentées sont disponibles ou quasi équivalentes dans les autres logiciels de type tableurs (libre office, open office, google sheet...), avec parfois quelques différences syntaxiques. Par exemple, la fonction =somme(...) de Excel peut s'appeler =sum(...) dans GoogleSheet ou LibreOffice.
Cette mise en pratique s'adresse à toute personne souhaitant réaliser des traitements de niveau intermédiaire avec un tableau de données sans utilisation de code ("no code"). Afin de réaliser cet exercice, il faut compter entre 40 et 50 minutes.
Cela nécessite une connaissance des fonctions de base du tableur Excel : vous pouvez vous appuyer sur la vidéo ci-dessous pour une initiation plus complète.
1 - Munissez-vous du logiciel Excel
2 - Télécharger le jeu de données ci-dessous
3 - Repérez le standard de données (schéma) qui normalise un tel jeu de données
Vous pourrez utilement rechercher dans des ressources gratuites en ligne des tutoriels présentation des fonctions avancées ici mobilisées (RechercheV...) dans les ressources ci-après : schema.data.gouv.fr
Ouvrir le fichier « exemple_subvention-avec-erreurs.xlsx » au format .csv avec LibreOffice (c'est à dire tableau dans sa version "la plus brute" sans mise en forme). Choisir le format de séparateur qui permet une présentation de toutes les colonnes.
Aide : à l'ouverture du fichier avec libreoffrice, utiliser le éparateur = Comma (qui veut dire « virgule ») puis sauvegarder au format excel.
Ouvrir le fichier exemple_subvention-avec-erreurs.xls (format xls). Constater les erreurs : date incorrecte, ligne en doublon, nomination non homogène, identifiant incorrect, format des montants incorrects, codification incorrecte de la notification UE, format pourcentage incorrect (plus quelques autres erreurs que vous saurez repérer).
Remplacer la chaine de caractère « Ville de Poitiers » par « Poitiers ».
Aide : Edition/Rechercher/Remplacer
S’assurer que tous les libellés de nomAttribuant (ligne 1, colonne A) sont homogènes.
Modifier l’affichage de la colonne idAttribuant (colonne B). Il s’agit d’un numéro de SIRET sur 14 caractères. Le faire apparaitre sous le forme non scientifique : xxxxxxxxxxxxxx.
Aide : sélection la colonne B, aller à Mise en Forme/Cellule, choisir Nombre, sans décimale et sans séparateur
Modifier le format d’affichage d’une date : Colonne DateConvention (C), sélection la/les dates incorrectes, modifier le format.
Aide : sélection la colonne C, aller à Mise en Forme/Cellule, choisir Date, format 2012-03-14).
Mettre le SIRET au bon format d’affichage dans la colonne F (IdBeneficiaire). Détecter l’erreur (identifiant 32402138500000.0), d’où vient l’erreur ?
Aide : le format de la cellule est bien Nombre, sans décimale -qui serait séparée par une virgule- mais il a été rajouté un « .0 ». Il suffit de supprimer cette chaine de caractère).
Colonne N (pourcentageSubvention), le schéma stipule numérique entre 0 (0%) et 1 (100%), séparateur « . » (point). Repérer les erreurs (>80, 100, 0,5). Corriger les valeurs.
Aide : commencer par normaliser les formats dans la colonne, remplacer les «.» par «,», créer une nouvelle colonne temporaire O, insérer dans chaque cellule le calcul : =N$/100, copier par "remplacement les valeurs" calculées de la colonne O vers la colonne N. On peut supprimer alors la colonne O. Colonne N : remplacer le type de chaine de "Nombre" par "texte". Remplacer enfinles «,» par «.»
colonne notification_UE : constater la non-conformité des champs par rapport au schéma (on ne doit avoir que « oui » ou « non »). Trier les lignes et regrouper les lignes selon la valeur notification_UE (col. M).
Aide : Sélectionner toute la table (en Haut à Gauche), Données/Trier colonne notificationUE. Corriger les valeurs incorrecte (remplacer no par non, yes par oui).
Rappel : Appuyez-vous sur l’aide en ligne d’Excel pour trouver la syntaxe exacte des fonctions que vous utilisez.
Créer un nouveau champ Validation, qui possèdera les valeurs suivantes (liste fermée : Non validée, En cours, Validée). Ajouter aléatoirement les valeurs à chaque ligne.
Aide : Données, Validation, Autoriser : liste, Liste déroulante dans la cellule, Sources : Validée; En cours; Non Validée.
Créer des indicateurs :
Créer un nouvel onglet nommé Indicateur,
Insérer un graphique de type Barre
Représenter les colonnes G (Bénéficiaires) et Q (montant) sous forme de graphe
Mettez à jour les titres : du graphique, des axes
Adapter la présentation avant publication finale
Exporter le graphique au format image
Aide : créer une colonne de travail avec les montants au format numérique (donc avec des "," comme séparateur), trier les données suivant l'ordre croissant des montants attribués, sélectionner les plage G1:G14 et Q1:Q14, insérer un graphique de type barre. Cliquez sur les sections (le titre, le bloc de l'abscisse ou le bloc de l'axe horizontal) pour faire apparaitre les options, dans le cadre général (hors bloc), option : imprimer sous forme d'image.
Rencontrez-vous des difficultés dans la mise en pratique de l'exercice ? Signalez-nous cela sur le forum afin que nous puissions vous venir en aide !
Cette mise en pratique vous aura permis de parcourir un chemin non négligeable avec l'outil Excel, qui est un indispensable de la production et partage des données.
Cet exercice aura été l'occasion de découvrir et de vous familiariser avec quelques-unes des fonctions phares de l'outil :
Ouvrir un fichier de type cvs et xsl avec l’outil Excel, s’adapter au format du fichier (séparateur de colonne et de ligne),
Manipuler les colonnes et des lignes pour un affichage adapté. Modifier l’affichage (cacher), faire des tris et de regroupement,
Faire des calculs simples pour générer des indicateurs : totaux par catégorie (nombre ou somme),
Compléter les données par des informations externes : ajouter une géolocalisation à une adresse et inversement,
Contrôler la qualité des données,
Manipuler les données pour des traitements avancés,
Création d'un graphique simple et présentation.