🌱
GreenData- pour un impact environnemental maîtrisé
  • 1 - Référentiel GreenData - pour un impact environnemental maîtrisé
    • Préface et remerciements
    • 1.1 - Contexte
    • 1.2 - Bonnes pratiques
      • Avant tout, questionner le besoin
      • PLANIFICATION
      • BP 1 - Engager et conduire une démarche "donnée ouverte et responsable"
      • BP 2 - Prioriser les choix de données publiées
      • PRODUCTION
      • BP 3 - Standardiser les jeux de données
      • BP 4 - Documenter précisément les métadonnées
      • BP 5 - Proposer une granularité temporelle et géographique adaptée
      • ANALYSE
      • PUBLICATION
      • BP 6 - Réduire le volume unitaire des jeux de données
      • BP 7 - Proposer un accès aux données par API
      • BP 8 - Faciliter la découvrabilité des jeux de données
      • CONSERVATION
      • BP 9 - Mettre en place une politique d'archivage
      • EXPLOITATION
      • BP 10 - Contrôler l'hébergement des données
      • BP 11 - Penser l'écoconception du portail open data
    • 1.3 - Ressources
      • 1.3.1 - Méthodologie
        • 1- Priorité
        • 2- Difficulté de mise en œuvre
        • 3 - Pilote
        • 4 - Indicateur de pilotage
        • (optionnel)- Effet de levier environnemental, social et économique
        • (optionnel) - Echelle
        • (optionnel) - Type d’impact évité ou amélioré
        • (optionnel) - Système de calcul
      • 1.3.2 - Ateliers collaboratifs
      • 1.3.3 - Calculateur de score
    • 1.4 - Bibliographie
      • Productions INR
        • Guide de bonnes pratiques numérique responsable pour les organisations (2022)
        • Référentiel Green-IT (2020)
        • WeNR (2021)
        • MOOC - Numérique responsable (complet)
        • Calcul de mon impact environnemental
      • Productions FING
        • OpenDataImpact - 10 ans d'ouverture des données
        • Livre blanc Numérique et Environnement
      • Ressources de référence
        • Les impacts environnementaux et sociétaux des données : un défi pour l'avenir
        • Gautier Roussilhe - Etudes de cas
          • G.Roussulhe - Que peut le numérique pour la transition écologique ? (2021)
          • G. Roussilhe - Comprendre et estimer les effets indirects de la numérisation
          • G. Roussilhe - Territorialiser les systèmes numériques, exemple des centres de données (2021)
        • Empreinte environnementale des systèmes numériques et gouvernance territoriale
        • Guide Ademe - Face cachée du numérique (2019)
        • Les données, nouveau moteur de la transition écologique
        • MINUM_ECO - Mission interministérielle numérique responsable
        • Rapport ARCEP - Pour un numérique soutenable (2020)
        • Livre Blanc - Les KPI énergétiques et environnementaux des Data Centers (2017)
        • Loi du 15 novembre 2021 visant à réduire l'empreinte environnementale du numérique en France
        • DATAGIR (Ademe)
        • ADEME - ARCEP - Evaluation de l'impact environnemental du numérique (2022)
        • Datacenters éco-responsables
        • Label LUCIE
        • GreenIT Empreinte environnementale du numérique mondial
      • Voir ailleurs
        • Feuille de route AMDAC Data du MTE
        • Feuille de route Numérique responsable (MTE/ARCEP)
        • Mission "Connaissance" du ministère de la transition écologique (MTE)
    • Livrables GreenData
  • 2 - Le Projet
    • 2.1 - Présentation
    • 2.2 - Plan d'action
    • 2.3 - Partenaires
Propulsé par GitBook
Sur cette page
  • Contexte
  • Description de la bonne pratique
  • Bonnes pratiques ayant un impact important sur la réduction de l'empreinte environnementale
  • Bonnes pratiques ayant un impact modéré sur la réduction de l'empreinte environnemental :
  • Retours d'expérience
  • Accès aux résultats des élections à Grand Poitiers
  • Volumétrie des jeux de données limitée par les éditeurs de portails
  • Ressources
  1. 1 - Référentiel GreenData - pour un impact environnemental maîtrisé
  2. 1.2 - Bonnes pratiques

BP 6 - Réduire le volume unitaire des jeux de données

Priorité :

Mise en œuvre :

Exemple(s) d’indicateur(s) de pilotage

  • Volume moyen des fichiers disponibles en Mo

  • % de jeux de données supérieur à 240 Mo

Exemple de pilote : Référent aux données ouvertes et responsables Service à associer : DSI

Contexte

Les premières externalités négatives de la donnée sont liées à son stockage et sa diffusion qui nécessitent une infrastructure matérielle (réseau, et data centers), mais aussi des terminaux utilisateurs. Cela se traduit naturellement par de la consommation de matière première (minerais, eau, beaucoup d'eau) pour produire ces équipements, et de la consommation électrique.

Non seulement la production de données est colossale mais elle croit à une vitesse vertigineuse en raison des usages, des multiples sources (IoT) et leur distribution/duplication via internet.

Description de la bonne pratique

Bonnes pratiques ayant un impact important sur la réduction de l'empreinte environnementale

1 - choix du format de fichier

Privilégier le format de fichier plus plus sobre

Il faut avoir conscience que les formats de fichiers peuvent être plus ou moins "gourmands" : par exemple, Il peut y avoir un rapport de 1 à 10 entre le volume d’un fichier au format .csv et les mêmes données dans un format .xls

2 - réduire le nombre de ressources :

Limiter le nombre de formats proposés si cela n'est pas indispensable

Il est bien entendu possible de présenter plusieurs formats pour un jeu de données. Cela facilite le traitement du point de vue du réutilisateur. Mais il faut avoir conscience que chaque duplication avec un format particulier augmente le volume de données stockées

La co-existance fréquente de multiples formats (csv, json, xls, shp, …) pour un même jeu de données doit poser la question de la pertinence de cette multiplication. Sans la bannir, cette pratique doit être mise en oeuvre si elle est vraiment indispensable.

3 - proposer la récupération des informations sous forme d'API

Proposer systématique un accès sous format d'API dans le cas des données volumineuses ou à changement d'état fréquent afin d’effectuer des requêtes pour filtrer/trier les données à la source.

Lorsque le fichier est trop volumineux, il vaut mieux accéder directement à une partie des données à travers les critères d'accès que proposera un service d'accès informatique ou API.

De même pour les données changeant d'état fréquemment (par exemple; la disponibilité en temps réel des parkings), il sera plus pertinent de ne charger que les enregistrements récents ou les derniers changements plutôt que la base entière.

On ne réduit pas le fichier source mais uniquement les données transmises.

Voir plus : BP 7 - Proposer un accès aux données par API

Bonnes pratiques ayant un impact modéré sur la réduction de l'empreinte environnemental :

4 - formater le fichier pour éviter les redondances

Choisir le format de présentation des données le plus adapté

On trouve parfois plus pratique de publier les données au format tabulaire alors que certains jeux de données sont plus légers dans un format type json. Vouloir les rendre tabulaires multiplie énormément les redondances dans les chaines de caractère communes.

5- réduire les informations aux données essentielles (filtre à la production).

Supprimer les informations inutiles, redondantes ou non essentielles

Supprimer les colonnes redondantes (doublon ou déductibles). Par exemple, si un jeu de données précise le code INSEE d’une commune, inutile de fournir son nom, son département ou sa région. Ces informations peuvent être obtenues par croisement avec un référentiel.

6 - fragmenter le fichier pour permettre des téléchargements partiels à l'utilisateur.

Découper les ressources avec une granularité et une couverture géographique et temporelle adaptée

Par exemple, un fichier des résultats des 10 dernières élections peut être découpé en 10 fichiers, un pour chaque élection et ainsi limiter les flux de données de données non-utilisées côté utilisateurs.

Voir plus : BP 5 - Proposer une granularité temporelle et géographique adaptée

7 - compresser le fichier pour optimiser les téléchargements

Mettre en oeuvre quand cela est possible des fonctions de compression des données ou des transferts.

Il est possible de proposer au téléchargement des fichiers compressés lorsque le volume et l'efficacité de la compression le justifie. Certains portails offrent des fonctions de compression lors des transferts (exemple : opendatasoft).

Retours d'expérience

Accès aux résultats des élections à Grand Poitiers

  • un jeu de données indépendant pour chaque élection

  • aucun jeu de donnée ne dépasse 40 Ko

A l'inverse, une autre collectivité publie par exemple le résultats de toutes les élections depuis 1992 dans un même fichier. Le fichier .csv résultant est de 42 Mo, soit x1000 plus volumineux que celui d'une seule élection à Poitiers.

Volumétrie des jeux de données limitée par les éditeurs de portails

Certaine plateforme comme opendatasoft limite la taille maximum d'importation d’un jeu de données à 240 Mo. Au-delà, il convient soit de compresser ou de fragmenter le jeu de donnée.

Ressources

PrécédentPUBLICATIONSuivantBP 7 - Proposer un accès aux données par API

Dernière mise à jour il y a 2 ans

Nous le savons, l'OpenData propose généralement des jeux de données au volume limité, sans commune mesure à certaines ressources ou services mobilisant des données en temps réel, voire des données cartographiques (voir : ).

En 2021, le estime la part du numérique à 12% de la consommation totale d'électricité et 3 à 4 % des émissions de gaz à effet de serre (GES) dans le monde (voir :). Par ailleurs, la production de donnée au niveau mondial est exponentielle. Portée par une explosion des usages, en 2020, les données générées, copiées et consommées en ligne est (1 zetta représente environ 1 milliard de terabytes).

Bien que ce volume soit essentiellement porté par une croissante forte du contenu vidéo et temps réel, et que la volumétrie seule n'est pas un indicateur suffisant d'impact du numérique, une attention particulière peut être portée sur la volumétrie des données produites, utilisées par les métiers, exposées et archivées. (Voir : par MinNumEco, DINUM)

La manière de gérer est remarquable :

Réduire le volume de données stockées :

Réduire le volume de données stockées
les données des élections municipales à Grand Poitiers
https://ecoresponsable.numerique.gouv.fr/publications/bonnes-pratiques/usage-administration-parametrages/reduire-volume-donnees-stockees/
Shift project
estimée à plus de 60 Zettabytes
OpenData, ordre de grandeur et enjeux
Impact environnemental du numérique, état des lieux
https://www.statista.com/statistics/871513/worldwide-data-created/