BP 4 - Documenter précisément les métadonnées
Priorité :
Mise en œuvre :
Exemple(s) d’indicateur(s) de pilotage
% de Jeux De Données (JDD) disponibles intégrant des indicateurs de sobriété dans les métadonnées
nombre de JDD ayant + de x% de champ N/A dans les métadonnées
Exemple de pilote : Référent aux données ouvertes et responsables
Contexte
Les métadonnées sont des informations structurées qui décrivent, localise et facilite la gestion d’un jeu de données, par exemple l'identification du producteur, la zone géographique concernée ou la date de mise à jour.
Elles permettent de comprendre exactement la nature des données qui sont mises à disposition. Grâce à une bonne compréhension des données disponibles, on peut donc choisir les données les plus intéressantes pour un usage donné et réduire les téléchargements inutiles.
Les métadonnées sont aussi une bonne source d'information pour mesurer la qualité des données et leur politique de publication (présence d'indicateur sur le respect d'un standard par exemple).
Enfin, les métadonnées semblent être un espace intéressant pour préciser des indicateurs de sobriété des données mises à disposition. Cette piste sera utilisée ultérieurement car dans l'état actuel, les métadonnées, calquées sur le référentiel DCAT, n'intègrent pas de champs spécifiques en lien avec la sobriété. On pourrait cependant imaginer de faire apparaître des informations comme le nombre de chargement, de réutilisation ou le volume des ressources associées.
Les métadonnées permettent :
de réduire les barrières d'accès aux ressources, conduisant à une meilleure visibilité, et donc augmentent le potentiel de réutilisation des jeux de données,
de mieux identifier les jeux de données disponibles et associés (par thèmes notamment),
de limiter les téléchargements inutiles grâce à une description fine des métadonnées, contexte de la création du jeu de donnée,
Description de la bonne pratique
1 - Les données essentielles à figurer dans les métadonnées
Décrire avec attention et précision les métadonnées de chaque jeu de données
Les informations généralement attendues pour décrire un jeu de données sont les suivantes :
Titre du jeu de données
Description libre de l'objet et du contenu de la donnée
Thème du jeu de données
Nom de la structure qui diffuse la donnée
Nom de la structure qui crée produit la donnée
Nom de la structure qui gère la donnée
Couverture spatiale sur lequel s'appliquent les données
Début/Fin de la Plage temporelle couverte par les données
Fin de la Plage temporelle couverte par les données
Date de la première publication
Fréquence de la mise à jour
Date de la dernière mise à jour publiée
Mots-clés permettant des recherches libres
Licence appliquée sur le jeu de données
Liste des formats dans lesquels sont publiées les données
Code de la projection géographique quand cela s’applique
Langue du jeu de données
Liens vers les ressources accessibles
2 - Utilisation des normes existantes
Appliquer de préférence un format de métadonnées normalisé
Pour garantir cette homogénéisations des métadonnées, il est important de s’appuyer sur des formats reconnus pour s’assurer de leur pertinence (les données nécessaires) et de leur format (la façon dont on les a structuré et codifié).
Les formats standards permettent la collecte et la recherche des données et autorisent un traitement automatique des métadonnées. Les métadonnées appliquées aux données ouvertes en France sont une mise en application opérationnelle du schéma international DCAT.
Dans de nombreux cas, c’est le portail qui héberge les données qui propose d'adopter tel ou tel format pour les métadonnées. Ceux-ci sont généralement en conformité avec les standards internationaux. Les standards recommandés sont INSPIRE pour les données géographiques, DCAT et ses déclinaisons pour tout type de données ouvertes.
Bien qu'il n'existe pas un modèle de métadonnées open data unifié, OpenDataFrance a proposé un standard dans le jeu de donnée Catalogue du Socle Commun des Données Locales.
3 - Développer et intégrer de nouveaux indicateurs dans les métadonnées
Intégrer dans les métadonnées des informations spécifiques à la gestion responsable des données.
Indicateurs de qualité : conforme à un standard existant (O/N ou tag + lien du standard), granularité et périmètre du jeu de donnée,
Indicateurs de sobriété : volume des ressources, compression utilisée, donnée "froide"
Indicateurs de gestion : formats des datasets, politique d'archivage, durée de vie de la donnée,
optionnel - indicateur de souveraineté : hébergement de la donnée, protection des données.
A noter que la curation et la gestion des métadonnées doivent être opérés par le producteur des données lui-même.
Retour d'expérience
Le portail data.gouv.fr expérimente un score de qualité des métadonnées pour chaque jeu de données publié. Ce score vise à inciter les producteurs à mieux renseigner les métadonnées et à orienter les utilisateurs dans le choix de données de qualité.
Ressources
Documenter les données avant publication - Rédiger la fiche métadonnée associée au jeu de données et la tenir à jour - OpenDataFrance (2018)
Guide de saisie des éléments de métadonnées INSPIRE - Recommandation du Conseil National de l'Information Géographique (2013)
Guide de mise en oeuvre du schéma DCAT-AP rédigé par Pascal Romain du Département de la Gironde pour OpenDataFrance à partir du draft final de la spécification de la Commission Européenne (2014)
Data Catalog Vocabulary (DCAT) - Recommandation W3C relative au vocabulaire des catalogues de données publiés sur le web (2014)
Dernière mise à jour