BP 4 - Documenter précisément les métadonnées

Priorité :

Mise en œuvre :

Exemple(s) d’indicateur(s) de pilotage

  • % de Jeux De Données (JDD) disponibles intégrant des indicateurs de sobriété dans les métadonnées

  • nombre de JDD ayant + de x% de champ N/A dans les métadonnées

Exemple de pilote : Référent aux données ouvertes et responsables

Contexte

Les métadonnées sont des informations structurées qui décrivent, localise et facilite la gestion d’un jeu de données, par exemple l'identification du producteur, la zone géographique concernée ou la date de mise à jour.

Elles permettent de comprendre exactement la nature des données qui sont mises à disposition. Grâce à une bonne compréhension des données disponibles, on peut donc choisir les données les plus intéressantes pour un usage donné et réduire les téléchargements inutiles.

Les métadonnées sont aussi une bonne source d'information pour mesurer la qualité des données et leur politique de publication (présence d'indicateur sur le respect d'un standard par exemple).

Enfin, les métadonnées semblent être un espace intéressant pour préciser des indicateurs de sobriété des données mises à disposition. Cette piste sera utilisée ultérieurement car dans l'état actuel, les métadonnées, calquées sur le référentiel DCAT, n'intègrent pas de champs spécifiques en lien avec la sobriété. On pourrait cependant imaginer de faire apparaître des informations comme le nombre de chargement, de réutilisation ou le volume des ressources associées.

Les métadonnées permettent :

  • de réduire les barrières d'accès aux ressources, conduisant à une meilleure visibilité, et donc augmentent le potentiel de réutilisation des jeux de données,

  • de mieux identifier les jeux de données disponibles et associés (par thèmes notamment),

  • de limiter les téléchargements inutiles grâce à une description fine des métadonnées, contexte de la création du jeu de donnée,

Description de la bonne pratique

1 - Les données essentielles à figurer dans les métadonnées

Décrire avec attention et précision les métadonnées de chaque jeu de données

Les informations généralement attendues pour décrire un jeu de données sont les suivantes :

  • Titre du jeu de données

  • Description libre de l'objet et du contenu de la donnée

  • Thème du jeu de données

  • Nom de la structure qui diffuse la donnée

  • Nom de la structure qui crée produit la donnée

  • ​Nom de la structure qui gère la donnée

  • Couverture spatiale sur lequel s'appliquent les données

  • Début/Fin de la Plage temporelle couverte par les données

  • ​Fin de la Plage temporelle couverte par les données

  • ​Date de la première publication

  • ​Fréquence de la mise à jour

  • ​Date de la dernière mise à jour publiée

  • Mots-clés permettant des recherches libres

  • ​Licence appliquée sur le jeu de données

  • Liste des formats dans lesquels sont publiées les données

  • Code de la projection géographique quand cela s’applique

  • Langue du jeu de données

  • Liens vers les ressources accessibles

2 - Utilisation des normes existantes

Appliquer de préférence un format de métadonnées normalisé

Pour garantir cette homogénéisations des métadonnées, il est important de s’appuyer sur des formats reconnus pour s’assurer de leur pertinence (les données nécessaires) et de leur format (la façon dont on les a structuré et codifié).

Les formats standards permettent la collecte et la recherche des données et autorisent un traitement automatique des métadonnées. Les métadonnées appliquées aux données ouvertes en France sont une mise en application opérationnelle du schéma international DCAT.

Dans de nombreux cas, c’est le portail qui héberge les données qui propose d'adopter tel ou tel format pour les métadonnées. Ceux-ci sont généralement en conformité avec les standards internationaux. Les standards recommandés sont INSPIRE pour les données géographiques, DCAT et ses déclinaisons pour tout type de données ouvertes.

Bien qu'il n'existe pas un modèle de métadonnées open data unifié, OpenDataFrance a proposé un standard dans le jeu de donnée Catalogue du Socle Commun des Données Locales.

3 - Développer et intégrer de nouveaux indicateurs dans les métadonnées

Intégrer dans les métadonnées des informations spécifiques à la gestion responsable des données.

  • Indicateurs de qualité : conforme à un standard existant (O/N ou tag + lien du standard), granularité et périmètre du jeu de donnée,

  • Indicateurs de sobriété : volume des ressources, compression utilisée, donnée "froide"

  • Indicateurs de gestion : formats des datasets, politique d'archivage, durée de vie de la donnée,

  • optionnel - indicateur de souveraineté : hébergement de la donnée, protection des données.

A noter que la curation et la gestion des métadonnées doivent être opérés par le producteur des données lui-même.

Retour d'expérience

Le portail data.gouv.fr expérimente un score de qualité des métadonnées pour chaque jeu de données publié. Ce score vise à inciter les producteurs à mieux renseigner les métadonnées et à orienter les utilisateurs dans le choix de données de qualité.

Ressources

Dernière mise à jour