Recommandations relatives aux jeux de données

Recommandations pour le formatage des fichiers

Pour toutes les spécifications SCDL, le format de fichier retenu pour la publication des données est le CSV (Comma Separated Values, valeurs séparées par des virgules).

Les fichiers doivent, sauf exception et autant que possible, respecter les règles de formatage suivantes :

  • l’encodage des caractères est UTF-8,

  • le séparateur des colonnes est la virgule,

  • le séparateur des nombres décimaux est le point,

  • le séparateur de valeurs multiples dans un champ est le point-virgule,

  • si un champ contient une virgule, il doit être entouré de guillemets doubles,

  • chaque ligne doit avoir le même nombre de champs,

  • le type MIME ou Content-Type est text/csv.

Recommandations pour le nommage des fichiers

Les fichiers doivent, sauf exception et autant que possible, respecter les règles de nommage suivantes :

AAAAMMJJ_idProducteur_nom-du-fichier.extension

  • AAAAMMJJ : Date de création du fichier

  • idProducteur : Numéro SIREN sur 9 chiffres pour identifier le producteur

  • nom-du-fichier Chaîne de caractères dont les termes, en minuscules non accentuées, sont séparés par un tiret du milieu

  • .extension : Si les règles de formatage sont respectées, l'extension est .csv

Les 3 éléments constitutifs de la chaîne principale avant l'extension sont assemblés en un seul tenant et séparés par un tiret du bas.

Exemple : '20180314_213502388_prenoms-nouveaux-nes-rennes-2017.csv'

Recommandations pour la mise en conformité

Pour garantir la conformité des jeux de données publiés par rapport aux spécifications SCDL, il est demandé aux producteurs de s'assurer que la structure, les champs et les contenus attendus sont effectivement respectés.

De fait, les fichiers tabulaires doivent, autant que possible, contenir :

  • Toutes les colonnes, y compris celles dont les cellules ne sont pas renseignées, dans le bon ordre, et avec des en-têtes correctement nommées sur la première ligne

  • Autant de lignes que nécessaire comprenant des cellules dont les valeurs peuvent être obligatoires (elles doivent être impérativement renseignées) ou optionnelles (elles sont seulement recommandées ou soumises à condition de disponibilité / pertinence)

Recommandations pour la découvrabilité

Pour faciliter la détection des jeux de données qui s'appuient sur les spécifications SCDL, ils doivent, autant que possible, être marqués avec des tags prédéfinis au moment où ils sont déposés sur une plateforme open data (renseignement de la métadonnée 'tags' du catalogue).

Les régles d'étiquetage des jeux de données sont les suivantes :

  • Un premier tag 'SCDL' doit être indifféremment ajouté à tous les jeux de données concernés

  • Un ou plusieurs autre(s) tag(s) spécifique(s) doi(ven)t être ajouté(s) en fonction du jeu de données