1 sur 1

Produire un fichier CSV de qualité

Recueil des bonnes pratiques et rappel des standards

Source originale : FING, juin 2017, v1.1, Licence : Creative Commons 3.0 Attribution France.

Version : v2.0, OpenDataFrance - Licence : CC-BY-SA, date : juillet 2022

Contexte

Le format CSV est le standard le plus simple et le plus répandu pour échanger des données numériques organisées en tableau. Que ce soit pour un projet open data ou pour tout autre projet d’échange de données, sa connaissance est primordiale. Pour réaliser un fichier de qualité, ce document propose 3 modes de lecture. ➔ Pour le lecteur averti

Aguerri aux données ? Ce simple encart devrait vous suffire.

Un fichier CSV de qualité :

est encodé en UTF-8,

➔ Pour le lecteur curieux

Le reste de ce document explique le pourquoi et le comment de la norme ainsi que les bonnes pratiques pour produire un CSV.

➔ Pour le lecteur néophyte mais pressé

En annexe (2 dernières pages), nous avons détaillé chaque étape pratique à partir des deux tableurs les plus répandus, Excel et LibreOffice Calc.

Qu’est-ce que le CSV ? Pourquoi le CSV ?

Le format CSV est le standard le plus simple et le plus répandu pour échanger des données numériques organisées en tableau. Il se présente sous une forme simple à interpréter par un logiciel ou toute autre forme de programme informatique. Mais il est également lisible par un humain car sa forme et sa syntaxe sont rudimentaires : il s’agit d’un fichier texte contenant des valeurs séparées par un caractère spécial — en anglais, CSV signifie Comma Separated Values soit littéralement “valeurs séparées par des virgules”. Voici comment se présente, dans un éditeur de texte, un fichier CSV simple :

Prénom,Nom,Age Marie,Durand,37 Bernard,Martin,29

Dans un tableur, ce fichier donnera le résultat suivant :

Si votre fichier est correctement produit, il sera lisible sans effort par des logiciels et/ou programmes informatiques usuels : tableurs, logiciels de statistique, logiciels de traitement de données spécialisés, etc. Autrement dit, si vous souhaitez partager correctement vos données, il est important de les publier sous forme d’un fichier CSV de bonne qualité.

La norme CSV

Du fait de sa simplicité, le format CSV est utilisé depuis des temps immémoriaux. À tel point qu’il était très utilisé bien avant sa normalisation, sous de nombreuses variantes (on parle de “dialectes”, ces derniers sont encore répandus). En octobre 2005, il est finalement spécifié à travers la RFC 4180 intitulée Common Format and MIME Type for Comma-Separated Values (CSV) Files (). À l’origine, la RFC 4180 n’avait pas la prétention de devenir un standard : cette dernière évoquait seulement le fait de décrire la forme de CSV la plus courante. Avec le temps, et pour gagner en interopérabilité, la RFC est cependant devenu le standard de facto. Les outils dédiés au CSV respectent souvent et de plus en plus la RFC : la suivre est donc un gage de meilleure réutilisabilité des données.

Quelles données ?

Son aspect rudimentaire fait du CSV un format très simple à réutiliser. Ce côté rudimentaire à d’autres conséquences pratiques : il ne mémorise pas les couleurs, les onglets, les cellules fusionnées, les tailles de caractère... Il n’est adapté qu’à des tableaux simples où tous les enregistrements, c’est-à-dire toutes les lignes, ont la même forme. C’est strictement un format de données qui ne peut pas accepter de mise en forme. Certains tableaux, pensés comme des documents autant que des données devront faire l’objet d’une préparation pour être exporté en CSV.

Dans votre tableur préféré, si vous pratiquez des mises en forme de votre fichier CSV, elles seront perdues au moment de l’enregistrement.

Nommer un fichier CSV

Il n’existe aucune norme pour nommer un fichier mais rappelons quelques points de bon sens :

un nom trop générique, comme “liste.csv”, risque d’entraîner des confusions
un nom trop long sera difficile à manipuler
un nom contenant des caractères spéciaux ou accentués risque de poser des problèmes d’interopérabilité

L’idéal est de vous fixer deux ou trois règles simples et de vous y tenir. Une bonne pratique consiste à composer ce nom avec une partie qui vous identifie (code INSEE ou SIREN). La présence d’une date peut aider. Par exemple : 34172_Geoloc_ArbresRemarquables_2014.csv renseigne sur le contenu sans avoir à ouvrir le fichier.

L’encodage du fichier

L’encodage d’un fichier c’est la norme utilisée pour coder chaque caractère par une suite de 0 et de 1 compréhensible par une machine. L’US-ASCII, l’ISO-Latin-1 et l’UTF-8 sont les plus répandus en France. L’encodage est le premier facteur de difficulté d’usage : il oblige les réutilisateurs à des opérations de conversion laborieuses ; certains outils ne comprennent pas certains encodages ; etc.

Au début de l’informatique le code dominant était l’ASCII américain. Mais ce dernier ne permettait pas d’encoder les caractères accentués des alphabets latins (français, allemand, etc.) et a fortiori les caractères extra-latins. Après de longues années passées à créer et utiliser des encodages “locaux” — comme l’ISO-Latin-1 spécifique au français —, l’encodage UTF-8 a été créé pour coder “l’ensemble des caractères du « répertoire universel de caractères codés »” (source Wikipédia, article ). Ce dernier est compatible avec l’ASCII et permet d’encoder tous les alphabets extra-latins, comme par exemple l’alphabet grec, le cyrillique, les alphabets japonais, chinois, arabe, hébreux, etc.

L’UTF-8 est en passe de devenir le standard de référence universel. En janvier 2017 le site W3Techs recense que . Pour toutes ces raisons, un fichier CSV de qualité est donc encodé en UTF-8.

Le type de fin de ligne

Un fichier CSV est constitué de lignes représentant chacune un enregistrement. Par exemple, le code suivant contient 3 enregistrements (la première ligne, l’en-tête, n’est pas comptée) :

“Prénom”,”Nom”,”Note” “Marie”,”Durand”,”13,4” “Bernard”,”Martin”,”12” “Célestin”,”Lampion”,”9”

Chaque ligne est séparée de la précédente par un ou plusieurs caractères invisibles : la fin de ligne. Les différents systèmes d’exploitation (Windows, Mac OS, Linux) utilisent cependant un code différent pour la fin de ligne. La norme préconise l’emploi de la combinaison [CR]+[LF] correspondant à l’ sous Windows. De nos jours, la plupart des outils savent traiter des fichiers quelque soit leur caractère de fin de ligne. Ce n’est cependant pas le cas du programme “Notepad”, utilisé par défaut sous Windows pour ouvrir les fichiers .txt ou les fichiers .csv. L’usage de la combinaison [CR]+[LF] reste donc préférable dans tous les cas pour maximiser le potentiel de réutilisation des données.

Détecter et modifier l’encodage et les fins de lignes de mon fichier

Il existe de très nombreuses façons de faire. Une des plus simples consiste à utiliser un éditeur de texte. Les éditeurs suivants (logiciels libres, non limitatif) gèrent plutôt bien les caractères de fin de ligne et l’encodage :

Notepad++ (Windows) ;
Geany (Windows, Mac OSX, Linux) ;
Atom (Windows, Mac OSX, Linux), en installant le plug-in adéquat ;

Geany, en particulier, affiche l’encodage en bas de l’écran et possède un menu spécial pour changer l’encodage et les caractères de fin de ligne. Voici les étapes nécessaires :

Ouvrir le fichier concerné avec Geany.
Observer au bas de la fenêtre le “mode” de fins de ligne et le “codage” du fichier
Si le “mode” et le “codage” ne correspondent pas à “CRLF” et “UTF-8” :

Le séparateur utilisé

Le séparateur, ou délimiteur, est le caractère qui permet à un programme de distinguer les cellules les unes des autres. Dans le cas suivant le séparateur est la virgule : Prénom,Nom,Note Marie,Durand,13,4 Bernard,Martin,12 Célestin,Lampion,9

Le séparateur est aussi fréquemment un point-virgule, une tabulation [⭾] ou le caractère | (dit barre verticale ou tube en français, ou “pipe” en anglais). Le délimiteur peut encore être n’importe quel caractère du moment qu’il permette de séparer les champs sans ambiguïté.

L’article Wikipedia est bien documenté et indique comment le produire selon les différents clavier : Barre verticale,

Cependant, la norme CSV désigne la virgule comme le caractère à utiliser.

Cet usage peut nous poser problème à nous autres français, car cette dernière est notamment utilisée comme séparateur décimal… Un “3,5” caché au milieu de nombres entiers pourra passer inaperçu et provoquera des erreurs de lecture. Pour autant de nombreux outils de traitement du format CSV attendent par défaut l’usage de la virgule. Le séparateur idéal reste donc la virgule mais il faut alors encapsuler chaque champ entre des guillemets (au moins ceux qui contiennent une virgule) :

“Prénom”,”Nom”,”Note” “Martin”,”Durand”,”13,4”

Pas de panique ! en utilisant un tableur comme Excel ou OpenOffice Calc, ces derniers réaliseront automatiquement l’encapsulation des champs entre guillemets.

L’en-tête de description des champs

La première ligne peut être utilisée pour nommer chaque colonne, on l’appelle alors l’en-tête (comme dans l’exemple ci-contre). Prénom,Nom,Date_naissance Marie,Durand,1972 Bernard,Martin,1978

L’en-tête n’est pas obligatoire mais il augmente sensiblement la qualité du jeu de données puisqu’il permet d’identifier chaque colonne et donc de lever d’éventuelles ambiguïtés. Il est plus approprié de nommer une colonne “Age” que de la désigner par “la quatrième colonne” cela permet au lecteur de comprendre rapidement le sens du champ concerné. De plus, au fur et à mesure de l’évolution du jeu de données, “la quatrième colonne” pourrait se trouver à une autre place. Bien nommer les colonnes rend le fichier et sa documentation plus compréhensibles et faciles à utiliser, comme le fait un index. Enfin, ce procédé est très facile à mettre en oeuvre. Il est dommage de s’en priver !

Contrôle syntaxique minimal

Il est très difficile de contrôler à la main des centaines de lignes d’un fichier CSV. Une erreur, quelle qu’elle soit, a pu se glisser dans les étapes successives de production des données. Un contrôle syntaxique automatique doit permettre de garantir qu’un fichier pourra être exploité par n’importe quel outil, logiciel ou programme informatique.

Pour ce faire, nous présentons ici CSV Lint, solution simple à mettre en oeuvre. Nous proposons également plus bas une autre solution pour les utilisateurs avancés, csvclean.

CSV Lint CSV Lint est un service en ligne — hélas anglophone — qui établit un rapport signalant les problèmes élémentaires de votre jeu de données (encodage, délimiteur, syntaxe, etc.). Son usage est relativement simple. Il suffit de téléverser (uploader) le fichier CSV désiré et lancer la validation : l’outil affiche alors un rapport d’analyse complet signalant tous les problèmes identifiés (voir copie d’écran ci-dessous).

csvclean : pour les utilisateurs avancés

csvclean est un outil pour utilisateurs avancés qui savent manier la ligne de commande. Il est plus frustre à utiliser mais permet de traiter des fichiers de TRÈS grande taille (testé avec succès sur le CSV de la base SIRENE de plus de 8 Go !). Le logiciel fonctionne sous Windows, Mac OS X et Unix/Linux. Nous renvoyons à la documentation de l’outil pour son installation :

Documenter un fichier CSV

Sans documentation, un jeu de données quel qu’il soit, est très compliqué à utiliser. Les futurs utilisateurs ont besoin de comprendre ce qu’il contient, à quoi correspondent les différentes composantes du fichier, comment les données ont été collectées, etc. Document spécifique publié à part, il devrait idéalement contenir les rubriques suivantes :

Le titre du jeu de données.
La description du jeu : il s’agit de quelques paragraphes décrivant le jeu de données : son usage, son contexte et son mode de production, ses producteurs.
La fréquence de mise à jour des données.

Comme vous pourrez le constater dans l’exemple suivant, il est facile de bien documenter :

En guise de conclusion pour aller plus loin : la norme de description Table Schema

Ce document n’épuise pas ce sujet mais, nous l’espérons, vous aura permis de trouver les bases d’un fichier CSV de qualité. Pour un public averti, il est possible d’aller plus loin et de mettre en œuvre une solution très puissante de contrôle qualité et de documentation : le schéma de données. Il s’agit de décrire les données de telle manière qu’un outil de contrôle comme CSV Lint, sera capable de valider automatiquement, pour partie, la qualité des données. Cette technique fera l’objet d’une documentation ultérieure, mais pour les impatients vous pouvez consulter la norme Table Schema :

Pour aller plus loin

Nous vous recommandons d'aller consulter la page suivante sur les

Exemples

Un CSV de qualité avec Excel

Nous avons utilisé Excel 2016 pour rédiger ce court tutoriel.

J’ouvre avec Excel mon fichier à convertir
Je clique sur le menu “Fichier” en haut à gauche
J’ai une interface spécifique qui s’affiche, où je peux sélectionner “Enregistrer sous…” (colonne de gauche)

Dans la partie principale centrale haute de l’écran je peux alors sélectionner, à l’aide d’un menu déroulant, les différents formats de fichier dont “CSV UTF-8 (délimité par des virgules) (*.csv)”

Si je veux changer le fichier d’emplacement, je clique sur le menu “Parcourir” grâce auquel j’obtiens une nouvelle fenêtre dans laquelle je peux préciser l’emplacement, mais aussi le type que je sélectionne dans un menu déroulant comme précédemment : “CSV UTF-8 (délimité par des virgules) (*.csv)”

Une fois enregistré, je n’oublie pas de tester mon fichier avec CSV Lint, afin d’ajuster d’éventuels petits problèmes :
Mon fichier est prêt ! Je peux le publier avec sa documentation.

Un CSV de qualité avec LibreOffice Calc

Nous avons utilisé LibreOffice 6.4 (2022) pour rédiger ce court tutoriel.

J’ouvre avec LibreOffice Calc (ou OpenOffice Calc) mon fichier à convertir
Je sélectionne le menu “Fichier > Enregistrer sous...”
Je sélectionne “[x] Éditer les paramètres du filtre” et “Texte CSV (.csv)” dans le menu déroulant des formats.

Une fois enregistré, je n’oublie pas de tester mon fichier avec CSV Lint, afin d’ajuster d’éventuels petits problèmes :
Mon fichier est prêt ! Je peux le publier avec sa documentation.

Produire un fichier CSV de qualité

Recueil des bonnes pratiques et rappel des standards

Source originale : FING, juin 2017, v1.1, Licence : Creative Commons 3.0 Attribution France.

Version : v2.0, OpenDataFrance - Licence : CC-BY-SA, date : juillet 2022

Contexte

Aguerri aux données ? Ce simple encart devrait vous suffire.

Un fichier CSV de qualité :

est encodé en UTF-8,

➔ Pour le lecteur curieux

Le reste de ce document explique le pourquoi et le comment de la norme ainsi que les bonnes pratiques pour produire un CSV.

➔ Pour le lecteur néophyte mais pressé

En annexe (2 dernières pages), nous avons détaillé chaque étape pratique à partir des deux tableurs les plus répandus, Excel et LibreOffice Calc.

Qu’est-ce que le CSV ? Pourquoi le CSV ?

Prénom,Nom,Age Marie,Durand,37 Bernard,Martin,29

Dans un tableur, ce fichier donnera le résultat suivant :

La norme CSV

Quelles données ?

Dans votre tableur préféré, si vous pratiquez des mises en forme de votre fichier CSV, elles seront perdues au moment de l’enregistrement.

Nommer un fichier CSV

Il n’existe aucune norme pour nommer un fichier mais rappelons quelques points de bon sens :

un nom trop générique, comme “liste.csv”, risque d’entraîner des confusions
un nom trop long sera difficile à manipuler
un nom contenant des caractères spéciaux ou accentués risque de poser des problèmes d’interopérabilité

L’encodage du fichier

L’UTF-8 est en passe de devenir le standard de référence universel. En janvier 2017 le site W3Techs recense que . Pour toutes ces raisons, un fichier CSV de qualité est donc encodé en UTF-8.

Le type de fin de ligne

Un fichier CSV est constitué de lignes représentant chacune un enregistrement. Par exemple, le code suivant contient 3 enregistrements (la première ligne, l’en-tête, n’est pas comptée) :

“Prénom”,”Nom”,”Note” “Marie”,”Durand”,”13,4” “Bernard”,”Martin”,”12” “Célestin”,”Lampion”,”9”

Détecter et modifier l’encodage et les fins de lignes de mon fichier

Notepad++ (Windows) ;
Geany (Windows, Mac OSX, Linux) ;
Atom (Windows, Mac OSX, Linux), en installant le plug-in adéquat ;

Geany, en particulier, affiche l’encodage en bas de l’écran et possède un menu spécial pour changer l’encodage et les caractères de fin de ligne. Voici les étapes nécessaires :

Ouvrir le fichier concerné avec Geany.
Observer au bas de la fenêtre le “mode” de fins de ligne et le “codage” du fichier
Si le “mode” et le “codage” ne correspondent pas à “CRLF” et “UTF-8” :

Le séparateur utilisé

L’article Wikipedia est bien documenté et indique comment le produire selon les différents clavier : Barre verticale,

Cependant, la norme CSV désigne la virgule comme le caractère à utiliser.

“Prénom”,”Nom”,”Note” “Martin”,”Durand”,”13,4”

Pas de panique ! en utilisant un tableur comme Excel ou OpenOffice Calc, ces derniers réaliseront automatiquement l’encapsulation des champs entre guillemets.

L’en-tête de description des champs

Contrôle syntaxique minimal

Pour ce faire, nous présentons ici CSV Lint, solution simple à mettre en oeuvre. Nous proposons également plus bas une autre solution pour les utilisateurs avancés, csvclean.

csvclean : pour les utilisateurs avancés

Documenter un fichier CSV

Le titre du jeu de données.
La description du jeu : il s’agit de quelques paragraphes décrivant le jeu de données : son usage, son contexte et son mode de production, ses producteurs.
La fréquence de mise à jour des données.

Comme vous pourrez le constater dans l’exemple suivant, il est facile de bien documenter :

En guise de conclusion pour aller plus loin : la norme de description Table Schema

Pour aller plus loin

Nous vous recommandons d'aller consulter la page suivante sur les

Exemples

Un CSV de qualité avec Excel

Nous avons utilisé Excel 2016 pour rédiger ce court tutoriel.

J’ouvre avec Excel mon fichier à convertir
Je clique sur le menu “Fichier” en haut à gauche
J’ai une interface spécifique qui s’affiche, où je peux sélectionner “Enregistrer sous…” (colonne de gauche)

Une fois enregistré, je n’oublie pas de tester mon fichier avec CSV Lint, afin d’ajuster d’éventuels petits problèmes :
Mon fichier est prêt ! Je peux le publier avec sa documentation.

Un CSV de qualité avec LibreOffice Calc

Nous avons utilisé LibreOffice 6.4 (2022) pour rédiger ce court tutoriel.

J’ouvre avec LibreOffice Calc (ou OpenOffice Calc) mon fichier à convertir
Je sélectionne le menu “Fichier > Enregistrer sous...”
Je sélectionne “[x] Éditer les paramètres du filtre” et “Texte CSV (.csv)” dans le menu déroulant des formats.

Une fois enregistré, je n’oublie pas de tester mon fichier avec CSV Lint, afin d’ajuster d’éventuels petits problèmes :
Mon fichier est prêt ! Je peux le publier avec sa documentation.

Produire un fichier CSV de qualité

hashtagContexte

hashtagQu’est-ce que le CSV ? Pourquoi le CSV ?

hashtagQuelles données ?

hashtagNommer un fichier CSV

hashtagL’encodage du fichier

hashtagLe type de fin de ligne

hashtagDétecter et modifier l’encodage et les fins de lignes de mon fichier

hashtagLe séparateur utilisé

hashtagL’en-tête de description des champs

hashtagContrôle syntaxique minimal

hashtagcsvclean : pour les utilisateurs avancés

hashtagDocumenter un fichier CSV

hashtagEn guise de conclusion pour aller plus loin : la norme de description Table Schema

hashtagPour aller plus loin

hashtagExemples

hashtagUn CSV de qualité avec Excel

hashtagUn CSV de qualité avec LibreOffice Calc

hashtag

hashtag

Produire un fichier CSV de qualité

hashtagContexte

hashtagQu’est-ce que le CSV ? Pourquoi le CSV ?

hashtagQuelles données ?

hashtagNommer un fichier CSV

hashtagL’encodage du fichier

hashtagLe type de fin de ligne

hashtagDétecter et modifier l’encodage et les fins de lignes de mon fichier

hashtagLe séparateur utilisé

hashtagL’en-tête de description des champs

hashtagContrôle syntaxique minimal

hashtagcsvclean : pour les utilisateurs avancés

hashtagDocumenter un fichier CSV

hashtagEn guise de conclusion pour aller plus loin : la norme de description Table Schema

hashtagPour aller plus loin

hashtagExemples

hashtagUn CSV de qualité avec Excel

hashtagUn CSV de qualité avec LibreOffice Calc

hashtag

hashtag

Contexte

Qu’est-ce que le CSV ? Pourquoi le CSV ?

Quelles données ?

Nommer un fichier CSV

L’encodage du fichier

Le type de fin de ligne

Détecter et modifier l’encodage et les fins de lignes de mon fichier

Le séparateur utilisé

L’en-tête de description des champs

Contrôle syntaxique minimal

csvclean : pour les utilisateurs avancés

Documenter un fichier CSV

En guise de conclusion pour aller plus loin : la norme de description Table Schema

Pour aller plus loin

Exemples

Un CSV de qualité avec Excel

Un CSV de qualité avec LibreOffice Calc

Contexte

Qu’est-ce que le CSV ? Pourquoi le CSV ?

Quelles données ?

Nommer un fichier CSV

L’encodage du fichier

Le type de fin de ligne

Détecter et modifier l’encodage et les fins de lignes de mon fichier

Le séparateur utilisé

L’en-tête de description des champs

Contrôle syntaxique minimal

csvclean : pour les utilisateurs avancés

Documenter un fichier CSV

En guise de conclusion pour aller plus loin : la norme de description Table Schema

Pour aller plus loin

Exemples

Un CSV de qualité avec Excel

Un CSV de qualité avec LibreOffice Calc