Le glossaire de la donnée

Source : OpenDataFrance - Licence : CC-BY-SA

Version : v2.0, date : mai 2022

Algorithme

Un algorithme est une méthode de traitement des données.

La CNIL en donne cette définition : une suite finie et non ambigüe d’étapes pour obtenir un résultat à partir d’éléments fournis en entrée. Un algorithme est en général automatisé mais sa définition peut également s'appliquer à une suite de séquences non informatisées.

La loi pour une République numérique impose un certain nombre d'obligations aux collectivités utilisant un algorithme :

  • Expliquer le système utilisé, ce qui suppose de publier au préalable un inventaire

  • Apposer dans la décision une mention qui rend visible l'utilisation d'un algorithme

  • En cas de demande, fournir une explication individuelle, détaillée

API (application programming interface) ou interface de programmation ou web service

C’est une interface de dialogue, technique et normalisée, qui permet d’échanger des informations et des services entre machines. Une API permet à un service de fournir des données de façon standardisée. Exemple : une API peut renvoyer les coordonnées GPS d'une adresse postale donnée par la Base d’Adresse Nationale Ouverte.

Base de données

C’est un ensemble structuré de données. Une base de données permet de stocker des information de manière cohérente pour opérer des traitements, fournir des services dans le but de faciliter leur usage.

En règle générale, les données dans une base sont dites "structurées". En effet, pour que l’ordinateur puisse correctement traiter les données numériques, il est important d’établir des règles détaillées et précises lors de leur enregistrement, de bien définir les valeurs des champs, d’établir une structure fonctionnelle claire. C'est l'interprétation et la représentation de données numériques qui donnera lieu à la création d'informations intelligibles.

Big Data ou grandes données

Cette expression désigne un ensemble de données caractérisé par du Volume, de la Variété (texte, son, image) et une Vélocité (données chaudes). Ces dernières, pour être exploitées, implique d'utiliser des outils spécifiques. Le Big Data peut d'ailleurs désigner aussi bien les données que les infrastructures permettant de les exploiter.

Crowdsourcing ou production participative

C’est l'utilisation de la créativité, de l'intelligence et du savoir-faire d'un grand nombre de personnes, en sous-traitance, pour réaliser certaines tâches traditionnellement effectuées par un employé ou un entrepreneur (Wikipédia juillet 2017 : https://fr.wikipedia.org/wiki/Production_participative). Par exemple, les contenus de Wikipédia et d’Open Street Map sont réalisés en crowdsourcing.

CSV (Comma Separated Values)

Le csv est un nom d’un format de fichier contenant des données textuelles. Les données sont lisibles par un très grand nombre d’outils : les tableurs, les éditeurs de texte... L’organisation du fichier étant répandue et simple, elle peut être plus facilement traitée par un programme.

Données liées / Web sémantique (Linked Data)

On appelle web sémantique l’extension du web traditionnel pour permettre à toute donnée d’être publiée et documentée de façon standard. Les données liées, c’est la possibilité d’attribuer une URL à un objet et de pouvoir pointer vers elle de façon fixe. Par exemple, Wikidata permet de donner accès à des données de base (dates de naissance, capitale d’un pays...).

Donnée géographique

Toute donnée faisant directement ou indirectement référence à un lieu spécifique ou une zone géographique est considérée comme une donnée géographique (article L127-1 du code de l’environnement). Certaines données géographiques sont géolocalisées : elles utilisent des coordonnées pour localiser des faits ou d’autres données. D’autres sont géolocalisables lorsqu’elles utilisent des références de localisation indirectes : une adresse, un code postal, un nom de lieu par exemple. Les données géographiques sont d’un intérêt majeur dans le domaine de l’open data, principalement pour les raisons suivantes :

  • La localisation de l’information est le critère de croisement de bases de données le plus courant, car elles permettent une représentation des données sous forme de cartes géographiques.

  • Leur contribution à la connaissance des territoires les rend indispensables à l’action publique en particulier pour l’ensemble des politiques touchant à l’aménagement.

Les données géographiques publiques font l’objet de règles et de recommandations de diffusion à l’échelle nationale et européenne, notamment suite à la directive européenne INSPIRE.

Donnée pivot ou donnée de référence

Dans le cadre du Service Public de la Donnée, les données de référence sont précisées par l’article 14 de la Loi Pour une République Numérique. Ce sont des informations publiques qui satisfont les conditions suivantes :

  • Elles constituent une référence commune pour nommer ou identifier des produits, des services, des territoires ou des personnes ;

  • Elles sont réutilisées fréquemment par des personnes publiques ou privées autres que l'administration qui les détient ;

  • Leur réutilisation nécessite qu'elles soient mises à disposition avec un niveau élevé de qualité.

Un décret dresse la liste des données de références, ainsi que l'administration responsable de leurs conditions de production et de publication. La Base Adresse Nationale, la base Siren, le Répertoire Opérationnel des Métiers et des Emplois (code ROME produit par Pôle Emploi) sont des données de référence.

Donnée personnelle

Il s’agit d’une catégorie de données protégées, en France par la Loi Informatique et Libertés et en Europe, par le Règlement Général sur la Protection des Données (RGPD). Cette loi définit une donnée à caractère personnel comme “une donnée qui permet d’identifier, directement ou indirectement, une personne physique” (art. 2). Cela correspond donc à des éléments directement identifiants tels que le nom, l’adresse, le numéro de téléphone, l’identifiant personnel ou les identifiants par croisement avec d’autres données (géolocalisation, statut familial, etc). Les données à caractère personnel d’une personne appartiennent à sa vie privée. Les fichiers dits “clients”, “fournisseurs”, “usagers” contiennent des données à caractère personnel qui rendent techniquement possible l’identification précise d’une personne.

Il n’existe pas, au sens juridique, de “données personnelles” ; c’est souvent un abus de langage qui désigne des données à caractère personnel.

Donnée publique

Les données sont qualifiées de « publiques » lorsqu’elles sont produites ou collectées ou reçues par l’Etat, une collectivité territoriale, un organe parapublic ou un délégataire dans le cadre de leurs activités de service public. Ces différents acteurs publics ou privés rassemblent et structurent des données qui leur servent à mener leurs missions de service public. Les données publiques sont de natures extrêmement hétérogènes :

  • données temporelles comme les horaires d’ouverture,

  • données financières comme les montants d’un budget,

  • données géographiques comme les codes postaux ou la localisation des accidents de la route sur une commune ...

Les données publiques servent à la mise en place de politiques publiques. Elles sont des éléments essentiels à la prise de décision dans l’action publique et à la réalisation de celle-ci. Leur communication et leur mise à disposition garantissent aux citoyens un accès et un usage différent de celui prévu initialement.

Donnée sensible

Une donnée sensible est également une notion juridique française issue de la Loi Informatique et Liberté (article 8). C’est une donnée à caractère personnel qui concerne l’intimité d’une personne physique. Ce type de données est particulièrement protégé par la loi Informatique et Libertés. Cela comprend les données sur les origines raciales ou ethniques, les opinions politiques, philosophiques ou religieuses, l’appartenance syndicale, la santé ou la vie sexuelle. Les données sensibles ne peuvent être recueillies et exploitées qu’avec le consentement explicite des personnes. Elles appartiennent également à la catégorie des données personnelles.

Data mining ou fouille de données

La fouille de données consiste en l’exploration de masse de données issues de documents ou base de données pour les analyser à partir de méthodes comme la statistique, le traitement automatisé/algorithmique, les systèmes d'intelligence artificielle. L’objectif de cette analyse est de comprendre, résoudre ou encore prévoir des actions.

Datavisualisation ou “Dataviz”

Il s’agit de représentation graphique de données. Quelques formes simples et connues de visualisation de données sont le “camembert”, l’histogramme, le nuage de points. La visualisation de données peut s’appuyer sur différentes sources de données. Elle a pour objectif de rendre les données plus lisibles et compréhensibles.

Documents administratifs

(voir Pour Comprendre Fiche 1 - Définition : les données)

Interopérables

Le terme "interopérable" désigne le fait que deux systèmes techniques peuvent échanger aisément des données. Plus les systèmes respectent les normes et les standards ouverts, plus ils sont interopérables.

Jeu de données ou dataset

Un jeu de données est un ensemble de données formant un tout cohérent. Le jeu de données est composé de plusieurs variables et observations associées à ces variables. En règle général, un jeu de données comprend une variable clé unique (identifiant ou clé primaire) qui permet de relier le jeu de données à un autre, afin d'augmenter et compléter l'information initiale.

Exemple : la liste de présence des conseillers municipaux lors des assemblées en 2012, est un jeu de données.

GAFAM

C’est l’abréviation de Google, Amazon, Facebook, Apple, Microsoft : il s’agit des entreprises les plus puissantes de l’internet et accessoirement celles qui détiennent et/ou manipulent le plus de données. On les dénomme également "Big Tech".

Licence

Une licence est un contrat qui précise les conditions de réutilisation d’un jeu de données. Par exemple, des données sous licence ODBL ou Licence Ouverte sont appliquées à l'open data.

Droit de communication

Les administrations sont tenues de publier en ligne ou de communiquer les documents administratifs qu'elles détiennent aux personnes qui en font la demande. Cela ne s'applique qu'à des documents achevés et ne concerne pas les documents préparatoires à une décision administrative tant qu'elle est en cours d'élaboration. Dans le cas où la demande permet de bénéficier d'une décision individuelle créatrice de droits, les documents sont communicables à l'auteur de cette demande dès leur envoi à l'autorité compétente pour statuer sur la demande. Le droit de communication perdure, même si le document est déposé aux archives. Le droit de communication cesse lorsque les documents font l'objet d'une diffusion publique.

Métadonnée

Une métadonnée est une information descriptive liée à une donnée. Par exemple, la date de production de la donnée, son producteur, son format, sa licence constituent des métadonnées. Pour qu’un jeu de données soit facilement accessible et réutilisable, la qualité des métadonnées joue un rôle déterminant.

Mission de service public

Une mission de service public est une action menée par une administration pour satisfaire l’intérêt général. Il peut s’agir de service public administratif ou d’un service public industriel et commercial. La jurisprudence a établi un faisceau d’indices permettant de déterminer si l’on est en présence d’un service public :

  • une activité d’intérêt général,

  • la présence directe ou indirecte d’une administration,

  • la présence de prérogatives de puissance publique,

  • les modalités de financement public.

Pour approfondir la notion, le wiki du CNFPT : https://frama.link/Def-servicepublic-cnfpt

Quantified self (mesure de soi)

C’est un mouvement qui regroupe les outils, les principes et les méthodes permettant à chacun de mesurer ses données personnelles, de les analyser et éventuellement de les partager. Les outils du quantified self peuvent être des objets connectés, des applications mobiles ou des applications Web (Wikipédia juillet 2017 : https://fr.wikipedia.org/wiki/Quantified_self). Le fait de mesurer le nombre de pas effectués par jour constitue une pratique de quantified self.

Self data

Le self data désigne la production, l’exploitation et le partage de données personnelles par les individus, sous leur contrôle et à leurs propres fins : pour mieux se connaître, prendre de meilleurs décisions, se faciliter la vie, etc. "Si j'ai une donnée sur vous, vous l'avez aussi et faites-en ce que bon vous semble !"

Service public de la donnée

Le service public de la donnée créé par l’Article 14 de la loi pour une République numérique vise à mettre à disposition, en vue de faciliter leur réutilisation, les jeux de données de référence qui présentent le plus fort impact économique et social. Il s’adresse principalement aux entreprises et aux administrations pour qui la disponibilité d’une donnée de qualité est critique. Les producteurs et les diffuseurs prennent des engagements auprès de ces utilisateurs. La mission Etalab est chargée de la mise en oeuvre et de la gouvernance de ce nouveau service public. Elle référence l’ensemble des données concernées (Extrait : https://www.data.gouv.fr/fr/reference).

Dernière mise à jour