Cette fiche aide à savoir ce qu’il est possible de publier ou de ne pas publier en open data lorsque les données contiennent des informations à caractère personnel
Source : OpenDataFrance - Licence : CC-BY-SA
Version : v2.0, date : juillet 2022
L’open data ne concerne pas initialement les données à caractère personnel (voir cette notion dans le glossaire en annexe). En effet, la majorité des informations du secteur public mises à disposition des internautes ne comportent aucune donnée à caractère personnel. Cependant, le champ de l’open data s’élargit. Par exemple depuis la Loi pour une République Numérique, il concerne des domaines tels que les décisions de justice, les données sanitaires, des données en matière de tourisme, d’énergie ou d’immobilier, ainsi que plus classiquement, celui des élus et des organigrammes de l’administration… De ce fait, un nombre croissant de données à caractère personnel sont susceptibles d’être concernées par les obligations en matière d’open data. L’essor sans précédent du numérique entraîne des possibilités croissantes de réidentification des personnes concernées par des données pourtant anonymisées. C’est pourquoi sur ce sujet, il faut régulièrement se référer aux mises à jour des recommandations de la CNIL.
Le développement de l’open data soulève donc la question de l’équilibre entre le droit d’accès à l’information publique, c’est-à-dire la transparence administrative, et la nécessaire protection des données à caractère personnel et de la vie privée. Ainsi, c’est le contexte dans lequel s’inscrit l’open data qui doit nous inciter à la vigilance : informatisation de la société, des administrations comme des acteurs privés ; diffusion spontanée de données personnelles par les internautes ; indexation de données nominatives par de puissants moteurs de recherche ; développement du Big Data...
Pour la CNIL, les objectifs parfaitement légitimes poursuivis par la politique d’ouverture des données publiques sont pleinement conciliables avec la protection des personnes et de leur vie privée. Plus encore, la prise en compte de cet impératif permettra de favoriser la confiance des différentes parties prenantes de ce mouvement (autorités publiques, citoyens, entreprises), qui constitue une condition essentielle de la réussite de toute politique publique. Pour ce faire, un cadre juridique existe depuis la fin des années 70 visant précisément à articuler les objectifs de transparence administrative et de protection des données personnelles. Ce cadre juridique a été renouvelé par la loi pour une République numérique et le RGPD. Ainsi, la loi pour une République numérique a, entre autres, renforcé les missions de la CADA et de la CNIL. La CNIL a par ailleurs été dotée d’un pouvoir de certification et d’homologation de processus d’anonymisation (voir cette notion dans le glossaire en annexe) des données. Elle publie régulièrement des packs de conformité pour accompagner au mieux les acteurs à protéger les données à caractère personnel ; dans ce cadre, elle a d’ailleurs annoncé la publication conjointement avec la CADA d’un pack open data. Ainsi, si la CNIL est le guichet unique pour toutes les plaintes des personnes estimant qu’il y a une atteinte à leurs droits en matière de protection des données à caractère personnel, la CADA demeure compétente pour répondre à des demandes d’accès portant sur des bases de données comprenant, par exemple des données personnelles. Sur la base de leurs compétences respectives, les présidents de ces deux organismes peuvent conjointement choisir de réunir la CNIL et la CADA en un collège unique lorsqu’il est question de la protection des données à caractère personnel dans le cadre de l’open data. Ainsi, elles pourront être amenées à examiner ensemble des demandes d’accès aux données.
Dés que vous travaillez sur des données à caractère personnel, vous devez vous assurer que vous êtes habilités pour traiter de telles données. En cas de doutes, demandez à votre Délégué à la Protection des Données. Vous devez vérifier que le fichier contenant des données caractère personnel est référencé dans le répertoire idoine et prendre connaissance du niveau de risque(s) associé(s) à ce fichier. Vous devez aussi appliquer précisément les dispositions préconisées pour la protection de ces données.
Les acteurs publics de plus de 3500 habitants et de plus de 50 agents qui ont des documents produits ou reçus dans le cadre d’une mission de service public et sous format électronique, doivent mettre en ligne, dans un format ouvert et réutilisable, les bases de données et les données régulièrement mises à jour, qui présentent un intérêt économique, social, sanitaire ou environnemental.
Pour les principaux documents produits et détenus par les administrations, contenant des informations publiques et figurant dans le répertoire des documents administratifs, ces dispositions sont effectives dès le 7 octobre 2017, soit un an après la promulgation de la Loi pour une République numérique). Pour les autres documents cela s’applique au plus tard le 7 octobre 2018.
La loi prévoit que les demandeurs peuvent solliciter, afin d’accéder à un document administratif, la publication en ligne de ce dernier. Cette diffusion publique doit être faite dans un standard ouvert, aisément réutilisable et exploitable par un système de traitement automatisé (en format .csv pour un tableur par exemple). Les documents communiqués par l’administration à la suite d’une demande doivent être mis en ligne ainsi que leurs versions mises à jour. Tout document communicable (à tous) est publiable sur Internet. Les documents comportant des secrets, ou portant atteinte à la vie privée des personnes ou des données à caractère personnel (voir glossaire) ne peuvent en revanche pas être publiés sauf sous certaines conditions (voir plus bas).
Les documents diffusables peuvent faire l’objet d’une libre réutilisation, dès lors qu’ils ne comportent pas de données grevées par des droits de propriété intellectuelle de tiers. Ce point est facilité puisque toute communication ou publication - « se fait dans un standard ouvert, aisément réutilisable et exploitable par un système de traitement automatisé ».
Nous rappelons que le principe général retenu est qu’il y a une interdiction de diffusion de données à caractère personnel dans le cadre de l’open data. Il y trois conditions alternatives qui sont prévues pour permettre la publication de documents comportant des données à caractère personnel :
une disposition légale particulière,
le consentement explicite des personnes concernées (voir ci-dessous),
la mise en œuvre d’un traitement permettant de rendre impossible l’identification de ces personnes (anonymisation).
Un décret listant les exceptions à l’anonymisation a été publié le 12 décembre 2018. Il indique les données à caractère personnel en nécessitant pas l'anonymisation préalable des données.
Plus précisément, le consentement est une notion encadrée par les dispositions applicables aux données à caractère personnel. Il joue un rôle de plus en plus central avec l’adoption du RGPD. C’est pourquoi, il faut être particulièrement vigilant dans les conditions encadrant l’obtention du consentement. Il s’agit d’une démarche active de la personne. Il doit être :
explicite, spécifique, et éclairé,
de préférence de forme écrite,
produit librement par l’intéressé,
préalable à la collecte des données (bonne pratique).
Par exemple, dans un formulaire en ligne, le consentement peut se matérialiser, par une case à cocher. Elle doit, par défaut, être décochée. Les questions à se poser pour une publication en open data des données à caractère personnel :
La publication de la donnée à caractère personnel est-elle précisée par une loi ?
La diffusion est-elle totale ou réservée aux intéressés ?
De quand date la donnée à caractère personnel ?
Si la donnée à caractère personnel ne concerne pas la vie publique de la personne et que la donnée est récente, le consentement de publication de cette donnée est-il explicite de la part de la personne concernée ?
La personne est-elle vivante ?
Le réutilisateur des jeux de données ouverts contenant des données à caractère personnel devra respecter les dispositions de la Loi Informatique et Libertés, ainsi que les termes de la licence. En effet, dès que le réutilisateur clique pour télécharger un fichier contenant des données à caractère personnel, il devient au sens du RGPD, responsable de traitement (voir glossaire). Ainsi, il devra obtenir le consentement des personnes dont les données à caractère personnel sont réutilisées (voir ci-dessus pour les conditions de validité du consentement). Il ne peut bénéficier du consentement obtenu par la collectivité puisqu’il est spécifique au traitement réalisé en vue de communiquer ou de diffuser les données. En effet, la réutilisation des données constitue un nouveau traitement distinct du premier (le responsable n’est pas le même, les finalités sont différentes).
Ainsi, outre quelques exceptions, « les documents contenant des données à caractère personnel doivent être rendus anonymes avant diffusion, sauf si une disposition législative (...) en prévoit autrement ou que l’administration concernée obtient l’accord des personnes intéressées. ». Voir article de la CADA.
Une donnée à caractère personnel peut être transmise à la personne concernée. La règle veut que les documents administratifs contenant des informations à caractère personnel (voir glossaire) ne puissent être mis à disposition, ni réutilisables en l’état. Lorsque ces informations sont contenues dans des documents qui peuvent être publiés en open data tels que les délibérations, elles sont à anonymiser car cela fait partie de la vie privée de la personne. De tels documents peuvent être publiés soit :
après mise en œuvre d’un traitement permettant de rendre impossible l’identification de ces personnes (occultation, pseudonymisation, anonymisation…)
le consentement explicite de la personne concernée,
une disposition légale particulière (par exemple au delà d’un délai de 50 ans).
Quant au Règlement Général sur la Protection des Données, il donne aux citoyens plus de contrôle sur leurs informations privées. Cet important texte sur le sujet n’apporte pas de nouveaux éléments en matière d’ouverture des données.
Règlement (UE) 2016/679 du Parlement européen et du Conseil du 27 avril 2016 : http://eur-lex.europa.eu/legal-content/FR/TXT/HTML/?uri=CELEX:32016R0679&from=FR.
Seul le maire ou ses adjoints et les agents municipaux habilités à établir ou exploiter les actes d'état civil peuvent avoir accès au fichier de l'état civil. La Cnil précise que « les traitements mis en œuvre sur les fichiers d’état civil ne peuvent servir à d'autres finalités ou à alimenter d'autres fichiers, en particulier la constitution d'un fichier de population. Les informations nominatives enregistrées par les services d'état civil à l'occasion de l'établissement ou de l'actualisation d'un acte ne peuvent être utilisées que pour l'accomplissement des missions dont sont investis les maires en leur qualité d'officier de l'état civil et ne doivent être communiquées qu'aux destinataires habilités à les connaître. Les informations enregistrées ne peuvent, en particulier, être utilisées à des fins commerciales. Aucune cession du fichier de l'état civil ne peut avoir lieu. » Pour quelques missions de services publics de la commune (donc pour un usage interne de ces données), il est toutefois possible de produire des extraits pour alimenter « le fichier de vaccination de la commune, le fichier de recensement des jeunes en vue de la journée d'appel de préparation à la défense ou la commission administrative chargée de la révision des listes électorales, (mais) pour ces seules fins et dans la limite des textes existants. » « Les registres de l'état civil sont conservés à la mairie pendant cent ans à compter de leur clôture » mais « les informations collectées aux fins d'alimentation des bulletins statistiques de l'INSEE lors de l'établissement des actes de l'état civil ne doivent pas être conservées plus de six mois après leur transmission à l'INSEE ni utilisée par la mairie. ». Donc les données de l’état civil contenant des données à caractère personnel ne peuvent pas être publiées en open data, sauf délai de 75 ans.Pour ouvrir des données de l’état civil ne contenant pas de données à caractère personnel se reporter à la fiche Socle Commun des Données Locales.
Les données de bans de mariages sont des données d’état civil (voir paragraphe précédent). Elles ne sont pas à publier en open data selon l’avis Cada, sauf après un délai de 75 ans. Ce sont des documents de l’état civil, ainsi les bans sont soumis au droit d'accès uniquement par les intéressés. Toutefois pendant la période de l’affichage, les bans de mariage sont des informations publiques, mais cet affichage contient des données à caractère personnel, une telle réutilisation ne serait possible, qu'après avoir recueilli le consentement des personnes concernées ou après anonymisation (voir glossaire) par la commune. La CADA considère que le code du patrimoine, qui régit l'accès aux archives publiques permet la publication à l'expiration du délai de 75 ans. Aller plus loin : http://cada.data.gouv.fr/search?q=bans+de+mariage
Les données de naissance sont des données d’état civil (voir paragraphe précédent). Elles ne sont pas à publier en open data, sauf après un délai de 75 ans. Si elles sont anonymisées, elles peuvent peuvent être publiées. Pour mettre les données d’état civil en open data, il est possible de s’appuyer sur le travail de standardisation d’OpenDataFrance relatif aux prénoms
Les données de décès sont des données d’état civil, les mêmes règles s’appliquent (voir paragraphe ci-dessus). En plus de la rédaction de l’acte de décès et de sa mention en marge de l’acte de naissance, le maire a la responsabilité de nombreuses transmissions d’informations concernant le décès d’une personne. Le maire est responsable du traitement des données d’état civil. « Les informations nominatives enregistrées aux fins d'inscription d'un acte sur le registre de l'état civil ne peuvent être utilisées par les élus municipaux à des fins de message de félicitations ou de condoléances, ou ne peuvent être publiées dans la presse, que dans la mesure où, au moment de l'établissement de l'acte, les personnes concernées ont donné leur accord à ce message personnalisé ou à cette publication. Les informations collectées pour ces seules fins ne peuvent être conservées ni alimenter un fichier permanent. »
Délibération Cnil n°04-067 du 24 juin 2004 : https://www.legifrance.gouv.fr/affichCnil.do?id=CNILTEXT000017653166
Les données transmises par internet doivent être chiffrées et les expéditeurs et destinataires identifiés.
Au-delà de ces dispositions générales sur l’open data, il existe de nombreuses dispositions sectorielles permettant la mise à disposition, à des fins d’intérêt général, de données publiques particulières ou de données détenues par des opérateurs privés, ainsi que des dispositions visant à favoriser la circulation de ces données dans la société par l’obligation de les mettre à disposition dans des standards ouverts et réutilisables.
Afin de faciliter l’accès au droit tout en protégeant la vie privée des personnes concernées par ces décisions, les données de décisions de justices « sont mis(es) à la disposition du public à titre gratuit dans le respect de la vie privée des personnes concernées », toutefois cette mise à disposition « est précédée d’une analyse du risque de réidentification des personnes ».
La pseudonymisation (voir cette notion dans le glossaire en annexe) en amont de ces données par la puissance publique et le contrôle de la CNIL sur leur réutilisation, en particulier sur l’absence de réidentification des personnes et sur le caractère effectif et continu du respect des droits des personnes concernées (rectification et opposition notamment), permettra ainsi de maintenir le délicat équilibre entre accès au droit et protection de la vie privée. Le décret en Conseil d’Etat qui doit déterminer les conditions d’application de ces nouvelles obligations devra en effet déterminer les modalités d’analyse de risque de réidentification des personnes et la CNIL pourra ainsi apporter toute son expertise sur ce sujet, dans le cadre de son avis sur ce décret. Il existe une foisonnante littérature sur cette question comme par exemple :
Rapport de Loïc Cadiet sur "l'open data" des décisions de Justice,
Livre Blanc sur l’open data jurisprudentiel...
Depuis 2015, la CNIL participe aux travaux gouvernementaux portant sur l’anonymisation (voir glossaire) de données énergétiques. La loi pour une République numérique a prévu dans ce cadre de nouvelles dispositions, selon lesquelles les gestionnaires des réseaux de transport et de distribution d’électricité et de gaz naturel mettent à disposition du public les données détaillées de consommation et de production issues de leurs systèmes de comptage d’énergie, dans l’objectif de favoriser notamment le développement d’offres d’énergie, d’usages et de services énergétiques, « sous une forme agrégée garantissant leur caractère anonyme ». Pour ouvrir de telles données, il est recommandé de s’appuyer sur le pack de conformité compteurs communicants et de prendre connaissance du décret et de l’arrêté d’application.
En matière de santé : la loi du 26 janvier 2016 de modernisation de notre système de santé, les données du système national des données de santé (SNDS) précise les conditions de leurs mise à disposition auprès du public, soit sous la forme de statistiques agrégées ou de données individuelles dans des conditions telles que l’identification, directe ou indirecte, des personnes concernées est impossible. La loi prévoit que la réutilisation de ces données ne peut avoir ni pour objet ni pour effet d’identifier les personnes concernées. La CNIL peut dès lors fixer les opérations techniques permettant l’anonymisation (voir glossaire) de ces données particulièrement sensibles (voir glossaire). Aller plus loin sur les données de santé : https://www.cnil.fr/fr/sante
Dans le domaine de l’immobilier, il est proposé une ouverture aux professionnels du secteur des données foncières détenues par l’administration fiscale.Pour ouvrir de telles données, il est recommandé de s’appuyer sur le pack de conformité logement social.
En cas de publication de données à caractère personnel non-conforme aux dispositions en matière d’open data (CRPA) et de protection des données à caractère personnel (Loi Informatique et Liberté) dans le cadre de la, la collectivité encourt des :
sanctions administratives auprès de la CNIL. Elles peuvent atteindre 3 millions d’euros. Les sanctions prévues par le règlement européen (RGPD) applicable à partir du 25 mai 2018 pourront aller jusqu’à 20 millions d'euros ou 4% du chiffre d’affaire mondial, si cela se justifie. La CNIL peut également prononcer des avertissements pouvant être rendus public ;
sanctions pénales qui peuvent aller de 1 500 euros à 300 000 euros d’amende et 5 ans d’emprisonnement en fonction du type de violation dont il est question (exemple : non-respect des finalités, absence d’information des personnes concernées).
En cas de réutilisation des informations publiques à des fins commerciales de manière non conforme à la licence ou aux prescriptions du code des relations du public et de l’administration, les montants sont désormais portés à :
un million d’euro, en cas de réutilisation illégale ou non conforme aux prescriptions contractuelles des informations publiques ;
deux millions d’euros, en cas de manquement réitéré.
Les montants sont différents lorsque les données sont utilisés à des fins non commerciales et peuvent atteindre 3 millions d’euros. Les sanctions prévues par le règlement européen applicable à partir du 25 mai 2018 pourront aller jusqu’à 20 millions d'euros ou 4% du chiffre d’affaire mondial, si cela se justifie. Par ailleurs, le réutilisateur peut également se voir appliquer des sanctions administratives prononcées par la CNIL (voir ci-dessus).
Aller plus loin : Article L 326-1 du CRPA et règlement européen de protection des données personnelles applicable à partir du 25 mai 2018.
La loi pour une République numérique fait évoluer les missions de la CNIL et, elle peut désormais homologuer des méthodologies d’anonymisation. À ce titre, les administrations pourront soumettre à la CNIL des méthodologies d’anonymisation pour homologation/certification de la CNIL. Ces méthodologies préciseront le traitement d’anonymisation mis en œuvre en fonction de la nature des données. La CNIL a relevé que les administrations doivent avoir une « vigilance particulière » à l’égard de la condition d’anonymisation (voir glossaire) et doivent mettre en œuvre des moyens « significatifs » mais qui ne doivent pas entraîner des efforts disproportionnés pour les administrations.
La CNIL et la CADA rédigent actuellement un « pack de conformité » en collaboration avec la DINSIC pour accompagner les administrations dans l’ouverture des données publiques.
Au sujet de la procédure à suivre pour la publication et l’anonymisation des données, l'INSEE présente dans « La gestion de la confidentialité́ pour les données individuelles », les cinq étapes à suivre en se basant sur ce même travail réalisé par Hundepool et al. (2012).
Il est donc nécessaire avant toute chose de déterminer la pertinence de l’anonymisation des données à publier : de quel type de diffusion des données s’agit-il ? Il s’agira aussi de se référer aux cadres législatifs nationaux et européens. De même, il faut cerner les enjeux de la publication des données au regard de leur type de diffusion. Par exemple, les fichiers MFR (Microdata File for Research purposes) sont réservés à la recherche scientifique et les fichiers PUF (Public Use File) sont accessibles par tous.
La deuxième étape porte sur la définition et la mesure des risques de divulgation et donc du choix de la ou des méthodes de protection des données en établissant tous les scénarios possibles: occultation, pseudonymisation...
La troisième étape concerne le choix des mesures de protection pour lesquels vous allez opter en fonction des critères fixés.
La quatrième et dernière étape porte sur la mise en œuvre et l’expertise du fichier qui a été produit en procédant à quatre étapes :
le choix d’un logiciel de protection,
la mesure des risques avec l’outil choisi,
la quantification de l’information perdue,
le contrôle du processus de protection et la réalisation d’un document synthétique sur les méthodes de protection avec un bilan de l’information perdue.
Au chapitre 3, Maxime B. présente les méthodes de protection des données, exemples à l’appui et par la résolution d’équations mathématiques.
En attendant le pack de conformité sur l’anonymisation, des ressources sur le sujet de l’anonymisation des données ont été rassemblées par l’Administrateur général des données, qui a également élaboré un outil informatique, intitulé Anonymizer. D’autres solutions existent, tel que l’outil d’anonymisation financé par des fonds européens : Amnesia.
L'anonymisation des données personnelles vue par la CNIL : https://www.cnil.fr/fr/lanonymisation-de-donnees-personnelles
La publication en ligne et la réutilisation des données publiques (« open data ») : https://www.cnil.fr/fr/publication-en-ligne-et-reutilisation-des-donnees-publiques-open-data
Le triple filtre prévu (interdiction de publication de documents portant atteinte à la vie privée ; publication sous condition de documents comportant des données personnelles ; réutilisation de telles données dans le respect de la loi Informatique et Libertés) permet de garantir la protection des données des personnes concernées par les informations publiques.
L’étendue exacte des secrets protégés par la loi en matière de publication de données, les modalités de recueil du consentement des personnes concernées par celles-ci ou le caractère anonyme ou non des informations diffusées constituent des points d’interrogations récurrents de la part des différentes parties prenantes du mouvement de l’open data. Dans ce contexte, la CADA et la CNIL souhaitent améliorer l’accompagnement de ces acteurs en élaborant un « pack de conformité » dédié à l’ouverture des données publiques.
La présence des données à caractère personnel ne rend pas les documents communicables uniquement à l'intéressé. L'obligation d'open data par défaut persiste. Dans ce cadre l'anonymisation est présentée comme une étape préalable obligatoire à la diffusion sauf si elle engendre pour l’acteur public des efforts disproportionnés.