# Séquence 9

## Description

Si on entend souvent parler de "quantité" lorsqu'il s'agit des données, notamment en référence au big data, la qualité des données n'est certainement pas à négliger. Elle doit être au coeur de l'attention de toute démarche de production et de gouvernance de données afin d'assurer des données "saines", exploitables, cohérentes et utilisables. Dans cette séquence, nous découvrirons les différents critères de qualité des données.&#x20;

## **Objectif de la séquence**

Permettre aux apprenants de savoir comment garantir au mieux la qualité des données produites.&#x20;

## **Compétences visées**&#x20;

* Produire et utiliser les données :&#x20;
  * [ ] Trouver et accéder à des données (où et comment).
  * [x] Créer un jeu de données de qualité.
  * [ ] Connaître les différents standards autour des données.
  * [ ] Comprendre le cycle de vie des données.
  * [ ] Stocker des données en toute sécurité.
  * [ ] Maîtriser, à minima, l’utilisation des tableurs.
  * [ ] Animer des actions collectives de sensibilisation, production et utilisation des données.
  * [ ] Réfléchir d’abord à l’usage : produire des données, pour quoi faire ?

***

<figure><img src="https://90016025-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fvhmgap1u1kHsP3XaPPd9%2Fuploads%2FCugoaPBASqvqFKnEm3jI%2FRose%20et%20Beige%20Fleurs%20Moderne%20Artisan%20Entreprise%20X-Frame%20Bannie%CC%80re.png?alt=media&#x26;token=41c96712-fa32-4fba-9760-837934a7a81e" alt=""><figcaption></figcaption></figure>

* **Durée :** entre 30 minutes.
* **Type d'activité :** lecture&#x20;
* **Niveau :** débutant - intermédiaire&#x20;
* **Instructions :** lisez attentivement le résumé ci-dessous ainsi que le document pour découvrir en détails les critères de qualité des données. À l'issue de votre lecture, nous vous invitons vivement à compléter le jeu des 20 erreurs. N'hésitez pas à partager vos trouvailles sur le forum !&#x20;

***

## Produire des données de qualité

### De quelles données parlons-nous ?

Distinguons d’abord les données de “production métier”, c’est-à-dire les données qu’un service produit ou génère dans le cadre de ses missions. Ces données sont issues des processus de gestion du service concerné. Elles sont stockées dans des bases de données à travers des applications métier ou tout simplement dans des outils bureautique (ex tableur de type excel.&#x20;

### Pourquoi s’intéresser à la qualité des données produites ?

Les bonnes pratiques de travail dans un monde ouvert où les données sont au coeur des décisions, il devient important d’anticiper leur réutilisation par d’autres acteurs que le seul producteur : un collègue de travail, un autre service, une autre collectivité, des acteurs de la société civile. S’assurer que les données que je produis apportera plus d’efficacité aux autres acteurs mais améliorera aussi singulièrement mon propre travail : données plus fiables, plus à jour, plus faciles à exploiter. Mais si les autres acteurs font de même, alors je profiterai à mon tour de la qualité des données des autres acteurs. Globalement, nous serons donc plus efficaces et professionnels.

<figure><img src="https://lh7-us.googleusercontent.com/yxB8hIoQyiafp7A1ss3AXmTDgZZE9r_nz0sg3TsRYXSpNgOXMCWbP8MZ6JTfpmWsvEsa4Qy4evd8JPXsf37yCIXtftG92MoFyYb1TPAcKEpZBHDeiFTwnven68P3l-WF1a5rTboVQZFoCyINE8HJd5d1lw=nw" alt="" width="375"><figcaption><p>La qualité des données métiers (au centre de ce croquis) conditionne fortement les usages qui en sont fait et la qualité des jeux de données partagés en open data.</p></figcaption></figure>

### La qualité a un coût, le manque de qualité a un coût encore plus important !

&#x20;Une règle absolue en matière de qualité des données : **la qualité des données est toujours relative, elle ne dépend que de l’usage !** Depuis le début de l’open data, l’un des principaux reproches formulé par les réutilisateurs est celui d’une médiocre qualité des données. Par exemple, l’agrégation de plusieurs sources, combinée à une mauvaise qualité de données, demande un temps de préparation considérable pour les data scientists. **L’effort de qualité au-delà des besoins de l’usage premier**, lorsqu’il est raisonnable, peut donc se révéler très utile pour les multiples vies de la donnée. La qualité des données engendre une source intéressante d’externalités positives. Outre la réduction des coûts, **la qualité des données sert à développer des opportunités**, de nouveaux services. Il y a un lien direct entre la qualité d’une donnée et son usage.&#x20;

### Où s’arrêter ?

{% hint style="warning" %}
Il n’y a pas de qualité “absolue”, c’est l’usage, le bon sens et l’exigence professionnelles qui dictent le travail raisonnable à produire.
{% endhint %}

<br>

<figure><img src="https://lh7-us.googleusercontent.com/vSUbHYPAbBOW5mlEorDRZfoLlfHobfvm6mvuNMwDF9Rot9G9OxJbe8_fetJ-8aLtQ1h3UVa2pWJyrVzaf7fGSfoEp-i0VcbnGhUrQJkweJmi2ICAwRpEDLfuAgXIjcI69Gtgb4xHbwOZzKHpkeaDOrXxZA=nw" alt="" width="563"><figcaption><p>La partie droite rend compte des coûts d’amélioration, qu’il appartient à chaque organisation d’estimer et d’engager ou non. La partie gauche présente les coûts de non qualité. Il est simple de comprendre que certains sont sans commune mesure avec les coûts d’amélioration. Les coûts de faible réputation traduisent une défiance du producteur. Source Fing.</p></figcaption></figure>

### Existe-t-il un référentiel pour la qualité de données de production ?

Assez peu en fait, ou bien très générique… Mais il existe des préconisations sur la qualité de données publiées en open data. Puisqu’elles sont issues de bases de données métier, il est fort probable que toutes les règles “Qualité des données open data” soient applicables aux données sources. On peut même dire que plus les données ont une qualité intrinsèque au niveau de la base de données métier “suffisamment bonne”, plus les données qui seront extraites et publiées en open data seront aussi de bonne qualité ou, qu’en tout cas, le travail de préparation avant publication sera plus facile.  &#x20;

### Quelles sont les bonnes pratiques pour des données de qualité ?

<mark style="color:blue;">==> Découvrez en bref les critères d'une donnée de qualité :</mark>

<figure><img src="https://90016025-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fvhmgap1u1kHsP3XaPPd9%2Fuploads%2FHANap3Xe8KQ2De45hDqc%2F2.png?alt=media&#x26;token=5022c6b1-2633-4084-bcb0-a74e8c545f37" alt=""><figcaption></figcaption></figure>

<mark style="color:blue;">Pour découvrir les critères en détail et comment s'en assurer, parcourez le document ci-dessous :</mark>&#x20;

{% file src="<https://90016025-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fvhmgap1u1kHsP3XaPPd9%2Fuploads%2FjFMTiJOE5jvp6JMJLyLr%2FProduire%20des%20donne%CC%81es%20de%20qualite%CC%81.pdf?alt=media&token=e3a2217d-b0ca-4545-b922-7faa9a1fca11>" %}

***

<figure><img src="https://90016025-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fvhmgap1u1kHsP3XaPPd9%2Fuploads%2Fm2iBCn1TamQQlviXuUkT%2FRose%20et%20Beige%20Fleurs%20Moderne%20Artisan%20Entreprise%20X-Frame%20Bannie%CC%80re%20(1).png?alt=media&#x26;token=7b59ab4b-e1eb-40c2-866c-62186ec25dc5" alt=""><figcaption></figcaption></figure>

## Activité

{% hint style="success" %}
Voici un jeu de données : parcourez-le attentivement et tentez de repérer les erreurs qui s'y trouvent, un petit indice...il y en a 20.&#x20;

Partagez vos résultats sur le forum et découvrez le corrigé de l'activité !
{% endhint %}

{% file src="<https://90016025-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fvhmgap1u1kHsP3XaPPd9%2Fuploads%2FJgEtCfxucwCjJH4Pbx5u%2Fsub_erreurs_invisibles%20(3).pdf?alt=media&token=ee8444ba-f180-407b-b969-123fc870d3ec>" %}

<img src="https://90016025-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fvhmgap1u1kHsP3XaPPd9%2Fuploads%2Fye10s2tRV33wB4v082Ww%2Ffile.excalidraw.svg?alt=media&#x26;token=17ab4365-027b-4f92-acd1-be9776b2eb34" alt="" class="gitbook-drawing">

***

<figure><img src="https://90016025-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2Fvhmgap1u1kHsP3XaPPd9%2Fuploads%2FFN9G5FGqClZWR7VSJcra%2FLien%20vers%20inventaire.png?alt=media&#x26;token=f18bdc8a-7508-43ff-89c5-caacaff6a87e" alt=""><figcaption></figcaption></figure>

Base "[Inventaire des outils d'acculturation aux données](https://airtable.com/app9wDWPEneRKslVk/shryoLjvMFulhjLZ7) - Culture D" + filtre par Compétence = "Produire et utiliser les données "

{% embed url="<https://airtable.com/app9wDWPEneRKslVk/shr9fYY54ztbDxJjO>" %}

***

## Sources et références&#x20;

Le jeu des 20 erreurs a été créé dans la cadre du programme "Infolabs" de la Fing, 2015.


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://opendatafrance.gitbook.io/culture-d-parcours-dacculturation-aux-donnees/culture-d-le-parcours-dacculturation/sequence-9.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
