Faites attention à la façon dont vous traitez les "données inexistantes/manquantes"

Prenez le tableau suivant comme exemple des résultats de certaines observations faites dans la rue. Vous voulez voir combien de personnes passant dans la rue portent des lunettes (X) ou ne portent pas de lunettes (Y) dans un laps de temps donné. Lorsque vous n'êtes pas en mesure d'identifier l'une ou l'autre de ces personnes, vous la marquez comme "inconnue". Après 1 000 observations, vous arrêtez de collecter des données.

Le graphique de gauche indique que 33,5 % portent des lunettes (X), 28,6 % n'en portent pas (Y) et 37,9 % sont inconnus (les données manquantes). Le problème avec le graphique ci-dessus est que l'inconnu ne doit pas être traité comme une troisième catégorie différente des deux autres. L'inconnu contient à la fois X et Y, très probablement avec la même distribution. Par conséquent, les données manquantes doivent être supprimées et rapportées séparément. C'est une pratique courante dans toutes les enquêtes statistiques. A droite, le graphique est corrigé sans l'inconnue. Dans ce cas, l'indication d'une marge d'erreur serait également utile.

Dernière mise à jour