Redresser
un échantillon, pour quoi faire ?
Dans le domaine
des études marketing, le redressement d'échantillons
a pour objectif d'améliorer la représentativité
de l'échantillon interrogé, sur un certain nombre
de critères de qualification. Le principe sous-jacent est
que seul un échantillon ayant la même structure que
la population-mère sur les critères que l'on connaît
de cette population, permet de généraliser les réponses
obtenues sur les autres critères, à l'ensemble de
cette population. Le redressement cherche donc à appliquer
des pondérations aux individus pour augmenter le poids de
ceux appartenant à des groupes sous-représentés
dans l'échantillon interrogé par rapport à
la population-mère, et à réduire parallèlement
le poids de ceux qui sont sur-représentés.
Mais pourquoi alors ne pas interroger directement un échantillon
représentatif sur les critères souhaités ?
C'est ce que les chargés d'études cherchent à
faire, lorsqu'ils établissent des quotas que les enquêteurs
doivent respecter. Mais dans les faits, il est souvent difficile
voire impossible de respecter parfaitement ces quotas en trouvant
exactement le bon nombre de personnes dans chacune des catégories
retenues. La pression économique et les délais généralement
courts n'arrangent pas les choses. Les queues de quotas, cauchemar
des chargés de terrain et superviseurs CATI finissent par
faire l'objet de compromis.
Par ailleurs, dans beaucoup d'enquêtes, il n'est pas possible
de contrôler a priori l'échantillon qui va répondre.
C'est notamment le cas dans les enquêtes auto-administrées
(questionnaires postaux, en libre service, placés sur un
site internet, etc) qui fournissent systématiquement des
échantillons non représentatifs (ceux qui ont bien
voulu répondre). C'est également le cas des enquêtes
de plus en plus fréquentes réalisées en utilisant
le média Internet, même lorsqu'elles sont menées
sur des internautes recherchés et sollicités nominativement
par l'institut d'études. Dans ce cas, la structure actuelle
de pénétration du média internet dans les ménages
(sur-évaluation des jeunes et des CSP+) entraîne une
difficulté à dénicher certains profils et,
par conséquent, la nécessité d'appliquer a
posteriori des pondérations sur l'échantillon obtenu.
Le redressement vient donc pallier ces difficultés. Mais
il faut bien prendre garde à un élément fondamental
: des pondérations trop importantes font courir un risque
certain à la qualité des résultats. Ainsi,
il semble aberrant de donner un poids 10 fois plus important, comme
cela se pratique parfois, aux réponses de la seule personne
que l'on a réussi à interroger dans une catégorie
donnée. On comprend facilement que si les réponses
d'un groupe de cadres supérieurs a des chances de refléter
en moyenne l'opinion de l'ensemble de cette population, les opinions
d'un seul d'entre eux a une probabilité beaucoup plus faible
de permettre la même extrapolation. Il est donc important
de chercher, autant que possible, à obtenir en amont des
échantillons cohérents, en ne se disant pas que de
toute manière, il suffira ensuite de redresser.
En substance, on pourrait dire que moins on a besoin de recourir
aux redressements, meilleurs sont les résultats!
Sur quelles
variables redresser ?
Le choix des
variables de redressement est simple en théorie mais plus
complexe dans la pratique. En effet, l'idéal serait d'utiliser
toutes les variables sur lesquelles la répartition de la
population-mère est connue de manière fiable. Ces
éléments sont généralement recherchés
dans les données des recensements disponibles auprès
de l'Insee, ou, lorsqu'il s'agit d'enquêtes sur des univers
spécifiques (ex : clients, distributeurs), dans les fichiers
internes disponibles.
Les difficultés sont multiples :
La population-mère doit être définie de manière
précise pour éviter de prendre en compte des statistiques
disponibles sur une population proche mais pas identique. Ainsi
la population active peut correspondre à plusieurs définitions
et délimitations. La population des jeunes peut correspondre
à des tranches d'âge différentes
Il faut s'assurer que les répartitions disponibles sont conformes
aux catégories utilisées dans l'enquête. Il
convient pour cela d'utiliser dans les questionnaires les rubriques
standards de l'INSEE en ce qui concerne par exemple les catégories
socio-professionnelles, les secteurs d'activité,
La formulation de la question renseignée pour la population-mère
doit être identique à celle posée à l'échantillon.
Ainsi, la population des personnes ayant déjà fréquenté
un parc de loisir est différente de celle qui a visité
un parc de loisir depuis moins de deux ans. La population des personnes
connaissant Internet est différente de celle des utilisateurs
d'Internet
Pour les variables numériques, les tranches doivent être
identiques, et les valeurs exprimées dans la même unité
statistique
Il faut s'assurer de la fiabilité des valeurs utilisées.
L'utilisation de statistiques anciennes peut fausser les résultats
au lieu d'améliorer leur représentativité.
De même, le recours à des fichiers incomplets ou mal
tenus peut provoquer des biais importants. A ce titre, les professionnels
qui ont eu à gérer et à assurer la mise à
jour de fichiers savent combien cette tâche est difficile
et restent sur leurs gardes, alors que les autres sur-estiment généralement
la qualité des fichiers qui leur sont fournis.
Si l'on ne prend garde dès la phase de préparation
de l'enquête à ces difficultés potentielles,
on risque d'être confronté ensuite à un problème
insoluble.
Comment ça
marche ?
Les calculs de
redressement sont complexes lorsquil sagit de redresser
léchantillon sur plusieurs variables en même
temps, comme cest généralement le cas. Moins
fréquent, le redressement sur une seule variable correspond
à une simple règle de 3 : si l'on veut obtenir 55%
de femmes et 45% d'hommes, alors que la répartition dans
le fichier est de 40/60, il suffit d'appliquer à chaque femme
le coefficient 55/40ème c'est-à-dire 1,375 et à
chaque homme le coefficient 45/60ème c'est-à-dire
0,75.
En présence de plusieurs variables (ex : tranche d'âge,
sexe, csp), la règle de 3 peut également être
appliquée si l'on connaît la distribution croisée
de toutes les variables entre elles. Autrement dit, cette stratification
a posteriori n'est possible que si l'on dispose d'un tableau théorique
indiquant le nombre dindividus pour chaque combinaison de
réponses de toutes les variables à redresser. Le rapport
entre leffectif théorique divisé par leffectif
réel constitue alors le coefficient multiplicateur à
appliquer aux individus correspondants à la combinaison.
Cette méthode n'est toutefois pas vraiment utilisée
pour plusieurs raisons :
lorsque le nombre de variables est important, l'effectif des cases
peut être nul dans l'échantillon. Une règle
de 3 utilisant la valeur 0 donne un effectif redressé nul.
le plus souvent, on ne dispose pas de cette répartition croisée
mais seulement des distributions marginales (répartition
des individus sur les modalités de chaque variable).
La méthode de redressement la plus utilisée part donc
des répartitions marginales des individus sur chaque modalité
de réponse et tente, par itérations successives, de
« caler » l'échantillon sur ces marges. C'est
pour cela qu'on parle généralement de « calage
sur les marges ».
Cette méthode fait appel à des calculs répétitifs
qui ne sont pas complexes en soi mais nécessitent de nombreuses
opérations. C'est pour cela que les redressements multi-critères
ne s'envisagent généralement qu'avec l'aide de l'informatique.
Les principaux packages statistiques du marché offrent ces
fonctionnalités. Mais si certains nécessitent la mise
en oeuvre de macros complexes réservées aux utilisateurs
avancés, les derniers nés des outils d'analyse de
données (STAT'Mania par exemple) guident l'utilisateur dans
la définition des paramètres du redressement. Les
étapes du redressement sont généralement les
suivantes :
l'utilisateur sélectionne dans la liste des variables de
l'enquête, celle qui doivent faire l'objet d'un redressement,
le logiciel calcule les marges sur l'échantillon en cours
et les affiche,
l'utilisateur indique, à côté de l'effectif
calculé pour chaque modalité, l'effectif cible à
obtenir.
Certains outils permettent de demander une valeur totale de la population
cible différente du nombre d'individus de l'échantillon,
pour permettre, par exemple, d'obtenir un échantillon redressé
ayant, d'une vague à l'autre, exactement le même effectif.
Une fois les paramètres de redressement définis, le
calcul peut être lancé. Le logiciel procède
alors par itération. Il commence par chercher, pour chaque
catégorie, le coefficient à appliquer pour atteindre
la distribution cible. Il affecte ensuite à chaque individu,
selon ses réponses à chacune des variables de redressement,
une combinaison des coefficients trouvés pour les modalités
qui le concernent. Cette opération est réïtérée
sur la distribution obtenue, jusqu'à ce que l'effectif cible
de toutes les modalités soit atteint.
Mais attention : il se peut que les calculs ne permettent pas de
faire converger l'échantillon interrogé vers la distribution
recherchée.
Ainsi, en prenant le cas extrême d'un échantillon de
100 personnes avec 50 hommes ouvriers et 50 femmes employées,
il est impossible d'obtenir un échantillon cible présentant
la répartition 40/60 pour les hommes/femmes et 60/40 pour
les ouvriers/employés. On comprend bien dans ce cas qu'il
est vain de rechercher des coefficients qui augmentent la proportion
de femmes en diminuant la proportion d'employés (puisque
toutes les femmes sont employées et tous les employés
sont des femmes).
Les redressements ne sont donc possibles (et souhaitables) quen
tant quajustements réalisés sur des échantillons
ayant une certaine adéquation avec la population cible.
Bien préparer
vos données avant tout redressement
La technique du redressement déchantillons est utilisée
pour rapprocher le fichier de données de la réalité.
Les coefficients trouvés pondèrent les données
dont on dispose. Mais si ces données sont fausses dès
le départ, quelles ont été mal collectées,
mal saisies, ou quelles comportent trop de données
manquantes, il ne servira à rien de chercher à redresser.
Comme dans toute
bonne recette de cuisine, on ne répétera jamais assez,
concernant l'analyse des données, que la préparation
compte autant et même peut-être davantage que la réalisation
elle-même : les bons ingrédients, au bon moment, avec
des accessoires adaptés, représentent là aussi
la première garantie de réussite.
Rappelons tout d'abord le principal objectif attendu d'une analyse
des données : transformer une base d'informations, qualitatives
ou quantitatives, en décisions et plans d'actions opérationnels
pour un service, une entreprise, une organisation...
Pour y parvenir, et quelles que soient les méthodes utilisées,
des plus simples aux plus complexes, la performance de la démarche
repose sur la qualité des informations qui serviront de base
aux analyses. Cette qualité dépend de plusieurs facteurs
:
le recueil des données, en particulier selon leur origine
et leur mode de collecte. Ce recueil peut reposer sur de multiples
moyens, supports et processus, ce qui exigera des consolidations
ou des liens entre plusieurs fichiers ayant parfois des structures
différentes.
la teneur des informations, en termes de types de variables (quanti/quali,
brutes ou classifiées,
.) mais également concernant
les valeurs aberrantes, manquantes ou nulles.
La phase indispensable de préparation des informations à
analyser, que l'on appellera aussi « nettoyage des données
», dépend de plus en plus des logiciels que lon
souhaite utiliser pour effectuer les traitements. Les formats, le
mode de gestion des données nulles ou absentes, les modes
de calculs, répondent à certaines contraintes, qui
peuvent être différentes d'un outil à l'autre.
Ces éléments doivent être bien connus et anticipés
si lon veut éviter, lors du traitement, les surprises
éventuelles et les erreurs de raisonnement et de calcul qui
pourraient en découler.
Les contrôles initiaux lors de lacquisition des données
La meilleure manière de sassurer que lon dispose
de données de qualité consiste à contrôler
à la source, lorsque cela est possible, le processus dacquisition
et éventuellement de consolidation des données.
Mais avant dévoquer ces processus, il convient de rappeler
que la qualité des données est dabord conditionnée
par la qualité du terrain. Des questions mal posées,
des cibles mal choisies ou des enquêteurs mal briefés
peuvent fournir des données erronées quil ne
sert à rien de chercher à optimiser.
Concernant lacquisition elle-même, certains instituts
réalisent, sur les données des enquêtes saisies
en interne, une deuxième saisie (double-saisie), permettant,
par comparaison des deux fichiers obtenus, de mettre en évidences
déventuelles erreurs de recopiage de la réponse
inscrite sur le questionnaire.
Cette méthode est très efficace, dans la mesure où
la probabilité que deux personnes différentes se trompent
de la même manière, au même endroit, est très
faible. Elle se justifie également lorsque la saisie est
encore faite au kilomètre, dans des outils de
saisie ne permettant pas de réaliser des contrôles
avancés.
Toutefois, son caractère fastidieux et long fait quelle
est de plus en plus rarement employée, notamment par les
utilisateurs finaux dans les services études des entreprises.
Heureusement, les principales erreurs de frappe peuvent être
considérablement diminuées par la constitution d'un
masque de saisie enrichi de commandes d'auto-contrôle, liées
à la nature des questions et aux modalités de réponses
: des listes à choix multiples plutôt que des questions
ouvertes, des échelles de minimum/maximum, un nombre fixe
de positions, la saisie obligatoire, l'enrichissement contrôlé
des modalités de réponses,
.. en bref une saisie
contrôlée et intelligente !
Les logiciels denquêtes moderne offrent toutes ces fonctions.
Au delà des procédures de contrôle liées
aux sources des informations d'autres actions sont essentielles
et poursuivent cette étape, en s'intéressant directement
au "contenu" des informations.
Même si la base est alimentée de façon automatique,
il est de toute manière nécessaire de réaliser
des contrôles de présence et de cohérence des
données. Plus la base est importante plus un développement
informatique et une automatisation de cette tâche seront utiles,
en contrôlant par exemple la qualité des données
par des tests de distribution et des mesures de contribution de
certaines valeurs.
On peut distinguer et détailler ici trois exemples de procédures
possibles :
- l'identification de valeurs aberrantes
- la prise en compte de valeurs manquantes
- la gestion de valeurs nulles
L'identification de valeurs aberrantes
Cette identification peut être réalisée principalement
suivant trois méthodes :
Isoler des "pics" de valeurs suivant une distribution
statistique (pouvant masquer des saisies forcées de chiffres
identiques)
Définir un intervalle compris entre la moyenne et un certain
nombre d'écarts types, puis limiter ou supprimer toutes les
valeurs se trouvant à l'extérieur de cet intervalle
: attention, on doit prêter attention à une procédure
de ce type entraînant un nombre trop élevé de
suppression, qui peut révéler un problème plus
grave quant à la fiabilité de la base de données.
Construire un score permettant, grâce à différents
indicateurs statistiques, d'examiner toutes les valeurs qui contribuent
à la construction de ce score. Si le niveau de contribution
est anormal, on peut présupposer la présence d'une
valeur aberrante à examiner plus précisément.
La prise en compte de valeurs manquantes
On peut là encore suivre 3 méthodes :
La suppression des enregistrements incomplets : c'est une décision
très radicale et restrictive, qui peut faire perdre un nombre
élevé d'informations, par ailleurs tout à fait
valables sur certains champs, alors que l'on pourrait envisager
de remplacer ou de "réparer" ces valeurs.
Le remplacement des valeurs : certains logiciels permettent de substituer
une valeur absente par une valeur calculée, mais encore faut
il s'accorder sur la méthode de ce choix : (moyenne, médiane,
un calcul de score, ou une autre approche
. )
La gestion des valeurs : certains logiciels acceptent de réaliser
des calculs en l'absence de certaines valeurs, sans altérer
la pertinence des traitements et des résultats, ou en les
considérant comme des facteurs complémentaires d'indécision,
en multipliant les cas de résolution possibles. Cela reste
cependant un frein au déroulement correct de l'étude
La gestion des valeurs nulles
Elle dépend directement du principe de calcul des logiciels
ensuite utilisés, et du degré de fiabilité
des traitements et des résultats que cela peut induire. Il
faut cependant souligner qu'une présence trop importante
de valeurs nulles ou de valeurs absentes peut en fait révéler
des problèmes plus généraux, liés soit
au recueil des données, au système de stockage, aux
règles de contrôle, à la complexité des
données elles mêmes,.. et qu'il faut veiller à
remonter à la source du problème.
|