Panorama
des tests statistiques utilisables dans les études
Les tests
statistiques permettent essentiellement dévaluer les
répartitions obtenues pour savoir si elles sont dûes
au hasard ou si elles recèlent des informations intéressantes.
Fisher, Kendall,
Student, Pearson... Autant de noms familiers à tous ceux
qui ont manipulé un jour ou lautre des statistiques
et des probabilités.
Les tests dhypothèse associés à ces noms
de mathématiciens ou statisticiens sont aujourdhui
très largement utilisés dans de nombreux domaines
de recherche, pour évaluer la significativité des
observations recueillies.
Dans lunivers des études marketing, seuls certains
tests comme celui du Khi 2 sont fréquemment utilisés.
Comme nous allons le voir, les autres tests disponibles peuvent
également être très utiles au chargé
détudes.
Principes
généraux
Objectifs
Il existe de
très nombreux tests qui permettent dévaluer
des aspects différents de significativité. Les objectifs
principaux auxquels peuvent répondre les tests statistiques
sont :
lévaluation de la représentativité des
répartitions observées par rapport aux valeurs connues
pour lensemble de la population,
la mesure de la significativité de la différence constatée
sur les observations de deux groupes dindividus ou dun
même groupe pour deux variables observées,
lexistence et lintensité dune liaison entre
deux variables.
Fonctionnement
Les tests statistiques
fonctionnent tous sur le même principe qui consiste à
énoncer une hypothèse sur la population mère
puis à vérifier, sur les observations constatées,
si celles-ci sont vraisemblables dans le cadre de cette hypothèse.
Autrement dit, on cherche à estimer la probabilité
de tirage au sort dans la population-mère, dun échantillon
ayant les caractéristiques observées. Si cette probabilité
est minime, on rejette l'hypothèse énoncée
; dans le cas contraire, celle-ci peut être adoptée,
au moins provisoirement, dans lattente de validations complémentaires.
Lhypothèse à tester est appelée H0 ou
hypothèse nulle. Elle saccompagne impérativement
de son hypothèse alternative appelée H1.
Le test sattachera à valider ou à rejeter H0
(et par conséquent a tirer la conclusion inverse pour H1).
Si le résultat du test amène à accepter lhypothèse
nulle H0, le chargé détudes en déduit
quil ne peut rien conclure à partir des observations
concernées, la probabilité que la répartition
soit dûe au hasard étant élevée.
En revanche, le rejet de H0 signifie que la répartition des
réponses récèle des informations particulières
qui ne semblent pas être dûes au hasard et quil
convient dapprofondir.

Mode dutilisation
La mise en oeuvre
dun test statistique se déroule généralement
en 5 étapes :
Formulation de lhypothèse nulle H0 et de son hypothèse
alternative H1 : ces hypothèses sont toujours formulées
par rapport à la population globale, alors que le test portera
sur les observations effectuées dans le cadre de léchantillon.
Exemple : Par rapport à lannée dernière
où nos clients avaient donné une note de 8,7 sur 10
à notre magasin, la note donnée cette année
par 100 clients que nous avons interrogés et qui se situe
à 8,5 sur 10 nest pas signifcativement inférieure.
Détermination du seuil de signification du test (appelé
alpha et décrit plus loin).
Exemple : nous acceptons un risque derreur de 5%.
Dans le cadre des tests paramétriques (définition
plus loin), détermination de la loi de probabilité
qui correspond à la population-mère.
Exemple : si on interrogeait tous nos clients potentiels, les notes
données se répartiraient selon une distribution normale
ayant un écart-type de 1.
Calcul du seuil de rejet de H0 pour déterminer la région
de rejet et la région dacceptation de H0 (et inversement
de H1).
Exemple : Pour un risque de 5%, la loi normale donne une valeur
critique de
-0,1645. Si la valeur de notre test est supérieure à
ce seuil, notre hypothèse H0 est vérifiée :
la note de cette année nest pas significativement inférieure.
Décision de rejet ou dacceptation de lhypothèse
H0.
Exemple : La comparaison de la différence entre 8,5 et 8,7,
qui est de -0,2 étant inférieure à la valeur
critique, nous devons rejeter lhypothèse H0. Nous devons
donc estimer que la note donnée cette année est significativement
inférieure à celle de lannée dernière.
Test unilatéral,
ou bilatéral
Lorsque lhypothèse
nulle consiste à tester légalité de la
valeur du test avec une valeur donnée, le test est bilatéral.
En effet, le rejet de lhypothèse est décidé
si la valeur du test est significativement différente, quelle
soit inférieure (zone de rejet de gauche) ou supérieure
(zone de rejet de droite).
Le test est dit unilatéral lorsque lhypothèse
nulle évalue si une valeur est supérieure ou égale
à la valeur de test (unilatéral gauche) ou inférieure
ou égale à cette valeur (unilatéral droit).
Le test donné en exemple ci-dessus est donc un test unilatéral
gauche.

Tests paramétriques
et non paramétriques
On distingue
deux grandes catégories de tests : les tests paramétriques
et les tests non paramétriques.
Les premiers exigent que lon spécifie la forme de la
distribution de la population-mère étudiée.
Il peut sagir, par exemple, dune distribution suivant
la loi normale, ce qui est le cas général lorsque
lon a affaire à de grands échantillons. En général,
ces tests ne peuvent sappliquer quaux variables numériques.
Les tests non paramétriques sappliquent quant à
eux, à la fois aux variables numériques et qualitatives.
Ces tests ne font pas référence à une répartition
particulière de la population-mère. Ils peuvent donc
sappliquer à des petits échantillons.
Sils sont théoriquement moins puissants que les tests
paramétriques, on peut quand même considérer
que les tests non paramétriques sont plus adaptés
aux problématiques denquêtes. Des études
ont dailleurs prouvé que leur exactitude sur des grands
échantillons nest que légèrement inférieure
à celle des tests paramétriques, alors quils
sont infiniment plus exacts sur des petits échantillons.
Erreurs-types
La conclusion
retenue (rejet ou non de lhypothèse H0) est établie
avec une certaine probabilité derreur.
Lorsque le test conduit à rejeter lhypothèse
nulle, lerreur éventuelle, dans le cas où cette
hypothèse serait en réalité vraie, est appelée
Erreur de type 1 ou Erreur alpha.
Dans lexemple décrit plus haut, lerreur alpha
était donc fixée à 5%.
Lorsquau contraire, le test nous indique quil ne faut
pas rejeter lhypothèse nulle, lerreur éventuelle,
au cas où cette hypothèse serait en réalité
fausse, est appelée Erreur de type 2 ou Erreur
Bêta.
Ces indicateurs sont interdépendants : quand lerreur
alpha est réduite, lerreur bêta augmente. Cela
signifie que le choix du seuil alpha pour le test à effectuer
doit se faire en fonction du coût économique de lune
ou lautre mauvaise décision.
Exemple : Avant de lancer un nouveau packaging, une entreprise effectue
un test pour vérifier quil plaît plus à
ses clients que lancien.
Si lhypothèse est vérifiée alors quelle
est fausse, lentreprise va remplacer lancien packaging
qui plaît plus par un nouveau moins attirant. Elle va y perdre
de largent et des clients.
En revanche, si le test lui indique que le nouveau packaging est
moins attirant alors quil lest plus, elle va perdre
une opportunité en ne le lançant pas.
La comparaison des coûts de ces deux erreurs permet de fixer
les seuils de manière optimale.
Notons que les indicateurs alpha et bêta permettent de formaliser
un niveau de sécurité pour le résultat obtenu
(1 - alpha) et un paramètre indiquant la puissance du test
(1 - bêta).
Tests sur
une variable
La production
dun tableau de résultats sur une question peut saccompagner
dindicateurs statistiques de significativité.
Le choix du test applicable dépend du type de la variable
et de lobjectif poursuivi.
Tests dadéquation
En présence
dun tableau de résultats pour une variable qualitative,
le chargé détudes peut utiliser des tests non
paramétriques destinés à comparer la répartition
obtenue pour les différentes réponses avec une répartition
connue (par exemple, celle de la population mère) ou une
répartition théorique, issue dune loi statistique
(ex : loi normale).
Les deux tests dadéquation les plus utilisés
dans ce cas sont le test dajustement du Khi2 et le test de
Kolmogorov-Smirnov.
Ces tests permettent de répondre à des questions du
type :
Je connais la répartition de ma population selon les CSP.
Mon échantillon est-il représentatif de cette population
sur ce critère ?
Nous avons défini un plan de charge nous permettant douvrir
nos caisses en fonction de la fréquentation de notre magasin.
Ce modèle est-il validé par nos observations sur un
échantillon de jours et dheures donné ?
Nous fabriquons des chaussures pour femmes. Peut-on considérer,
après avoir interrogé 200 clientes potentielles choisies
au hasard que les tailles de chausse suivent une loi normale ?
Ces tests calculent, à partir des écarts entre les
valeurs réelles et les valeurs théoriques, une valeur
que lon compare à un seuil critique dans la table statistique
correspondante.
Tests de conformité
à un standard
Ces tests, très
proches des tests dadéquation évoqués
ci-dessus, ont pour objectif de comparer une moyenne ou une proportion
à une valeur particulière (comme dans notre exemple
du début).
Ainsi, le test de comparaison de la moyenne sapplique sur
une variable numérique et permet de comparer la moyenne de
la série à une valeur donnée. Notons quil
nest utilisable que pour des échantillons supérieurs
à 30 individus.
Pour apporter une nouvelle illustration de lutilité
de ce test, prenons lexemple dun magazine qui affirme,
pour vendre ses pages de publicité, que chacun de ses exemplaires
vendus est lu en moyenne par 3,7 lecteurs. La comparaison de la
moyenne permet, à partir dun échantillon aléatoire
dacheteurs interrogés, dévaluer la véracité
de cette affirmation. Le test ne consiste pas seulement à
comparer la moyenne obtenue, par exemple 3,2, avec la moyenne annoncée,
mais à estimer la probabilité de tomber sur un échantillon
ayant une moyenne qui sécarte ainsi de 0,5 points ou
plus de la vraie moyenne de 3,7. Si cette probabilité est
importante, nous pouvons accepter la moyenne annoncée. En
revanche, si elle est minime, on est en droit de rejeter laffirmation.
Le test de comparaison dune proportion fonctionne de la même
manière, mais sur des variables qualitatives. Il permet de
comparer le pourcentage de réponses obtenues à une
modalité, à un pourcentage donné.
Ainsi, si un directeur dantenne sest fixé un
seuil dau moins 25% dauditeurs pour conserver une émission,
et quil obtient, suite à une enquête la valeur
de 22,5% dauditeurs, le test de comparaison de la proportion
obtenue avec le seuil visé peut laider à prendre
une décision en minimisant les risques de se tromper.
Tests sur
deux variables
Tests paramétriques
de comparaisons déchantillons
Ces tests permettent
de comparer des résultats obtenus pour une variable, sur
deux groupes dobservations, en vue de déterminer si
ces résultats sont significativement différents dun
groupe à lautre.
Il peut sagir, par exemple, dun test de deux packagings
ou de deux messages publicitaires, en vue dévaluer
la version la plus appréciée par les personnes interrogées.
Les tests paramétriques de comparaison les plus fréquents
sont les tests de différence entre deux moyennes ou entre
deux pourcentages.
Le premier sapplique sur des variables numériques.
Il peut porter sur des échantillons indépendants ou
appariés.
A titre dexemple, si on fait goûter une boisson à
un groupe de femmes et à un groupe dhommes pour voir
sil y a une différence dappréciation selon
le sexe, on réalise là un test sur des échantillons
indépendants.
En revanche, si on fait goûter deux boissons différentes
à un même groupe dindividus, pour voir sil
y a une préférence significative pour lune des
deux, il sagit dune mesure sur des échantillons
appariés.
Dans le premier cas, le test compare la moyenne pour le 1er et pour
le 2ème groupe puis cherche à évaluer si cette
différence est significativement différente de 0.
Si tel est le cas, on peut considérer que les hommes napprécient
pas la boisson de la même manière que les femmes. Pour
savoir quel groupe lapprécie le plus, il nest
pas forcément besoin de choisir que le test se fasse de manière
unilatérale puisquil suffit de jeter un coup doeil
sur les moyennes.
Dans le deuxième cas, le test consiste à calculer
les différences entre les 2 notes données par chaque
individu aux produits testés. Ensuite le test calcule la
moyenne de ces différences puis essaie de voir si cette moyenne
est significativement différente de 0. Si tel est le cas,
on peut conclure que les produits sont notés de manière
différente. Là aussi, lappréciation du
meilleur produit peut se faire par lexamen de la moyenne de
chacun des deux ou alors, en demandant au départ un test
unilatéral.
Le test de comparaison de deux pourcentages est également
extrêmement utile pour évaluer la différence
entre deux échantillons pour une modalité de réponse
donnée (ou un regroupement de modalités). Ainsi, une
enseigne de distribution peut comparer la proportion de clients
satisfaits dans deux de ses magasins pour savoir si cette différence
est significative.
Tests non
paramétriques de comparaisons déchantillons
Ces tests ont
les mêmes objectifs que leurs homologues paramétriques,
en étant applicables dans le cas général.
Le test U de Mann-Whitney sapparente au test de comparaison
des moyennes sur deux échantillons indépendants. Comme
ce dernier, il sapplique essentiellement sur une variable
numérique(ou qualitative ordinale).
Le test des rangs signés de Wilcoxon sapparente également
au test de comparaison des moyennes mais, cette fois, sur des échantillons
appariés. Là aussi, les deux variables à tester
doivent être numériques (ou assimilées).
Ces tests effectuent des classements des réponses et font
intervenir dans leurs calculs, le rang associé.
Ainsi le test de Mann-Whitney commence par mettre ensemble les réponses
des 2 groupes X et Y et à les classer. Le calcul porte ensuite
sur le nombre de fois où un individu du groupe X précède
un individu du groupe Y. La somme de ces éléments
permet dobtenir la valeur du test à comparer à
la valeur critique dans la table de Mann-Whitney.
Il existe un autre test non paramétrique permettant de comparer
plus de 2 échantillons et qui est en fait la généralisation
du test de Mann-Whitney. Il sagit du test de Kruskal-Wallis.
Mesure de
lassociation entre deux variables qualitatives
Le croisement
de deux questions qualitatives produit un tableau que lon
désigne généralement par tableau de contingence.
Pour savoir si la distribution des réponses de ces deux variables
est dûe au hasard ou si elle révèle une liaison
entre elles, on utilise généralement le test du Khi2,
qui est sans doute le test statistique le plus connu et le plus
utilisé dans le domaine des études marketing. Un encadré
dans ce dossier détaille son fonctionnement.
En général, le khi2 est calculé pour un tableau
croisé. Cependant certains outils comme StatMania sont
capables de lappliquer en série à un grand nombre
de combinaisons de variables prises 2 à 2, pour détecter
automatiquement les couples de variables qui présentent les
liaisons les plus significatives.
Mesure de lassociation entre deux variables numériques
Lorsque lon cherche à déterminer si deux variables
numériques sont liées, on parle de corrélation.
Les trois tests de corrélation les plus utilisés sont
ceux de Spearman, Kendall et Pearson.
Les deux premiers sont des tests non-paramétriques que lon
peut également appliquer sur des variables qualitatives ordinales.
Ces deux tests commencent par classer les valeurs observées
pour chaque individu à chacune des deux variables.
Ainsi, si on cherche à évaluer la corrélation
entre lâge et le revenu, la première étape
du calcul évalue pour lindividu 1 puis 2, puis n, son
classement en fonction de lâge et celui en fonction
du revenu.
Le test de Spearman se base sur la différence des rangs pour
chaque individu, pour donner, à partir dune formule
particulière, la valeur du test (r de Spearman). Plus cette
valeur est proche de 0 plus les 2 variables sont indépendantes.
A linverse, plus il est proche de 1 plus elles sont corrélées.
Il est possible de tester la signification statistique de cette
valeur obtenue, à laide de la formule suivante de comparaison,
basée sur le t de Student :
t = RxRacine(n-2)
Racine(1-r²)
Cette valeur doit être comparée dans la table de Student,
à la valeur t avec n-2 degrés de liberté.
Ainsi, si on obtient une valeur r de 0,8 sur un échantillon
de 30 personnes, le calcul ci-dessus nous donne la valeur 8,53.
La valeur donnée dans la table de Student pour 28 degrés
de liberté avec un seuil de 5% derreur est de 2,05.
Cette valeur étant inférieure à notre t calculé,
le taux de corrélation calculé est significatif.
Toutes ces opérations sont, bien entendu, assurées
de manière automatique par tous les logiciels modernes danalyse
de données (par exemple STATMania dont vous trouverez
un descriptif sur www.soft-concept.com).
Le test de Kendall part de la même manière que celui
de Spearman. Mais une fois que les rangs sont calculés, le
test classe lune des deux variables sur ces rangs et sintéresse
au nombre de fois où la deuxième respecte le même
ordre de classement.
En final, le test fournit un coefficient de corrélation que
lon appelle le Tau de Kendall dont on peut également
évaluer la significativité à laide dun
test complémentaire.
Contrairement aux deux tests ci-dessus, le test de corrélation
de Pearson est un test paramétrique exigeant.
Il ne sapplique que sur deux variables numériques qui,
prises ensemble doivent suivre la loi normale (difficile à
vérifier dans les études marketing).
Ce test de corrélation fait appel à des calculs statistiques
basés sur la covariance des deux variables et sur leurs variances.
Là aussi, ces calculs aboutissent à la production
dun coefficient de corrélation entre 0 et 1, qui peut
être également testé quant à sa significativité.
FICHE
PRATIQUE :
Le test
d'indépendance du khi2
Le test dindépendance
du Khi2 permet de déterminer si deux questions qualitatives
son indépendantes ou non, ou autrement dit, si les réponses
de lune conditionnent les réponses de lautre.
Il ne permet toutefois pas de connaître le sens de la dépendance.
Ce test sapplique sur un tableau de contingence, expression
qui désigne le tableau de croisement des deux variables catégorielles.
Le principe est de calculer lécart entre la distribution
obtenue et une distribution théorique que lon obtiendrait
si les deux variables étaient totalement indépendantes.
Cet écart nous permet daccepter ou de rejeter lhypothèse
dindépendance H0.
Voici un exemple qui va nous permettre de bien comprendre toutes
les phases de ce test :
On a interrogé des habitants de Paris, de Lyon et de Marseille
sur lappréciation de 4 stations de radio.
Le croisement de ces deux variables donne le tableau de contingence
suivant :
Etape 1 :
Calcul du tableau théorique
Considérons
les marges qui correspondent aux distributions des variables VILLE
(77, 65, 58) et RADIO (47, 45, 75, 33).
Si ces deux variables étaient indépendantes, la distribution
des valeurs du tableau serait répartie de manière
équilibrée en ligne et en colonne.
La valeur théorique de chaque case sobtient en multipliant
le total ligne par le total colonne puis en le divisant par le total
général.
Ainsi, la 1ère case devrait contenir la valeur (47x77)/200,
soit 18,1. Le tableau théorique est donc le suivant :

Etape 2 :
Calcul de la valeur du Khi2
Pour évaluer
lécart entre ce tableau et le tableau précédent,
on calcule, pour chaque case :

En aditionnant
ces valeurs, on obtient 7,6 :
(0,0+0,5+0,5+1,6+0,0+1,9+0,3+0,8+0,1+0,4+0,2+1,3) = 7,6
Etape 3 : Interprétation
Pour interpréter cette valeur, on se réfère
à la table du Khi2 qui présente les valeurs (cases
de la table) ayant une probabilité donnée dêtre
dépassées (en colonne), selon différents degrés
de liberté (en ligne).
- La probabilité est notre seuil ou marge derreur que
nous nous fixons (en général 5%).
- Le nombre de degré de liberté (noté ddl)
correspond à :
ddl = (Nombre de lignes - 1) x (Nombre de colonnes - 1)
Dans notre exemple, on a ddl = (4-1) x (3-1), soit 6.
En regardant la case qui correspond à la colonne 0,05 et
à la ligne 6, on trouve la valeur 12,59. Autrement dit, il
y aurait, pour notre tableau 5% de chances que le Khi2 dépasse
cette valeur (et 95% de chances quil soit inférieur).
Etant donné que le Khi2 calculé est inférieur
à cette valeur, nous ne pouvons pas rejetter lhypothèse
nulle. On considère donc que les 2 variables sont indépendantes.
LECTURES
CONSEILLEES :
Parmi les très
nombreux ouvrages disponibles dans le domaine des statistiques,
voici nos préférés :
Lanalyse
statistique de données
(Christian Bialès
- Editions Chotard et associés) : Ouvrage pédagogique
dune clarté remarquable, qui traite tout lunivers
des méthodes utiles en marketing : tests statistiques, analyse
de données... Chaque méthode est illustrée
par des exemples pratiques et bien choisis.
Etudes de marché
(J.L. Giannelloni et E. Vernette - Edition Vuibert) : Ouvrage généraliste
complet sur les études, abordant tout le processus dinvestigation,
des réflexions préalables au rapport final, en passant
par les techniques quantitatives et qualitatives utilisables sur
le terrain. La partie consacrée à lanalyse de
données est particulièrement développée
et précise pour ce type douvrage.
Market : Etudes et recherches en marketing
(Y.Evrard, B.Pras & E. Roux - Editions Nathan) : Ouvrage généraliste
sur les études réalisé en collaboration avec
J. Choffray et Anne-Marie Dussaix. Les techniques et méthodes
de traitement et danalyse de données sont présentées
de manière structurée et détaillée.
Statistiques : Dictionnaire encyclopédique
(Yadolah Dodge - Editions Dunod) : Guide de référence,
indispensable à tous ceux qui manipulent des statistiques.
Chaque terme est illustré dexemples détaillés.
Sites Internet
Il existe sur Internet de très nombreuses ressources notamment
universitaires et souvent ardues, traitant de statistiques (cours,
explications, utilitaires de calcul...).
Nous vous indiquons ci-dessous quelques liens intéressants
, qui peuvent toutefois disparaître sans préavis :
|