Panorama des tests statistiques utilisables dans les études
Les tests statistiques permettent essentiellement dévaluer les répartitions obtenues pour savoir si elles sont dûes au hasard ou si elles recèlent des informations intéressantes.
Fisher, Kendall, Student, Pearson... Autant de noms familiers à tous ceux qui ont manipulé un jour ou lautre des statistiques et des probabilités.
Les tests dhypothèse associés à ces noms de mathématiciens ou statisticiens sont aujourdhui très largement utilisés dans de nombreux domaines de recherche, pour évaluer la significativité des observations recueillies.
Dans lunivers des études marketing, seuls certains tests comme celui du Khi 2 sont fréquemment utilisés. Comme nous allons le voir, les autres tests disponibles peuvent également être très utiles au chargé détudes.
Principes généraux
Objectifs
Il existe de très nombreux tests qui permettent dévaluer des aspects différents de significativité. Les objectifs principaux auxquels peuvent répondre les tests statistiques sont :
lévaluation de la représentativité des répartitions observées par rapport aux valeurs connues pour lensemble de la population,
la mesure de la significativité de la différence constatée sur les observations de deux groupes dindividus ou dun même groupe pour deux variables observées, lexistence et lintensité dune liaison entre deux variables.
Fonctionnement
Les tests statistiques fonctionnent tous sur le même principe qui consiste à énoncer une hypothèse sur la population mère puis à vérifier, sur les observations constatées, si celles-ci sont vraisemblables dans le cadre de cette hypothèse.
Autrement dit, on cherche à estimer la probabilité de tirage au sort dans la population-mère, dun échantillon ayant les caractéristiques observées. Si cette probabilité est minime, on rejette l'hypothèse énoncée ; dans le cas contraire, celle-ci peut être adoptée, au moins provisoirement, dans lattente de validations complémentaires.
Lhypothèse à tester est appelée H0 ou hypothèse nulle. Elle saccompagne impérativement de son hypothèse alternative appelée H1.
Le test sattachera à valider ou à rejeter H0 (et par conséquent a tirer la conclusion inverse pour H1).
Si le résultat du test amène à accepter lhypothèse nulle H0, le chargé détudes en déduit quil ne peut rien conclure à partir des observations concernées, la probabilité que la répartition soit dûe au hasard étant élevée.
En revanche, le rejet de H0 signifie que la répartition des réponses récèle des informations particulières qui ne semblent pas être dûes au hasard et quil convient dapprofondir.

Mode dutilisation
La mise en oeuvre dun test statistique se déroule généralement en 5 étapes :
Formulation de lhypothèse nulle H0 et de son hypothèse alternative H1 : ces hypothèses sont toujours formulées par rapport à la population globale, alors que le test portera sur les observations effectuées dans le cadre de léchantillon.
Exemple : Par rapport à lannée dernière où nos clients avaient donné une note de 8,7 sur 10 à notre magasin, la note donnée cette année par 100 clients que nous avons interrogés et qui se situe à 8,5 sur 10 nest pas signifcativement inférieure.
Détermination du seuil de signification du test (appelé alpha et décrit plus loin).
Exemple : nous acceptons un risque derreur de 5%.
Dans le cadre des tests paramétriques (définition plus loin), détermination de la loi de probabilité qui correspond à la population-mère.
Exemple : si on interrogeait tous nos clients potentiels, les notes données se répartiraient selon une distribution normale ayant un écart-type de 1.
Calcul du seuil de rejet de H0 pour déterminer la région de rejet et la région dacceptation de H0 (et inversement de H1).
Exemple : Pour un risque de 5%, la loi normale donne une valeur critique de
-0,1645. Si la valeur de notre test est supérieure à ce seuil, notre hypothèse H0 est vérifiée : la note de cette année nest pas significativement inférieure.
Décision de rejet ou dacceptation de lhypothèse H0.
Exemple : La comparaison de la différence entre 8,5 et 8,7, qui est de -0,2 étant inférieure à la valeur critique, nous devons rejeter lhypothèse H0. Nous devons donc estimer que la note donnée cette année est significativement inférieure à celle de lannée dernière.
Test unilatéral, ou bilatéral
Lorsque lhypothèse nulle consiste à tester légalité de la valeur du test avec une valeur donnée, le test est bilatéral. En effet, le rejet de lhypothèse est décidé si la valeur du test est significativement différente, quelle soit inférieure (zone de rejet de gauche) ou supérieure (zone de rejet de droite).
Le test est dit unilatéral lorsque lhypothèse nulle évalue si une valeur est supérieure ou égale à la valeur de test (unilatéral gauche) ou inférieure ou égale à cette valeur (unilatéral droit).
Le test donné en exemple ci-dessus est donc un test unilatéral gauche.

Tests paramétriques et non paramétriques
On distingue deux grandes catégories de tests : les tests paramétriques et les tests non paramétriques.
Les premiers exigent que lon spécifie la forme de la distribution de la population-mère étudiée. Il peut sagir, par exemple, dune distribution suivant la loi normale, ce qui est le cas général lorsque lon a affaire à de grands échantillons. En général, ces tests ne peuvent sappliquer quaux variables numériques.
Les tests non paramétriques sappliquent quant à eux, à la fois aux variables numériques et qualitatives. Ces tests ne font pas référence à une répartition particulière de la population-mère. Ils peuvent donc sappliquer à des petits échantillons.
Sils sont théoriquement moins puissants que les tests paramétriques, on peut quand même considérer que les tests non paramétriques sont plus adaptés aux problématiques denquêtes. Des études ont dailleurs prouvé que leur exactitude sur des grands échantillons nest que légèrement inférieure à celle des tests paramétriques, alors quils sont infiniment plus exacts sur des petits échantillons.
Erreurs-types
La conclusion retenue (rejet ou non de lhypothèse H0) est établie avec une certaine probabilité derreur.
Lorsque le test conduit à rejeter lhypothèse nulle, lerreur éventuelle, dans le cas où cette hypothèse serait en réalité vraie, est appelée Erreur de type 1 ou Erreur alpha.
Dans lexemple décrit plus haut, lerreur alpha était donc fixée à 5%.
Lorsquau contraire, le test nous indique quil ne faut pas rejeter lhypothèse nulle, lerreur éventuelle, au cas où cette hypothèse serait en réalité fausse, est appelée Erreur de type 2 ou Erreur Bêta.
Ces indicateurs sont interdépendants : quand lerreur alpha est réduite, lerreur bêta augmente. Cela signifie que le choix du seuil alpha pour le test à effectuer doit se faire en fonction du coût économique de lune ou lautre mauvaise décision.
Exemple : Avant de lancer un nouveau packaging, une entreprise effectue un test pour vérifier quil plaît plus à ses clients que lancien.
Si lhypothèse est vérifiée alors quelle est fausse, lentreprise va remplacer lancien packaging qui plaît plus par un nouveau moins attirant. Elle va y perdre de largent et des clients.
En revanche, si le test lui indique que le nouveau packaging est moins attirant alors quil lest plus, elle va perdre une opportunité en ne le lançant pas.
La comparaison des coûts de ces deux erreurs permet de fixer les seuils de manière optimale.
Notons que les indicateurs alpha et bêta permettent de formaliser un niveau de sécurité pour le résultat obtenu (1 - alpha) et un paramètre indiquant la puissance du test (1 - bêta).
Tests sur une variable
La production dun tableau de résultats sur une question peut saccompagner dindicateurs statistiques de significativité.
Le choix du test applicable dépend du type de la variable et de lobjectif poursuivi.
Tests dadéquation
En présence dun tableau de résultats pour une variable qualitative, le chargé détudes peut utiliser des tests non paramétriques destinés à comparer la répartition obtenue pour les différentes réponses avec une répartition connue (par exemple, celle de la population mère) ou une répartition théorique, issue dune loi statistique (ex : loi normale).
Les deux tests dadéquation les plus utilisés dans ce cas sont le test dajustement du Khi2 et le test de Kolmogorov-Smirnov.
Ces tests permettent de répondre à des questions du type :
Je connais la répartition de ma population selon les CSP. Mon échantillon est-il représentatif de cette population sur ce critère ?
Nous avons défini un plan de charge nous permettant douvrir nos caisses en fonction de la fréquentation de notre magasin. Ce modèle est-il validé par nos observations sur un échantillon de jours et dheures donné ?
Nous fabriquons des chaussures pour femmes. Peut-on considérer, après avoir interrogé 200 clientes potentielles choisies au hasard que les tailles de chausse suivent une loi normale ?
Ces tests calculent, à partir des écarts entre les valeurs réelles et les valeurs théoriques, une valeur que lon compare à un seuil critique dans la table statistique correspondante.
Tests de conformité à un standard
Ces tests, très proches des tests dadéquation évoqués ci-dessus, ont pour objectif de comparer une moyenne ou une proportion à une valeur particulière (comme dans notre exemple du début).
Ainsi, le test de comparaison de la moyenne sapplique sur une variable numérique et permet de comparer la moyenne de la série à une valeur donnée. Notons quil nest utilisable que pour des échantillons supérieurs à 30 individus.
Pour apporter une nouvelle illustration de lutilité de ce test, prenons lexemple dun magazine qui affirme, pour vendre ses pages de publicité, que chacun de ses exemplaires vendus est lu en moyenne par 3,7 lecteurs. La comparaison de la moyenne permet, à partir dun échantillon aléatoire dacheteurs interrogés, dévaluer la véracité de cette affirmation. Le test ne consiste pas seulement à comparer la moyenne obtenue, par exemple 3,2, avec la moyenne annoncée, mais à estimer la probabilité de tomber sur un échantillon ayant une moyenne qui sécarte ainsi de 0,5 points ou plus de la vraie moyenne de 3,7. Si cette probabilité est importante, nous pouvons accepter la moyenne annoncée. En revanche, si elle est minime, on est en droit de rejeter laffirmation.
Le test de comparaison dune proportion fonctionne de la même manière, mais sur des variables qualitatives. Il permet de comparer le pourcentage de réponses obtenues à une modalité, à un pourcentage donné.
Ainsi, si un directeur dantenne sest fixé un seuil dau moins 25% dauditeurs pour conserver une émission, et quil obtient, suite à une enquête la valeur de 22,5% dauditeurs, le test de comparaison de la proportion obtenue avec le seuil visé peut laider à prendre une décision en minimisant les risques de se tromper.
Tests sur deux variables
Tests paramétriques de comparaisons déchantillons
Ces tests permettent de comparer des résultats obtenus pour une variable, sur deux groupes dobservations, en vue de déterminer si ces résultats sont significativement différents dun groupe à lautre.
Il peut sagir, par exemple, dun test de deux packagings ou de deux messages publicitaires, en vue dévaluer la version la plus appréciée par les personnes interrogées.
Les tests paramétriques de comparaison les plus fréquents sont les tests de différence entre deux moyennes ou entre deux pourcentages.
Le premier sapplique sur des variables numériques. Il peut porter sur des échantillons indépendants ou appariés.
A titre dexemple, si on fait goûter une boisson à un groupe de femmes et à un groupe dhommes pour voir sil y a une différence dappréciation selon le sexe, on réalise là un test sur des échantillons indépendants.
En revanche, si on fait goûter deux boissons différentes à un même groupe dindividus, pour voir sil y a une préférence significative pour lune des deux, il sagit dune mesure sur des échantillons appariés.
Dans le premier cas, le test compare la moyenne pour le 1er et pour le 2ème groupe puis cherche à évaluer si cette différence est significativement différente de 0. Si tel est le cas, on peut considérer que les hommes napprécient pas la boisson de la même manière que les femmes. Pour savoir quel groupe lapprécie le plus, il nest pas forcément besoin de choisir que le test se fasse de manière unilatérale puisquil suffit de jeter un coup doeil sur les moyennes.
Dans le deuxième cas, le test consiste à calculer les différences entre les 2 notes données par chaque individu aux produits testés. Ensuite le test calcule la moyenne de ces différences puis essaie de voir si cette moyenne est significativement différente de 0. Si tel est le cas, on peut conclure que les produits sont notés de manière différente. Là aussi, lappréciation du meilleur produit peut se faire par lexamen de la moyenne de chacun des deux ou alors, en demandant au départ un test unilatéral.
Le test de comparaison de deux pourcentages est également extrêmement utile pour évaluer la différence entre deux échantillons pour une modalité de réponse donnée (ou un regroupement de modalités). Ainsi, une enseigne de distribution peut comparer la proportion de clients satisfaits dans deux de ses magasins pour savoir si cette différence est significative.
Tests non paramétriques de comparaisons déchantillons
Ces tests ont les mêmes objectifs que leurs homologues paramétriques, en étant applicables dans le cas général.
Le test U de Mann-Whitney sapparente au test de comparaison des moyennes sur deux échantillons indépendants. Comme ce dernier, il sapplique essentiellement sur une variable numérique(ou qualitative ordinale).
Le test des rangs signés de Wilcoxon sapparente également au test de comparaison des moyennes mais, cette fois, sur des échantillons appariés. Là aussi, les deux variables à tester doivent être numériques (ou assimilées).
Ces tests effectuent des classements des réponses et font intervenir dans leurs calculs, le rang associé.
Ainsi le test de Mann-Whitney commence par mettre ensemble les réponses des 2 groupes X et Y et à les classer. Le calcul porte ensuite sur le nombre de fois où un individu du groupe X précède un individu du groupe Y. La somme de ces éléments permet dobtenir la valeur du test à comparer à la valeur critique dans la table de Mann-Whitney.
Il existe un autre test non paramétrique permettant de comparer plus de 2 échantillons et qui est en fait la généralisation du test de Mann-Whitney. Il sagit du test de Kruskal-Wallis.
Mesure de lassociation entre deux variables qualitatives
Le croisement de deux questions qualitatives produit un tableau que lon désigne généralement par tableau de contingence.
Pour savoir si la distribution des réponses de ces deux variables est dûe au hasard ou si elle révèle une liaison entre elles, on utilise généralement le test du Khi2, qui est sans doute le test statistique le plus connu et le plus utilisé dans le domaine des études marketing. Un encadré dans ce dossier détaille son fonctionnement.
En général, le khi2 est calculé pour un tableau croisé. Cependant certains outils comme StatMania sont capables de lappliquer en série à un grand nombre de combinaisons de variables prises 2 à 2, pour détecter automatiquement les couples de variables qui présentent les liaisons les plus significatives.
Mesure de lassociation entre deux variables numériques
Lorsque lon cherche à déterminer si deux variables numériques sont liées, on parle de corrélation.
Les trois tests de corrélation les plus utilisés sont ceux de Spearman, Kendall et Pearson.
Les deux premiers sont des tests non-paramétriques que lon peut également appliquer sur des variables qualitatives ordinales.
Ces deux tests commencent par classer les valeurs observées pour chaque individu à chacune des deux variables.
Ainsi, si on cherche à évaluer la corrélation entre lâge et le revenu, la première étape du calcul évalue pour lindividu 1 puis 2, puis n, son classement en fonction de lâge et celui en fonction du revenu.
Le test de Spearman se base sur la différence des rangs pour chaque individu, pour donner, à partir dune formule particulière, la valeur du test (r de Spearman). Plus cette valeur est proche de 0 plus les 2 variables sont indépendantes. A linverse, plus il est proche de 1 plus elles sont corrélées.
Il est possible de tester la signification statistique de cette valeur obtenue, à laide de la formule suivante de comparaison, basée sur le t de Student :
t = RxRacine(n-2)
Racine(1-r²)
Cette valeur doit être comparée dans la table de Student, à la valeur t avec n-2 degrés de liberté.
Ainsi, si on obtient une valeur r de 0,8 sur un échantillon de 30 personnes, le calcul ci-dessus nous donne la valeur 8,53. La valeur donnée dans la table de Student pour 28 degrés de liberté avec un seuil de 5% derreur est de 2,05. Cette valeur étant inférieure à notre t calculé, le taux de corrélation calculé est significatif.
Toutes ces opérations sont, bien entendu, assurées de manière automatique par tous les logiciels modernes danalyse de données (par exemple STATMania dont vous trouverez un descriptif sur www.soft-concept.com).
Le test de Kendall part de la même manière que celui de Spearman. Mais une fois que les rangs sont calculés, le test classe lune des deux variables sur ces rangs et sintéresse au nombre de fois où la deuxième respecte le même ordre de classement.
En final, le test fournit un coefficient de corrélation que lon appelle le Tau de Kendall dont on peut également évaluer la significativité à laide dun test complémentaire.
Contrairement aux deux tests ci-dessus, le test de corrélation de Pearson est un test paramétrique exigeant.
Il ne sapplique que sur deux variables numériques qui, prises ensemble doivent suivre la loi normale (difficile à vérifier dans les études marketing).
Ce test de corrélation fait appel à des calculs statistiques basés sur la covariance des deux variables et sur leurs variances.
Là aussi, ces calculs aboutissent à la production dun coefficient de corrélation entre 0 et 1, qui peut être également testé quant à sa significativité.
|