FICHE PRATIQUE :
Le test d'indépendance du khi2
Le test dindépendance du Khi2 permet de déterminer si deux questions qualitatives son indépendantes ou non, ou autrement dit, si les réponses de lune conditionnent les réponses de lautre. Il ne permet toutefois pas de connaître le sens de la dépendance.
Ce test sapplique sur un tableau de contingence, expression qui désigne le tableau de croisement des deux variables catégorielles.
Le principe est de calculer lécart entre la distribution obtenue et une distribution théorique que lon obtiendrait si les deux variables étaient totalement indépendantes. Cet écart nous permet daccepter ou de rejeter lhypothèse dindépendance H0.
Voici un exemple qui va nous permettre de bien comprendre toutes les phases de ce test :
On a interrogé des habitants de Paris, de Lyon et de Marseille sur lappréciation de 4 stations de radio.
Le croisement de ces deux variables donne le tableau de contingence suivant :

Etape 1 : Calcul du tableau théorique
Considérons les marges qui correspondent aux distributions des variables VILLE (77, 65, 58) et RADIO (47, 45, 75, 33).
Si ces deux variables étaient indépendantes, la distribution des valeurs du tableau serait répartie de manière équilibrée en ligne et en colonne.
La valeur théorique de chaque case sobtient en multipliant le total ligne par le total colonne puis en le divisant par le total général.
Ainsi, la 1ère case devrait contenir la valeur (47x77)/200, soit 18,1. Le tableau théorique est donc le suivant :

Etape 2 : Calcul de la valeur du Khi2
Pour évaluer lécart entre ce tableau et le tableau précédent,
on calcule, pour chaque case :

En additionnant ces valeurs, on obtient 7,6 :
(0,0+0,5+0,5+1,6+0,0+1,9+0,3+0,8+0,1+0,4+0,2+1,3) = 7,6
Etape 3 : Interprétation
Pour interpréter cette valeur, on se réfère à la table du Khi2 qui présente les valeurs (cases de la table) ayant une probabilité donnée dêtre dépassées (en colonne), selon différents degrés de liberté (en ligne).
- La probabilité est notre seuil ou marge derreur que nous nous fixons (en général 5%).
- Le nombre de degré de liberté (noté ddl) correspond à :
ddl = (Nombre de lignes - 1) x (Nombre de colonnes - 1)
Dans notre exemple, on a ddl = (4-1) x (3-1), soit 6.
En regardant la case qui correspond à la colonne 0,05 et à la ligne 6, on trouve la valeur 12,59. Autrement dit, il y aurait, pour notre tableau 5% de chances que le Khi2 dépasse cette valeur (et 95% de chances quil soit inférieur). Etant donné que le Khi2 calculé est inférieur à cette valeur, nous ne pouvons pas rejetter lhypothèse nulle. On considère donc que les 2 variables sont indépendantes.
|