Il existe
deux grandes catégories de méthodes : les méthodes descriptives
et les méthodes explicatives.
Les méthodes
descriptives
Ces méthodes
visent à structurer et simplifier les données issues de plusieurs
variables, sans privilégier l'une d'entre elles en particulier.
Les méthodes les plus utilisées dans le traitement des enquêtes
sont :
- l'analyse en composantes principales (ACP),
- l'analyse factorielle des correspondances (AFC),
- l'analyse des correspondances multiples (ACM),
- la typologie et les méthodes de classification.
Le choix de l'une ou de l'autre de ces méthodes dépend des objectifs
poursuivis et du type de données à analyser.
L'analyse
en composantes principales
L'ACP s'applique
à un ensemble de variables numériques. Elle permet
de positionner les individus sur un plan en deux dimensions, en
fonction de la proximité de leurs réponses aux questions
sélectionnées. Les variables sont également
représentées sur le mapping, mais de manière
indépendante des points-individus.
L'ACP permet ainsi de mettre en évidence la structuration
des réponses en montrant le regroupement des individus selon
des combinaisons de réponses aux questions prises en compte.
Les axes du mapping ne correspondent généralement
pas à l'une ou l'autre des variables mais à un regroupement
optimal de plusieurs variables (ex : revenu et niveau d'études
peuvent participer ensemble à la formation d'un axe dans
la mesure où elles peuvent être fortement corrélées).
L'ACP est très pratique lorsque l'on travaille sur un ensemble
limité et identifié d'individus statistiques. Ainsi,
si l'on souhaite analyser des points de vente en fonction de différents
critères numériques (surface, personnel, CA, nombre
de pièces vendues
), l'ACP permet d'obtenir une cartographie
intéressante, qui regroupe les points de vente selon tous
les critères retenus et qui permet ainsi de les catégoriser
et d'identifier notamment, d'un coup d'il, les cas hors norme
(ex : surface et personnel importants mais CA faible
).
Le tableau de départ de l'ACP comporte les individus en ligne
et les variables en colonne, avec, dans chaque case, la réponse
numérique de l'individu à la question correspondante.
Les questions qualitatives ordinales, c'est-à-dire, celles
dont les réponses peuvent être ordonnées entre
elles (échelles, fréquences...) peuvent être
recodifiées pour entrer dans le tableau de l'ACP.
Cette recodification doit être généralement
préparée à l'avance. Toutefois, certains logiciels
d'analyse statistique comme STAT'Mania, permettent de réaliser
cette recodification en direct, lors du choix des variables à
faire entrer dans l'ACP. L'algorithme de l'ACP effectue sur la matrice
individus/variables différentes opérations (centrage-réduction
des données, diagonalisation de la matrice, extraction de
valeurs propres et de vecteurs propres
), en vue de passer
du nombre de variables initial à un petit nombre de variables
obtenues par combinaison des premières.
Ces nouvelles composantes forment les axes du mapping. La première
composante est celle qui résume le mieux les informations
contenues dans le tableau. La deuxième apporte un pourcentage
inférieur mais complémentaire d'information, et ainsi
de suite.
Le mapping d'ACP représente d'abord la première composante
(axe horizontal) et la seconde (axe vertical). La somme des pourcentages
d'explication des deux composantes renseigne sur le taux de déperdition
d'information à partir des données de base. Ainsi,
si la première composante résume 62% du tableau et
la seconde 21%, l'information représentée sur le mapping
est de 83%. L'information « perdue » est donc de 17%.
Les points-individus sont représentés sur le mapping
en fonction de leur coordonnées sur les facteurs. Les points
proches correspondent à des individus ayant des profils proches,
a priori, quant aux réponses aux variables prises en compte
dans l'analyse.
Les points-variables sont également représentés
sur le mapping, mais de manière complètement indépendante
des individus.
Leur représentation indique leur corrélation avec
les facteurs, à l'intérieur d'un cercle de rayon 1
défini avec une échelle arbitraire (qui peut être
changée à loisir sans affecter la représentation
des points-individus).
Ces points variables renseignent sur le sens à donner aux
axes. Ainsi, une variable proche du cercle de corrélation
(corrélation forte) et proche d'un axe participe beaucoup
à la formation de cet axe.
Les angles inter-variables (en partant de l'origine) renseignent
sur les corrélations entre elles. Ainsi, deux variables formant
un petit angle sont fortement corrélées, alors qu'un
angle droit signifierait qu'elles sont indépendantes.
L'analyse
des correspondances
L'analyse factorielle
des correspondances s'applique à deux variables qualitatives
(nominales). Elle permet de positionner sur un mapping les modalités
de réponses des deux questions. L'analyse des correspondances
Multiples (ACM) généralise l'AFC à un nombre
quelconque de variables et permet donc de représenter sur
le même mapping les modalités de réponses de
plus de deux variables.
Comme pour l'ACP, le but de ces analyses est de dégager des
dimensions cachées contenues dans les réponses aux
variables sélectionnées, pour faciliter l'interprétation
de tableaux pas toujours lisibles au départ.
Les mappings d'analyse des correspondances affichent donc des points-modalités.
Ainsi, on peut positionner une série de marques et afficher
sur le même plan des caractéristiques de clients (tranches
d'âges, CSP
), ce qui permet de repérer les affinités
entre chaque marque et les différentes cibles.
Le tableau de départ de l'AFC simple est un tableau croisé
(tableau de contingence) présentant la ventilation d'une
population sur les modalités de réponses de deux questions
qualitatives (ex : diplôme et profession).
L'ACM quant à elle, part d'un tableau disjonctif complet
(tableau de burt) qui présente en ligne les individus et
en colonne toutes les modalités des variables qualitatives
retenues. Les cases d'intersection comportent la valeur 1 si l'individu
répond au critère en colonne et 0 dans le cas contraire.
Comme en ACP, les deux premiers axes fournissent une partie généralement
importante de l'information contenue dans le tableau initial (l'axe
horizontal étant, par convention, le plus significatif).
La proximité des points renseigne, a priori, sur leurs associations.
La disposition des modalités de chaque variable les unes
par rapport aux autres aide à donner un sens à chaque
axe (ce qui n'est pas toujours évident, à la seule
observation du graphique).
La typologie
L'analyse typologique
s'applique à tous types de variables (numériques,
qualitatives
). Elle permet de répartir la population
de l'enquête en un nombre défini de sous-groupes aussi
différents que possibles les uns des autres et dans lesquels
les individus sont aussi semblables que possible entre eux. Les
différentes méthodes d'analyse typologique partent
des individus eux-mêmes et essaient de les classer progressivement
selon la ressemblance de leurs réponses aux variables sélectionnées.
Il existe plusieurs méthodes d'analyse typologique dont la
méthode K-means et la méthode des nuées dynamiques.
Leur deux algorithmes sont proches à la différence
que le deuxième part d'une sélection d'un noyau d'individus
au lieu de prendre des individus isolés pour constituer les
partitions de démarrage (ce qui est censé donner de
meilleurs résultats).
En final, les calculs itératifs des analyses typologiques
aboutissent au classement des individus dans le nombre de groupes
défini initialement. L'effectif de ces groupes peut être
très différent. La visualisation graphique du résultat
de l'analyse typologique est un mapping qui met en évidence
les différents groupes. Le groupe central (le plus près
du centre des axes) est le moins « typé » par
rapport aux variables sélectionnées.
Certains logiciels d'analyse statistique permettent de créer
à partir des résultats de la typologie, une nouvelle
variable indiquant, pour chaque individu, son numéro de groupe
d'appartenance. Cette question peut alors être croisée
par les autres variables du questionnaire pour qualifier précisément
le profil de chaque groupe.
Les méthodes
de classification
Comme la typologie, la classification est une méthode de
regroupement des individus selon leurs ressemblances. La différence
est que le nombre de groupes n'est pas à fixer a priori et
que le résultat est représenté sous la forme
d'un arbre de classification.
L'élaboration de cet arbre peut être ascendante (méthode
la plus fréquemment utilisée), par regroupements successifs
des individus ou descendante, par divisions successives.
L'arbre de classification relie un individu à un autre ou
à un sous-groupe d'individu issus eux-mêmes de regroupements.
Lorsque l'on coupe l'arbre au niveau du dernier regroupement, on
obtient deux groupes d'individus. Si la division est effectuée
au niveau de l'avant-dernier regroupement, on obtient trois groupes.
Certains logiciels permettent d'effectuer ce découpage visuellement,
sur l'arbre de classification, puis de générer dans
le fichier de données la variable de groupe correspondante.
Il faut noter qu'il est également possible d'appliquer une
classification pour regrouper des questions plutôt que des
individus. On obtient ainsi des groupes de variables dont les profils
des réponses se ressemblent (ex : dans une batterie d'items).
Les méthodes
explicatives
Ces méthodes visent à expliquer une variable à
l'aide de deux ou plusieurs variables explicatives.
Nous verrons ci-dessous les principales méthodes utilisables
dans les enquêtes que sont la régression multiple,
l'analyse discriminante et la segmentation.
La régression
multiple
La régression multiple permet d'expliquer une variable numérique
par plusieurs autres variables numériques indépendantes.
Elle modélise la relation entre la variable à expliquer
et les variables explicatives sous la forme d'une équation
de type Y = a + b1X1 + b2X2 + ... où Y est la variable à
expliquer, Xn les variables indépendantes, a une constante
et bn les coefficients de régression partiels.
On peut ainsi, si le modèle de régression est satisfaisant,
prédire les valeurs de la variable dépendante en fonction
des valeurs des variables explicatives.
Par exemple, cette application est très intéressante
pour évaluer le niveau de satisfaction globale en fonction
des appréciations données à différents
items intermédiaires (ex : appréciation de l'accueil,
du confort du magasin, des prix
). L'utilisation de la régression
multiple doit toutefois s'accompagner de plusieurs précautions.
Ainsi, les variables explicatives doivent être indépendantes.
Leurs corrélations deux à deux doivent être
nulles ou proches de 0. A défaut (si le calcul aboutit quand
même, ce qui n'est pas toujours le cas), le modèle
obtenu sera imprécis et manquera de stabilité (valeurs
très différentes d'un échantillon à
l'autre).
Par ailleurs, l'appréciation de la qualité de la régression
se fait grâce à plusieurs indicateurs :
- Le premier
d'entre eux est le coefficient de détermination multiple
R2 ajusté qui calcule le pourcentage de variation de la variable
à expliquer dû aux variables explicatives. Ainsi un
R2 de 0,35 signifie que les variables indépendantes ne contribuent
qu'à 35% de la variation de la variable à expliquer
ce qui indique que la qualité du modèle obtenu est
relativement faible.
- Le coefficient
de corrélation multiple R mesure la liaison entre la variable
à expliquer et les différentes variables explicatives
: si sa valeur est inférieure à 0,85 la liaison est
médiocre et le modèle de régression peu satisfaisant.
- Le test F
de Fisher permet d'estimer la qualité de l'ajustement dans
la population. La probabilité de l'hypothèse nulle
(que les variables indépendantes n'aient aucun un effet sur
la variable dépendante dans la population) est donnée
par la table de Fisher. Si la valeur du F calculé est supérieure
à la valeur du F de la table à un seuil défini
(ex : 5%), le coefficient R obtenu est considéré comme
significatif à ce seuil, ce qui veut dire que le modèle
de régression est valable dans la population. Certains logiciels
comme STATMania calculent directement la probabilité
de l'hypothèse nulle (i.e. le seuil de confiance à
partir duquel l'hypothèse nulle est à rejeter, qui
doit donc être très faible pour conclure que l'ajustement
est valable).
Pour résumer
ces indicateurs de qualité de la régression multiple,
un modèle valable et généralisable à
la population présente un R2 élevé (proche
de 1), un R élevé (proche de 1) et une probabilité
de Fisher très faible (proche de 0).
L'analyse
discriminante
L'analyse discriminante est une méthode factorielle qui cherche
à expliquer une variable qualitative par plusieurs variables
numériques. Comme la régression multiple qui permet
de mettre en équation une variable numérique à
expliquer et des variables numériques explicatives, c'est
une méthode prédictive dans la mesure où elle
permet de déterminer quelle modalité prendra un individu
pour la variable qualitative à expliquer, si on connaît
ses réponses aux questions numériques.
Cette propriété permet à l'analyse discriminante
d'être appliquée par exemple pour « scorer »
un client bancaire en déterminant automatiquement un niveau
de risque en fonction de différents paramètres connus
(surface financière, revenus, endettement
).
L'analyse discriminante est également utilisée fréquemment
en prolongement d'une méthode descriptive comme l'ACP ou
la typologie pour apporter des précisions complémentaires
aux résultats obtenus (par exemple, repérage des variables
qui ont permis de créer les groupes de typologie).
Les résultats de l'analyse discriminante peuvent être
visualisés sur un mapping similaire à celui de l'ACP
où les points-individus sont réunis en fonction de
leur appartenance aux groupes.
La segmentation
La segmentation partage les mêmes objectifs que l'analyse
discriminante mais s'applique lorsque les variables explicatives
sont qualitatives. Cette méthode consiste à découper
une population en sous-groupes homogènes, mais uniquement
par rapport à la variable à expliquer.
Le processus de la segmentation est itératif. A chaque étape
l'algorithme choisit la variable explicative la plus corrélée
avec la variable à expliquer pour réaliser une partition
à partir des modalités de la première. Le découpage
distingue à chaque étape les deux segments qui présentent
la variance inter-segments la plus forte et les variances intra-segment
les plus faibles.
Le résultat de la segmentation est une sorte d'arbre de décision,
avec un découpage de chaque groupe en deux sous-groupes.
La première partition permet d'obtenir les deux premiers
groupes. Chacun de ces deux groupes est ensuite divisé en
deux à l'aide de la variable permettant la meilleure partition
et qui n'est généralement pas la même pour les
deux groupes. Le processus se poursuit ainsi avec des interruptions
lorsque la taille du groupe tombe en dessous d'un seuil ou quand
le découpage optimal expliquerait un faible pourcentage de
la variance.
Outre les trois méthodes explicatives danalyse multivariée
que nous avons vues ci-dessus, il convient de citer les méthodes
danalyse des mesures conjointes dont le trade-off, qui permettent
dexpliquer les préférences des individus pour
des produits déterminés. Ces méthodes supposent
une structuration adéquate du questionnaire et ne sont pas
toujours facile à mettre en oeuvre.
Citons également parmi les méthodes explicatives l'analyse
de la variance plus généralement utilisée en
analyse univariée ou bivariée, et qui permet d'expliquer
une variable qualitative par plusieurs variables numériques.
POUR COMPRENDRE
INTUITIVEMENT :
Lanalyse
multivariée sattache à résumer les données
issues de plusieurs variables en minimisant la déperdition
de linformation. Pour bien comprendre ce que cela signifie,
prenons lexemple de lACP qui sapplique sur trois
variables numériques ou plus.
Lorsque nous sommes en présence de deux variables numériques,
par exemple lâge et la taille, il est aisé dimaginer
une représentation graphique qui restitue toute linformation
: un graphique avec deux axes, lun pour lâge et
lautre pour la taille et un positionnement de chaque point-individu
selon ses valeurs pour chacune des deux variables.
Si lon ajoute une troisième variable, par exemple le
nombre denfants, il faudrait un graphique en trois dimensions,
plus difficile à lire.
En ajoutant une quatrième variable, par exemple le revenu,
nous dépassons les limites de ce que lesprit humain
est capable dappréhender visuellement.
Une analyse telle que lACP ramène le nuage de points
en trois, quatre ou n dimensions à un plan en 2 dimensions.
Cependant, les axes choisis ne correspondent pas à lune
ou lautre des variables mais sont des axes virtuels, issus
de combinaisons entre les variables et calculés pour passer
le plus près possible de tous les points du nuage. Chaque
point est projeté sur ce plan. Le cumul des distances de
chacun des points par rapport au plan ainsi déterminé
correspond au volume dinformations perdues.
Les analyses multivariées disposent dun ensemble dindicateurs
qui permettent de déterminer ce niveau dinformation
manquante et de décider ainsi de la pertinence ou non des
résultats obtenus et de la nécessité dapprofondir
lanalyse en ayant recours aux tableaux numériques complémentaires
et à des visualisations des données sous dautres
angles.
Ainsi, si les deux premiers axes dune ACP ne fournissent pas
une partie écrasante de linformation, il convient de
sintéresser à linformation complémentaire
fournie par le troisième axe. On peut, pour cela, demander
de visualiser le plan formé par les axes 1 et 3 et celui
des axes 2 et 3. On peut aussi lire dans le tableau les coordonnées
des différents points pour les différents axes, afin
de repérer les éventuels écarts importants
(deux points côte-à-côte sur le plan principal
peuvent être très éloignés en réalité).
Comment
lire une ACP :
Les explications
ci-dessous reposent sur une ACP réalisée avec le logiciel
STAT'Mania. Lexemple porte sur une analyse dun certain
nombre de critères sur des magasins situés dans plusieurs
villes. Les questions successives à se poser sont les suivantes
:
1. Combien
d'axes sont intéressants pour notre analyse ?
Pour répondre à cette question, il faut consulter
le tableau des valeurs propres qui accompagne lACP.

Il y a deux manières
pour déterminer le nombre daxes à prendre en
compte :
- Un critère absolu : ne retenir que les axes
dont les valeurs propres sont supérieures à 1 (c'est
le critère de Kaiser).
- Un critère relatif : retenir les valeurs propres
qui dominent les autres, en se référant
au graphique en barres des valeurs propres (screeplot,
chez les Anglo-saxons).
Il est important que les valeurs propres des axes retenus restituent
une bonne proportion de l'analyse. Cela signifie que
la somme de l'inertie expliquée par chacun des axes (3ème
colonne) représente une partie importante de l'inertie totale.
Cette somme est une mesure de la fiabilité de la lecture
des mappings, et donc de la qualité globale explicative de
l'analyse.
2. Quels
sont les points qui nous intéressent ?
Les points les plus intéressants sont généralement
ceux qui sont assez proches d'un des axes, et assez loin de l'origine.
Ces points sont bien correlés avec cet axe et sont les points
explicatifs pour l'axe : Ce sont les points les plus parlants
; leur vraie distance de l'origine est bien représentée
sur le plan factoriel.
Dans le mapping ci-dessous, on voit clairement que Nice est extrêmement
corrélé avec laxe horizontal. De même,
Paris et Reims notamment sont très bien correlés à
laxe vertical.
La corrélation de chaque point sur un axe exprime la qualité
de représentation du point sur l'axe. Elle prend des valeurs
entre 0 (pas corrélé du tout) et 1 (fortement corrélé).
Si cette valeur est proche de 1, alors le point est bien représenté
sur l'axe.

Les points situés
près du centre sont donc généralement mal représentés
par le plan factoriel. Leur interprétation ne peut donc pas
être effectuée avec confiance.
3. Comment
interpreter les proximités ?
On sintéresse donc essentiellement aux points bien
représentés (i.e. situés loin du centre). Si
deux points sont proches l'un de l'autre, il est probable que les
réponses des individus qu'ils représentent soient
très similaires. Il faut cependant se méfier :
il se peut que sur un axe ils soient très proches, alors
que sur un autre ils seront très loins l'un de l'autre. Il
faut donc les regarder par rapport à tous les axes qui ont
été retenus pour l'analyse. S'ils sont bien corrélés
avec l'axe qui les montre proches, alors, on peut conclure quils
sont vraiment proches.
Est-ce qu'on
peut donner un sens réel aux axes du mapping
?
Les axes factoriels sont des axes virtuels issus dune synthèse
entre les variables de l'analyse. Ils n'ont pas nécessairement
un sens précis même si on peut souvent leur trouver
un sens en saidant notamment de la représentation des
variables sur le cercle de corrélation. Rappelons que la
représentation de ce cercle et des variables sur le mapping
de lACP se fait sur une échelle arbitraire, ce qui
implique que la proximité des points variables par rapport
aux points individus na absolument aucun sens.

Dans notre exemple,
nous pouvons constater que les points disponibilité,
compétence et courtoisie sont très
proches du cercle de corrélation et donc très bien
représentés sur le mapping. Langle plutôt
fermé (en partant de lorigine) que forment les points
compétence et disponibilité
indique que ces 2 variables sont assez bien corrélées
entre elles. En revanche, langle quasi droit formé
par compétence et choix indique que
ces deux variables sont indépendantes entre elles.
Le fait que compétence soit proche de laxe
1 indique quil est très bien représenté
par cet axe. Comme il est très éloigné de laxe
2, on peut conclure quil est peu représenté
par cet axe.
En ce qui concerne laxe 2, le point choix est
très bien correlé avec laxe. Le point facilité
lest également mais dans une moindre mesure.
De ces observations, nous pouvons conclure que laxe 1 correspond
plutôt à lappréciation des vendeurs et
notamment de leur compétence alors que laxe 2 correspond
plutôt à lappréciation du magasin et notamment
du choix quil propose.
Quelles autres
conclusions tirer de notre analyse ?
En synthétisant les informations issues des 5 variables analysées,
notre mapping nous montre quil y a beaucoup defforts
à faire en matière daccueil et de renseignement
des clients dans les magasins de Nice, Marseille, Amiens et Toulon.
Ce dernier est également très peu apprécié
en matière de choix.
Les magasins de Paris, de Lyon et de Marseille sont appréciés
de la clientèle pour le choix quils proposent et la
facilité pour trouver les produits recherchés.
Lyon se distingue aussi par lamabilité du personnel
et peut être considéré comme le meilleur magasin
parmi ceux qui ont fait lobjet de lanalyse.
Ces conclusions sont confirmées par lexamen des tableaux
de corrélations et de coordonnées des individus, fournis
par le logiciel danalyse.
Choisir
une méthode d'analyse multivariée :
Les différentes
méthodes danalyse multivariée permettent de
répondre à des problématiques variées.
Le choix dune méthode dépend de lobjectif
initial, des types de variables manipulées mais aussi, de
la forme des résultats obtenus qui peuvent être plus
ou moins faciles à présenter et à expliquer.

Lectures
conseillées :
Lanalyse de données a généré une
littérature abondante mais souvent indigeste ou imprécise.
Voici trois ouvrages clairs et didactiques qui vous permettront
dapprofondir, de manière concrète, vos connaissances
sur lanalyse multivariée appliquée aux études.
Lanalyse
statistique de données (Christian Bialès - Editions
Chotard et associés) :
Ouvrage pédagogique orienté sur les statistiques,
dune clarté remarquable. Bialès aborde tout
lunivers des méthodes utiles en marketing, de lanalyse
univariée aux analyses multivariées, en illustrant
chaque méthode par des exemples pratiques bien choisis.
Etudes de
marché (J.L. Giannelloni et E. Vernette - Edition Vuibert)
:
Ouvrage généraliste complet sur les études,
abordant tout le processus dinvestigation, des réflexions
préalables au rapport final, en passant par les techniques
quantitatives et qualitatives utilisables sur le terrain. La partie
consacrée à lanalyse de données est particulièrement
développée et précise pour ce type douvrage.
Etudes de
marchés et sondage dopinion ( P. Van Vracem et M. Gauthy
Sinéchal - Editions De Boeck Entreprise) :
Ouvrage généraliste sur tous les types détudes
et de sondages, se présentant comme un guide complet pour
la conception, la réalisation et le contrôle des enquêtes.
Les explications sur le traitement et lanalyse statistique
des données sont claires et structurées.
|