Qu'est-ce que l'analyse multivariée
L'analyse multivariée recouvre un ensemble de méthodes destinées à synthétiser l'information issue de plusieurs variables, pour mieux l'expliquer.

Il existe deux grandes catégories de méthodes : les méthodes descriptives et les méthodes explicatives.

Les méthodes descriptives
Ces méthodes visent à structurer et simplifier les données issues de plusieurs variables, sans privilégier l'une d'entre elles en particulier. Les méthodes les plus utilisées dans le traitement des enquêtes sont :
- l'analyse en composantes principales (ACP),
- l'analyse factorielle des correspondances (AFC),
- l'analyse des correspondances multiples (ACM),
- la typologie et les méthodes de classification.
Le choix de l'une ou de l'autre de ces méthodes dépend des objectifs poursuivis et du type de données à analyser.

L'analyse en composantes principales
L'ACP s'applique à un ensemble de variables numériques. Elle permet de positionner les individus sur un plan en deux dimensions, en fonction de la proximité de leurs réponses aux questions sélectionnées. Les variables sont également représentées sur le mapping, mais de manière indépendante des points-individus.
L'ACP permet ainsi de mettre en évidence la structuration des réponses en montrant le regroupement des individus selon des combinaisons de réponses aux questions prises en compte.
Les axes du mapping ne correspondent généralement pas à l'une ou l'autre des variables mais à un regroupement optimal de plusieurs variables (ex : revenu et niveau d'études peuvent participer ensemble à la formation d'un axe dans la mesure où elles peuvent être fortement corrélées).
L'ACP est très pratique lorsque l'on travaille sur un ensemble limité et identifié d'individus statistiques. Ainsi, si l'on souhaite analyser des points de vente en fonction de différents critères numériques (surface, personnel, CA, nombre de pièces vendues…), l'ACP permet d'obtenir une cartographie intéressante, qui regroupe les points de vente selon tous les critères retenus et qui permet ainsi de les catégoriser et d'identifier notamment, d'un coup d'œil, les cas hors norme (ex : surface et personnel importants mais CA faible…).
Le tableau de départ de l'ACP comporte les individus en ligne et les variables en colonne, avec, dans chaque case, la réponse numérique de l'individu à la question correspondante. Les questions qualitatives ordinales, c'est-à-dire, celles dont les réponses peuvent être ordonnées entre elles (échelles, fréquences...) peuvent être recodifiées pour entrer dans le tableau de l'ACP.
Cette recodification doit être généralement préparée à l'avance. Toutefois, certains logiciels d'analyse statistique comme STAT'Mania, permettent de réaliser cette recodification en direct, lors du choix des variables à faire entrer dans l'ACP. L'algorithme de l'ACP effectue sur la matrice individus/variables différentes opérations (centrage-réduction des données, diagonalisation de la matrice, extraction de valeurs propres et de vecteurs propres…), en vue de passer du nombre de variables initial à un petit nombre de variables obtenues par combinaison des premières.
Ces nouvelles composantes forment les axes du mapping. La première composante est celle qui résume le mieux les informations contenues dans le tableau. La deuxième apporte un pourcentage inférieur mais complémentaire d'information, et ainsi de suite.
Le mapping d'ACP représente d'abord la première composante (axe horizontal) et la seconde (axe vertical). La somme des pourcentages d'explication des deux composantes renseigne sur le taux de déperdition d'information à partir des données de base. Ainsi, si la première composante résume 62% du tableau et la seconde 21%, l'information représentée sur le mapping est de 83%. L'information « perdue » est donc de 17%.
Les points-individus sont représentés sur le mapping en fonction de leur coordonnées sur les facteurs. Les points proches correspondent à des individus ayant des profils proches, a priori, quant aux réponses aux variables prises en compte dans l'analyse.
Les points-variables sont également représentés sur le mapping, mais de manière complètement indépendante des individus.
Leur représentation indique leur corrélation avec les facteurs, à l'intérieur d'un cercle de rayon 1 défini avec une échelle arbitraire (qui peut être changée à loisir sans affecter la représentation des points-individus).
Ces points variables renseignent sur le sens à donner aux axes. Ainsi, une variable proche du cercle de corrélation (corrélation forte) et proche d'un axe participe beaucoup à la formation de cet axe.
Les angles inter-variables (en partant de l'origine) renseignent sur les corrélations entre elles. Ainsi, deux variables formant un petit angle sont fortement corrélées, alors qu'un angle droit signifierait qu'elles sont indépendantes.

L'analyse des correspondances
L'analyse factorielle des correspondances s'applique à deux variables qualitatives (nominales). Elle permet de positionner sur un mapping les modalités de réponses des deux questions. L'analyse des correspondances Multiples (ACM) généralise l'AFC à un nombre quelconque de variables et permet donc de représenter sur le même mapping les modalités de réponses de plus de deux variables.
Comme pour l'ACP, le but de ces analyses est de dégager des dimensions cachées contenues dans les réponses aux variables sélectionnées, pour faciliter l'interprétation de tableaux pas toujours lisibles au départ.

Mapping d'Analyse Factorielle des Correspondances

Les mappings d'analyse des correspondances affichent donc des points-modalités. Ainsi, on peut positionner une série de marques et afficher sur le même plan des caractéristiques de clients (tranches d'âges, CSP…), ce qui permet de repérer les affinités entre chaque marque et les différentes cibles.
Le tableau de départ de l'AFC simple est un tableau croisé (tableau de contingence) présentant la ventilation d'une population sur les modalités de réponses de deux questions qualitatives (ex : diplôme et profession).
L'ACM quant à elle, part d'un tableau disjonctif complet (tableau de burt) qui présente en ligne les individus et en colonne toutes les modalités des variables qualitatives retenues. Les cases d'intersection comportent la valeur 1 si l'individu répond au critère en colonne et 0 dans le cas contraire.
Comme en ACP, les deux premiers axes fournissent une partie généralement importante de l'information contenue dans le tableau initial (l'axe horizontal étant, par convention, le plus significatif).
La proximité des points renseigne, a priori, sur leurs associations. La disposition des modalités de chaque variable les unes par rapport aux autres aide à donner un sens à chaque axe (ce qui n'est pas toujours évident, à la seule observation du graphique).

La typologie
L'analyse typologique s'applique à tous types de variables (numériques, qualitatives…). Elle permet de répartir la population de l'enquête en un nombre défini de sous-groupes aussi différents que possibles les uns des autres et dans lesquels les individus sont aussi semblables que possible entre eux. Les différentes méthodes d'analyse typologique partent des individus eux-mêmes et essaient de les classer progressivement selon la ressemblance de leurs réponses aux variables sélectionnées.
Il existe plusieurs méthodes d'analyse typologique dont la méthode K-means et la méthode des nuées dynamiques. Leur deux algorithmes sont proches à la différence que le deuxième part d'une sélection d'un noyau d'individus au lieu de prendre des individus isolés pour constituer les partitions de démarrage (ce qui est censé donner de meilleurs résultats).
En final, les calculs itératifs des analyses typologiques aboutissent au classement des individus dans le nombre de groupes défini initialement. L'effectif de ces groupes peut être très différent. La visualisation graphique du résultat de l'analyse typologique est un mapping qui met en évidence les différents groupes. Le groupe central (le plus près du centre des axes) est le moins « typé » par rapport aux variables sélectionnées.
Certains logiciels d'analyse statistique permettent de créer à partir des résultats de la typologie, une nouvelle variable indiquant, pour chaque individu, son numéro de groupe d'appartenance. Cette question peut alors être croisée par les autres variables du questionnaire pour qualifier précisément le profil de chaque groupe.

Les méthodes de classification
Comme la typologie, la classification est une méthode de regroupement des individus selon leurs ressemblances. La différence est que le nombre de groupes n'est pas à fixer a priori et que le résultat est représenté sous la forme d'un arbre de classification.
L'élaboration de cet arbre peut être ascendante (méthode la plus fréquemment utilisée), par regroupements successifs des individus ou descendante, par divisions successives.
L'arbre de classification relie un individu à un autre ou à un sous-groupe d'individu issus eux-mêmes de regroupements. Lorsque l'on coupe l'arbre au niveau du dernier regroupement, on obtient deux groupes d'individus. Si la division est effectuée au niveau de l'avant-dernier regroupement, on obtient trois groupes.
Certains logiciels permettent d'effectuer ce découpage visuellement, sur l'arbre de classification, puis de générer dans le fichier de données la variable de groupe correspondante.
Il faut noter qu'il est également possible d'appliquer une classification pour regrouper des questions plutôt que des individus. On obtient ainsi des groupes de variables dont les profils des réponses se ressemblent (ex : dans une batterie d'items).

Les méthodes explicatives
Ces méthodes visent à expliquer une variable à l'aide de deux ou plusieurs variables explicatives.
Nous verrons ci-dessous les principales méthodes utilisables dans les enquêtes que sont la régression multiple, l'analyse discriminante et la segmentation.

La régression multiple
La régression multiple permet d'expliquer une variable numérique par plusieurs autres variables numériques indépendantes. Elle modélise la relation entre la variable à expliquer et les variables explicatives sous la forme d'une équation de type Y = a + b1X1 + b2X2 + ... où Y est la variable à expliquer, Xn les variables indépendantes, a une constante et bn les coefficients de régression partiels.
On peut ainsi, si le modèle de régression est satisfaisant, prédire les valeurs de la variable dépendante en fonction des valeurs des variables explicatives.
Par exemple, cette application est très intéressante pour évaluer le niveau de satisfaction globale en fonction des appréciations données à différents items intermédiaires (ex : appréciation de l'accueil, du confort du magasin, des prix…). L'utilisation de la régression multiple doit toutefois s'accompagner de plusieurs précautions.
Ainsi, les variables explicatives doivent être indépendantes. Leurs corrélations deux à deux doivent être nulles ou proches de 0. A défaut (si le calcul aboutit quand même, ce qui n'est pas toujours le cas), le modèle obtenu sera imprécis et manquera de stabilité (valeurs très différentes d'un échantillon à l'autre).
Par ailleurs, l'appréciation de la qualité de la régression se fait grâce à plusieurs indicateurs :

- Le premier d'entre eux est le coefficient de détermination multiple R2 ajusté qui calcule le pourcentage de variation de la variable à expliquer dû aux variables explicatives. Ainsi un R2 de 0,35 signifie que les variables indépendantes ne contribuent qu'à 35% de la variation de la variable à expliquer ce qui indique que la qualité du modèle obtenu est relativement faible.

- Le coefficient de corrélation multiple R mesure la liaison entre la variable à expliquer et les différentes variables explicatives : si sa valeur est inférieure à 0,85 la liaison est médiocre et le modèle de régression peu satisfaisant.

- Le test F de Fisher permet d'estimer la qualité de l'ajustement dans la population. La probabilité de l'hypothèse nulle (que les variables indépendantes n'aient aucun un effet sur la variable dépendante dans la population) est donnée par la table de Fisher. Si la valeur du F calculé est supérieure à la valeur du F de la table à un seuil défini (ex : 5%), le coefficient R obtenu est considéré comme significatif à ce seuil, ce qui veut dire que le modèle de régression est valable dans la population. Certains logiciels comme STAT’Mania calculent directement la probabilité de l'hypothèse nulle (i.e. le seuil de confiance à partir duquel l'hypothèse nulle est à rejeter, qui doit donc être très faible pour conclure que l'ajustement est valable).

Pour résumer ces indicateurs de qualité de la régression multiple, un modèle valable et généralisable à la population présente un R2 élevé (proche de 1), un R élevé (proche de 1) et une probabilité de Fisher très faible (proche de 0).

L'analyse discriminante
L'analyse discriminante est une méthode factorielle qui cherche à expliquer une variable qualitative par plusieurs variables numériques. Comme la régression multiple qui permet de mettre en équation une variable numérique à expliquer et des variables numériques explicatives, c'est une méthode prédictive dans la mesure où elle permet de déterminer quelle modalité prendra un individu pour la variable qualitative à expliquer, si on connaît ses réponses aux questions numériques.
Cette propriété permet à l'analyse discriminante d'être appliquée par exemple pour « scorer » un client bancaire en déterminant automatiquement un niveau de risque en fonction de différents paramètres connus (surface financière, revenus, endettement…).
L'analyse discriminante est également utilisée fréquemment en prolongement d'une méthode descriptive comme l'ACP ou la typologie pour apporter des précisions complémentaires aux résultats obtenus (par exemple, repérage des variables qui ont permis de créer les groupes de typologie).
Les résultats de l'analyse discriminante peuvent être visualisés sur un mapping similaire à celui de l'ACP où les points-individus sont réunis en fonction de leur appartenance aux groupes.

La segmentation
La segmentation partage les mêmes objectifs que l'analyse discriminante mais s'applique lorsque les variables explicatives sont qualitatives. Cette méthode consiste à découper une population en sous-groupes homogènes, mais uniquement par rapport à la variable à expliquer.
Le processus de la segmentation est itératif. A chaque étape l'algorithme choisit la variable explicative la plus corrélée avec la variable à expliquer pour réaliser une partition à partir des modalités de la première. Le découpage distingue à chaque étape les deux segments qui présentent la variance inter-segments la plus forte et les variances intra-segment les plus faibles.
Le résultat de la segmentation est une sorte d'arbre de décision, avec un découpage de chaque groupe en deux sous-groupes. La première partition permet d'obtenir les deux premiers groupes. Chacun de ces deux groupes est ensuite divisé en deux à l'aide de la variable permettant la meilleure partition et qui n'est généralement pas la même pour les deux groupes. Le processus se poursuit ainsi avec des interruptions lorsque la taille du groupe tombe en dessous d'un seuil ou quand le découpage optimal expliquerait un faible pourcentage de la variance.
Outre les trois méthodes explicatives d’analyse multivariée que nous avons vues ci-dessus, il convient de citer les méthodes d’analyse des mesures conjointes dont le trade-off, qui permettent d’expliquer les préférences des individus pour des produits déterminés. Ces méthodes supposent une structuration adéquate du questionnaire et ne sont pas toujours facile à mettre en oeuvre.
Citons également parmi les méthodes explicatives l'analyse de la variance plus généralement utilisée en analyse univariée ou bivariée, et qui permet d'expliquer une variable qualitative par plusieurs variables numériques.


POUR COMPRENDRE INTUITIVEMENT :

L’analyse multivariée s’attache à résumer les données issues de plusieurs variables en minimisant la déperdition de l’information. Pour bien comprendre ce que cela signifie, prenons l’exemple de l’ACP qui s’applique sur trois variables numériques ou plus.
Lorsque nous sommes en présence de deux variables numériques, par exemple l’âge et la taille, il est aisé d’imaginer une représentation graphique qui restitue toute l’information : un graphique avec deux axes, l’un pour l’âge et l’autre pour la taille et un positionnement de chaque point-individu selon ses valeurs pour chacune des deux variables.
Si l’on ajoute une troisième variable, par exemple le nombre d’enfants, il faudrait un graphique en trois dimensions, plus difficile à lire.
En ajoutant une quatrième variable, par exemple le revenu, nous dépassons les limites de ce que l’esprit humain est capable d’appréhender visuellement.
Une analyse telle que l’ACP ramène le nuage de points en trois, quatre ou n dimensions à un plan en 2 dimensions.
Cependant, les axes choisis ne correspondent pas à l’une ou l’autre des variables mais sont des axes virtuels, issus de combinaisons entre les variables et calculés pour passer le plus près possible de tous les points du nuage. Chaque point est projeté sur ce plan. Le cumul des distances de chacun des points par rapport au plan ainsi déterminé correspond au volume d’informations perdues.
Les analyses multivariées disposent d’un ensemble d’indicateurs qui permettent de déterminer ce niveau d’information manquante et de décider ainsi de la pertinence ou non des résultats obtenus et de la nécessité d’approfondir l’analyse en ayant recours aux tableaux numériques complémentaires et à des visualisations des données sous d’autres angles.
Ainsi, si les deux premiers axes d’une ACP ne fournissent pas une partie écrasante de l’information, il convient de s’intéresser à l’information complémentaire fournie par le troisième axe. On peut, pour cela, demander de visualiser le plan formé par les axes 1 et 3 et celui des axes 2 et 3. On peut aussi lire dans le tableau les coordonnées des différents points pour les différents axes, afin de repérer les éventuels écarts importants (deux points côte-à-côte sur le plan principal peuvent être très éloignés en réalité).


Comment lire une ACP :
Les explications ci-dessous reposent sur une ACP réalisée avec le logiciel STAT'Mania. L’exemple porte sur une analyse d’un certain nombre de critères sur des magasins situés dans plusieurs villes. Les questions successives à se poser sont les suivantes :

1. Combien d'axes sont intéressants pour notre analyse ?
Pour répondre à cette question, il faut consulter le tableau des valeurs propres qui accompagne l’ACP.

Tableau des valeurs propres qui accompagne l'ACP

Il y a deux manières pour déterminer le nombre d’axes à prendre en compte :
- Un critère “absolu” : ne retenir que les axes dont les valeurs propres sont supérieures à 1 (c'est le critère de Kaiser).
- Un critère “relatif” : retenir les valeurs propres qui “dominent” les autres, en se référant au graphique en barres des valeurs propres (“screeplot”, chez les Anglo-saxons).
Il est important que les valeurs propres des axes retenus restituent une “bonne proportion” de l'analyse. Cela signifie que la somme de l'inertie expliquée par chacun des axes (3ème colonne) représente une partie importante de l'inertie totale. Cette somme est une mesure de la fiabilité de la lecture des mappings, et donc de la qualité globale explicative de l'analyse.

2. Quels sont les points qui nous intéressent ?
Les points les plus intéressants sont généralement ceux qui sont assez proches d'un des axes, et assez loin de l'origine. Ces points sont bien correlés avec cet axe et sont les points explicatifs pour l'axe : Ce sont les points les plus “parlants” ; leur “vraie distance” de l'origine est bien représentée sur le plan factoriel.
Dans le mapping ci-dessous, on voit clairement que Nice est extrêmement corrélé avec l’axe horizontal. De même, Paris et Reims notamment sont très bien correlés à l’axe vertical.
La corrélation de chaque point sur un axe exprime la qualité de représentation du point sur l'axe. Elle prend des valeurs entre 0 (pas corrélé du tout) et 1 (fortement corrélé). Si cette valeur est proche de 1, alors le point est bien représenté sur l'axe.

Mapping représentant les corrélations de chaque point par rapport aux axes

Les points situés près du centre sont donc généralement mal représentés par le plan factoriel. Leur interprétation ne peut donc pas être effectuée avec confiance.

3. Comment interpreter les proximités ?
On s’intéresse donc essentiellement aux points bien représentés (i.e. situés loin du centre). Si deux points sont proches l'un de l'autre, il est probable que les réponses des individus qu'ils représentent soient très similaires. Il faut cependant se méfier :
il se peut que sur un axe ils soient très proches, alors que sur un autre ils seront très loins l'un de l'autre. Il faut donc les regarder par rapport à tous les axes qui ont été retenus pour l'analyse. S'ils sont bien corrélés avec l'axe qui les montre proches, alors, on peut conclure qu’ils sont vraiment proches.

Est-ce qu'on peut donner un sens “réel” aux axes du mapping ?
Les axes factoriels sont des axes virtuels issus d’une synthèse entre les variables de l'analyse. Ils n'ont pas nécessairement un sens précis même si on peut souvent leur trouver un sens en s’aidant notamment de la représentation des variables sur le cercle de corrélation. Rappelons que la représentation de ce cercle et des variables sur le mapping de l’ACP se fait sur une échelle arbitraire, ce qui implique que la proximité des points variables par rapport aux points individus n’a absolument aucun sens.

Représentation des variables sur le cercle de corrélation

Dans notre exemple, nous pouvons constater que les points “disponibilité”, “compétence” et “courtoisie” sont très proches du cercle de corrélation et donc très bien représentés sur le mapping. L’angle plutôt fermé (en partant de l’origine) que forment les points “compétence” et “disponibilité” indique que ces 2 variables sont assez bien corrélées entre elles. En revanche, l’angle quasi droit formé par “compétence” et “choix” indique que ces deux variables sont indépendantes entre elles.
Le fait que “compétence” soit proche de l’axe 1 indique qu’il est très bien représenté par cet axe. Comme il est très éloigné de l’axe 2, on peut conclure qu’il est peu représenté par cet axe.
En ce qui concerne l’axe 2, le point “choix” est très bien correlé avec l’axe. Le point “facilité” l’est également mais dans une moindre mesure.
De ces observations, nous pouvons conclure que l’axe 1 correspond plutôt à l’appréciation des vendeurs et notamment de leur compétence alors que l’axe 2 correspond plutôt à l’appréciation du magasin et notamment du choix qu’il propose.

Quelles autres conclusions tirer de notre analyse ?
En synthétisant les informations issues des 5 variables analysées, notre mapping nous montre qu’il y a beaucoup d’efforts à faire en matière d’accueil et de renseignement des clients dans les magasins de Nice, Marseille, Amiens et Toulon. Ce dernier est également très peu apprécié en matière de choix.
Les magasins de Paris, de Lyon et de Marseille sont appréciés de la clientèle pour le choix qu’ils proposent et la facilité pour trouver les produits recherchés.
Lyon se distingue aussi par l’amabilité du personnel et peut être considéré comme le meilleur magasin parmi ceux qui ont fait l’objet de l’analyse.
Ces conclusions sont confirmées par l’examen des tableaux de corrélations et de coordonnées des individus, fournis par le logiciel d’analyse.


Choisir une méthode d'analyse multivariée :
Les différentes méthodes d’analyse multivariée permettent de répondre à des problématiques variées. Le choix d’une méthode dépend de l’objectif initial, des types de variables manipulées mais aussi, de la forme des résultats obtenus qui peuvent être plus ou moins faciles à présenter et à expliquer.



Lectures conseillées :
L’analyse de données a généré une littérature abondante mais souvent indigeste ou imprécise.
Voici trois ouvrages clairs et didactiques qui vous permettront d’approfondir, de manière concrète, vos connaissances sur l’analyse multivariée appliquée aux études.

L’analyse statistique de données (Christian Bialès - Editions Chotard et associés) :
Ouvrage pédagogique orienté sur les statistiques, d’une clarté remarquable. Bialès aborde tout l’univers des méthodes utiles en marketing, de l’analyse univariée aux analyses multivariées, en illustrant chaque méthode par des exemples pratiques bien choisis.

Etudes de marché (J.L. Giannelloni et E. Vernette - Edition Vuibert) :
Ouvrage généraliste complet sur les études, abordant tout le processus d’investigation, des réflexions préalables au rapport final, en passant par les techniques quantitatives et qualitatives utilisables sur le terrain. La partie consacrée à l’analyse de données est particulièrement développée et précise pour ce type d’ouvrage.

Etudes de marchés et sondage d’opinion ( P. Van Vracem et M. Gauthy Sinéchal - Editions De Boeck Entreprise) :
Ouvrage généraliste sur tous les types d’études et de sondages, se présentant comme un guide complet pour la conception, la réalisation et le contrôle des enquêtes. Les explications sur le traitement et l’analyse statistique des données sont claires et structurées.