L'approche
statistique
La statistique (du latin « status », état) comprend
deux branches complémentaires : la statistique descriptive
et la statistique inférentielle.
- Les méthodes descriptives ont pour objectif d'apporter
l'image la plus fidèle possible d'une population, à
partir de l'observation des caractères disponibles. Les comptages,
calculs de moyennes et indicateurs d'écart-type et de dispersion
entrent dans ce cadre descriptif. Des méthodes sophistiquées
comme l'analyse factorielle font également partie de cette
branche.
- L'inférence statistique vise à tester des hypothèses,
mettre en évidence des liaisons et effectuer des extrapolations
générales à partir des observations recueillies.
Les tests d'hypothèse, les méthodes d'analyse de la
variance et de régression font partie de la panoplie des
statistiques inférentielles.
La statistique descriptive s'attache à ce qui peut être
déduit des données alors que l'inférence statistique
cherche à déterminer ce que les données induisent.
Toutes les méthodes mises en oeuvre se basent sur des concepts
et des calculs mathématiques rigoureux. Et pourtant
Statistiques bikini
L'idée que l'on peut faire dire ce que l'on veut aux statistiques
est très répandue. Beaucoup de statisticiens s'en
s'ont amusés comme Georges Gallup qui affirmait « Je
peux prouver l'existence de Dieu... statistiquement » ou Aaron
Levenstein pour qui « Les statistiques, c'est comme les bikinis.
Ce qu'elles révèlent est suggestif mais ce qu'elles
dissimulent est essentiel ».
Il est vrai que dans ce domaine, il est facile de tricher par omission
ou tout simplement, de se tromper d'indicateurs ou d'interprétation.
Une entreprise peut se prévaloir d'un salaire moyen de 4.000
€, alors que 8 employés sur 10 reçoivent moins
de 2.000 € et 2 sur 10 plus de 11.000 €. Une étude
peut se focaliser sur le développement important des ventes
d'un produit alors que, parallèlement, les parts de marché
correspondantes sont en train de s'effondrer (sur un marché
en forte expansion).
La suspicion n'est jamais aussi forte que lorsqu'il s'agit de statistiques
officielles. Ainsi, les chiffres du chômage font systématiquement
l'objet de polémiques (plutôt intenses ces derniers
mois). La publication des statistiques sur la criminalité
suscite également les mêmes critiques. Au delà
de la méfiance qu'inspire à tort ou à raison
toute donnée officielle, des chercheurs en sciences sociales
vont jusqu'à réfuter la légitimité des
statistiques comme mode de mesure dans tout ce qui touche les phénomènes
humains. Ce mouvement a été porté depuis les
années 60 par des sociologues comme l'ethno-méthodologue
américain Aaron Cicourel qui affirmait par exemple que les
statistiques sur la délinquance ne reflétaient en
réalité que l'activité de l'appareil répressif
d'état et non la réalité des faits délictueux.
Le raisonnement se base ici sur le fait qu'en la matière
la classification indispensable à toute statistique est forcément
subjective et réductrice. Comme l'indique Alain Desrosières,
directeur de recherches à l'Insee, « le développement
du réseau statistique est lié à celui d'un
système d'institutions. Cet investissement analogue à
celui d'un réseau routier ou ferroviaire, crée des
catégories qui deviennent ensuite incontournables ».
Cela finit par limiter le champ d'investigation des chercheurs et
leur capacité à rendre compte de la réalité
des phénomènes observés. Tout comme la décomposition
d'un tableau en pixels ou d'un livre en mots ne permettent pas d'expliquer
l'uvre, la classification puis l'analyse statistique des phénomènes
et des individus ne nous feraient pas avancer efficacement dans
la compréhension de nos sociétés.
Paradoxe intox
Au delà des représentations partielles ou partiales
des données, le raisonnement statistique peut être
facilement sujet à des écueils dans lesquels même
des utilisateurs au dessus de tout soupçon peuvent tomber.
Le paradoxe de Simpson met en évidence l'un de ces pièges.
Pour l'illustrer, prenons le cas d'une entreprise ayant recruté
durant l'année 30 hommes et 8 femmes. La première
impression est qu'il y a une forte discrimination entre hommes et
femmes (79% vs 21%). Si on sait toutefois que l'entreprise avait
reçu 122 candidatures masculines et 42 candidatures féminines,
on peut dire qu'un homme qui se présente a 25% (20/122) de
chances d'être recruté contre seulement 19% pour une
femme (8/42), ce qui reste anormal. Peut-on accuser cette entreprise
de sexisme et d'hostilité aux femmes ? En réalité,
c'est tout à fait le contraire si on sait qu'il y a eu 2
recrutements différents, l'un en début d'année
et l'autre en fin d'année. Comme le montre le tableau ci-contre,
95 hommes se sont présentés au 1er recrutement et
28 ont été retenus (29%). 6 des 20 femmes candidates
ont également été embauchées (30%).
Lors du 2ème recrutement, 27 hommes et 22 femmes se sont
présentés. 2 hommes et 2 femmes ont été
retenus (soit respectivement 7 et 9% des candidats). On voit bien
dans cet exemple qu'à chacun de ses recrutements, l'entreprise
a embauché plus de femmes que d'hommes en proportion des
candidats alors que l'agrégation des données laissait
à penser le contraire.
L'intuition statistique peut être mise à défaut
dans bien d'autres situations, conduisant à de faux calculs
et/ou de fausses conclusions. Le cas du taxi énoncé
par les prix Nobel d'Economie Kahneman et Tversky illustre par exemple
la propension courante à négliger les probabilités
à priori et à surévaluer ainsi la représentativité
d'un échantillon. Dans cet exemple, dans une ville où
15% des taxis sont bleus (les autres étant jaunes), un piéton
est renversé par un taxi qui prend la fuite. Un témoin
indique que le taxi était bleu. Après l'avoir testé
dans des conditions de visibilité similaires, on calcule
que ce témoin se trompe seulement 1 fois sur 5. Pouvons-nous
affirmer avec certitude, au regard de ces éléments,
que le taxi était effectivement bleu ?
A première vue, on est tenté de répondre oui,
en avançant une probabilité de 80%. En y regardant
de plus près (et en appliquant le théorème
de Bayes), la probabilité pour que le taxi soit effectivement
bleu est de 41% seulement. Il y a donc plus de chances que le taxi
soit d'une autre couleur. En effet, la probabilité a priori
que le taxi soit bleu est de 15%. En tenant compte de la fiabilité
du témoin, la probabilité que le témoin ait
jugé le taxi bleu alors qu'il est vraiment bleu est de 80%.
La probabilité qu'il l'ait vu bleu alors qu'il était
jaune est de 20%. La probabilité a posteriori que le taxi
soit vraiment bleu alors qu'il a été vu ainsi est
de (15%*80%)/(15%*80%+85%*20%)= 41%.

Corrélation n'est pas raison
Il est fâcheux que l'on se trompe dans la mise en uvre
ou l'interprétation des données statistiques. Mais
ce n'est jamais aussi grave que lorsque les erreurs concernent des
domaines scientifiques et médicaux. Or selon des chercheurs
américains près de la moitié des articles publiés
dans des revues scientifiques et faisant appel à des méthodes
statistiques comporte des erreurs d'interprétation, ce qui
est inattendu mais pas forcément incroyable au vu du type
d'erreurs relevées et que lon retrouve fréquemment
dans tous les autres domaines dutilisation de la statistique
et notamment les études marketing.
La principale de ces erreurs est la conclusion abusive de causalité
entre différents événements pour lesquels une
corrélation a été établie. Pourtant,
il est une évidence quaucun utilisateur de statistiques
ne doit ignorer et a fortiori pas un scientifique : deux variables
peuvent être parfaitement corrélées sans pour
autant avoir une quelconque relation ou influence l'une sur l'autre.
Ainsi, il existe une corrélation quasi parfaite entre l'évolution
de l'âge d'un groupe de personnes et le cours de l'Euro depuis
2001 (les deux augmentent régulièrement). On peut
difficilement envisager dans ce cas que l'un des éléments
ait pu influer sur l'autre.
Il arrive aussi que des éléments très corrélés
proviennent d'une cause commune, tout en étant parfaitement
indépendants. Ainsi, le psychologue et sociologue Paul Watzlawick
rapporte que l'on avait retrouvé dans les années 50
une très forte corrélation entre la mortalité
infantile au Japon et la consommation de bière sur la côte
ouest des Etats-Unis. Ces deux phénomènes qui n'avaient
rien à voir l'un avec l'autre étaient en fait dûs
tous deux à la vague de chaleur dans le pacifique qui avait
causé des problèmes sanitaires importants dans un
Japon à peine remis de la 2ème guerre mondiale et
avait par ailleurs poussé les américains à
consommer plus de boissons fraîches.
De nombreuses études tombent dans cet écueil : la
corrélation entre l'utilisation de crèmes solaires
et les cancers de la peau ne signifie pas que les premières
causent les seconds. C'est un troisième facteur, l'exposition
au soleil, qui entraîne probablement les deux.
On voit bien, au delà des erreurs de raisonnement, les manipulations
qui peuvent être effectuées par ce biais : on peut
facilement trouver des corrélations entre la consommation
dun aliment et un caractère positif recherché
(longévité, taux de cholestérol, nombre de
cancers, etc.) sans quil ny ait pour autant une véritable
causalité. Certains scientifiques remettent par exemple en
question (à tort ou à raison) les études ayant
conclu à un lien de causalité concernant la consommation
de vin, dhuile dolive ou plus globalement le régime
méditerranéen dune part et les risques cardio-vasculaires
dautre part.
Alors qui et que croire ? Doit-on rejeter en bloc les statistiques
au nom de labsurde principe de précaution en passe
de devenir la religion dominante des oisifs de la pensée
et des régressionistes en tous genres. Ce serait bien entendu
une erreur de raisonnement au moins égale à celles
évoquées ci-dessus et qui sont là pour témoigner
plutôt de la mauvaise utilisation des statistiques que du
danger intrinsèque de la technique elle-même.
La bonne conclusion est double : les producteurs de statistiques
(scientifiques, chercheurs en sciences humaines, chargés
détudes...) doivent bien connaître les risques
derreurs ci-dessus pour essayer à tout prix de les
éviter en blindant leurs raisonnements à la lumière
des bonnes règles mais aussi du bon sens. Pour leur part,
les destinataires des statistiques (politiciens, économistes,
décideurs en entreprise...) doivent manipuler les données
avec recul, en se rappelant toujours quen statistiques aussi,
le risque zéro nexiste pas.
|