|

S'ils se restreignaient encore aux secteurs de
l'agronomie et de l'industrie il y a quelques
décennies, les champs d'application des
méthodes d'apprentissage et de prédiction
statistiques sont aujourd'hui en pleine expansion.
Nous sommes entrés depuis quelques temps
dans l'ère de l'information, et un nombre
croissant d'entreprises et d'institutions, consacrent
beaucoup d'argent et de temps à collecter
et à gérer des données touchant
à leur activité.
Le rôle dévolu aux méthodes
statistiques est de pouvoir convertir les données
collectées en une information opérationnelle
fiable, permettant d'éclairer les prises
de décisions.
La grande diversité et la complexité
croissante des problèmes dont l'enjeu est
«d'apprendre des données» a
fortement stimulé les sciences statistiques
ces dernières années. Sous l'impulsion
des progrès réalisés dans
d'autres domaines tels que la théorie de
l'information, les probabilités ou le calcul
scientifique, des développements considérables
ont été réalisés dans
cette discipline, et permettent aujourd'hui de
disposer d'une gamme de techniques toujours plus
efficace pour effectuer la tâche délicate
d' «extraire» l'information pertinente
des données brutes.
Si les objectifs du traitement statistique de
l'information sont facilement identifiables et
peuvent être regroupés en trois grandes
classes de problèmes, le choix de la technique
de résolution ainsi que sa mise en oeuvre
requièrent souvent les compétences
d'un statisticien. Les étapes de modélisation
(formulation mathématique du problème)
et de sélection de la méthode de
calcul (la procédure statistique) conditionnent
en effet entièrement les résultats
du traitement. Il est donc généralement
crucial que l'utilisateur final des résultats
collabore étroitement avec un expert dans
le domaine de la modélisation statistique
sous peine d'interpréter comme de l'information,
les résultats erronés d'une procédure
inadaptée.
On peut dire grosso modo que les méthodes
statistiques consistent toutes plus ou moins à
calculer des moyennes, mais selon la façon
dont celle-ci sont calculées, certaines
caractéristiques structurelles des données
peuvent soit émerger clairement, soit disparaître
complètement.
Voici quelques exemples issus des trois tâches
fondamentales du traitement statistique de l'information
évoquées ci-dessus illustrant notre
propos.
Prédiction statistique
Le problème de la prédiction statistique
consiste à chercher une règle permettant
de prévoir la valeur d'une variable (régression)
ou l'appartenance à une classe (classification)
à partir de variables explicatives. Ce
problème trouve des applications dans de
très nombreux domaines. Une société
de crédit cherchera par exemple à
construire une règle de prédiction
permettant de déterminer la probabilité
qu'un prospect ne rembourse pas un crédit
à partir de ses caractéristiques
socio-économiques. En médecine,
on cherchera à prévoir la probabilité
qu'un patient soit victime d'un accident cardiaque
à partir de ses habitudes alimentaires
et de ses caractéristiques physiologiques
Les méthodes les plus couramment utilisées
(essentiellement la régression linéaire
multiple) supposent a priori une relation rigide
entre le phénomène que l'on cherche
à prévoir et les variables censées
l'expliquer. Bien souvent le modèle utilisé,
trop simpliste, n'arrive pas à «capturer»
la façon dont telle ou telle variable explicative
influence le phénomène, et possède
des propriétés prédictives
très faibles. De nombreuses alternatives,
connues sous le terme générique
de «sélection de modèle»,
existent aujourd'hui : elles consistent à
sélectionner via un algorithme le modèle
dont les capacités à l'égard
de la prédiction sont les plus grandes.
La mise en uvre de ce type de méthode
par un expert statisticien s'effectue très
rapidement de manière quasi-automatique
à l'aide d'un simple programme informatique.
Analyse/ Synthèse de l'information
Certaines méthodes statistiques ont pour
but de résumer/synthétiser les données
avec une perte d'information minimale. Lorsqu'un
grand nombre de caractéristiques quantitatives
sont recensées par exemple, l'Analyse en
Composantes Principales (ACP) est la méthode
la plus couramment utilisée pour rechercher
les variables expliquant le mieux les variations
observées, la perte d'information étant
contrôlée par un indice de fidélité.
Or, le cadre de validité de l'ACP stipule
que les variations observées soient très
régulières (décrites par
une loi normale). Et en dehors de ce cadre assez
strict, la perte d'information résultant
d'une telle analyse peut être beaucoup plus
grande que celle suggérée par l'indice
de fidélité. Aussi, l'examen attentif
de la validité de cette procédure
peut s'avérer crucial, et conduire à
recourir à une alternative développée
récemment, l'Analyse en Composantes Indépendantes,
dont l'efficacité est avérée
lorsque les variations à analyser sont
trop irrégulières.
Clustering
Largement utilisé pour effectuer des segmentations
de fichiers clients ou définir des typologies
marketing dans le secteur marchand, la tâche
du clustering est de regrouper les individus d'une
population en classes «homogènes»
: étant attendu que deux individus d'une
même classe doivent posséder des
caractéristiques «semblables»,
«voisines». Si la mise en uvre
des algorithmes de clustering est plus ou moins
automatique (encore que dans ce domaine, les procédures
les plus efficaces soient les plus flexibles,
requérant un paramétrage subtil),
le résultat dépend étroitement
de la formulation mathématique du concept
de «similitude», de «voisinage»
sur lequel reposent ces méthodes. C'est
le rôle d'un expert statisticien, que de
pouvoir définir précisément
cette notion de proximité.
Recourir à une expertise
Si les logiciels statistiques et les solutions
«packagées» de data-mining
permettent aujourd'hui d'implémenter automatiquement
une gamme relativement large de procédures
de façon de plus en plus conviviale (interfaces
graphiques
), ils ne permettent pas dans
la plupart des cas de se dispenser d'une expertise
dans le domaine du traitement statistique de l'information
.
Le recours à un expert statisticien permet
en effet rapidement de :
- formuler précisément l'objectif
du traitement (résultats attendus).
- examiner attentivement le contenu des données.
- sélectionner la méthode la plus
appropriée parmi l'éventail des
outils développés en statistique.
- garantir la pertinence des résultats
du traitement.
Par Aléaris.

Aléaris
Cabinet de conseil spécialisé
en modelisation mathématique et statistique.
Contact : Alexandra Clémençon.
Tél : 01.48.71.86.36
|