S'ils se
restreignaient encore aux secteurs de l'agronomie et de l'industrie
il y a quelques décennies, les champs d'application des méthodes
d'apprentissage et de prédiction statistiques sont aujourd'hui
en pleine expansion. Nous sommes entrés depuis quelques temps
dans l'ère de l'information, et un nombre croissant d'entreprises
et d'institutions, consacrent beaucoup d'argent et de temps à
collecter et à gérer des données touchant à
leur activité.
Le rôle dévolu aux méthodes statistiques est
de pouvoir convertir les données collectées en une
information opérationnelle fiable, permettant d'éclairer
les prises de décisions.
La grande diversité et la complexité croissante des
problèmes dont l'enjeu est «d'apprendre des données»
a fortement stimulé les sciences statistiques ces dernières
années. Sous l'impulsion des progrès réalisés
dans d'autres domaines tels que la théorie de l'information,
les probabilités ou le calcul scientifique, des développements
considérables ont été réalisés
dans cette discipline, et permettent aujourd'hui de disposer d'une
gamme de techniques toujours plus efficace pour effectuer la tâche
délicate d' «extraire» l'information pertinente
des données brutes.
Si les objectifs du traitement statistique de l'information sont
facilement identifiables et peuvent être regroupés
en trois grandes classes de problèmes, le choix de la technique
de résolution ainsi que sa mise en oeuvre requièrent
souvent les compétences d'un statisticien. Les étapes
de modélisation (formulation mathématique du problème)
et de sélection de la méthode de calcul (la procédure
statistique) conditionnent en effet entièrement les résultats
du traitement. Il est donc généralement crucial que
l'utilisateur final des résultats collabore étroitement
avec un expert dans le domaine de la modélisation statistique
sous peine d'interpréter comme de l'information, les résultats
erronés d'une procédure inadaptée.
On peut dire grosso modo que les méthodes statistiques consistent
toutes plus ou moins à calculer des moyennes, mais selon
la façon dont celle-ci sont calculées, certaines caractéristiques
structurelles des données peuvent soit émerger clairement,
soit disparaître complètement.
Voici quelques exemples issus des trois tâches fondamentales
du traitement statistique de l'information évoquées
ci-dessus illustrant notre propos.
Prédiction
statistique
Le problème de la prédiction statistique consiste
à chercher une règle permettant de prévoir
la valeur d'une variable (régression) ou l'appartenance à
une classe (classification) à partir de variables explicatives.
Ce problème trouve des applications dans de très nombreux
domaines. Une société de crédit cherchera par
exemple à construire une règle de prédiction
permettant de déterminer la probabilité qu'un prospect
ne rembourse pas un crédit à partir de ses caractéristiques
socio-économiques. En médecine, on cherchera à
prévoir la probabilité qu'un patient soit victime
d'un accident cardiaque à partir de ses habitudes alimentaires
et de ses caractéristiques physiologiques
Les méthodes les plus couramment utilisées (essentiellement
la régression linéaire multiple) supposent a priori
une relation rigide entre le phénomène que l'on cherche
à prévoir et les variables censées l'expliquer.
Bien souvent le modèle utilisé, trop simpliste, n'arrive
pas à «capturer» la façon dont telle ou
telle variable explicative influence le phénomène,
et possède des propriétés prédictives
très faibles. De nombreuses alternatives, connues sous le
terme générique de «sélection de modèle»,
existent aujourd'hui : elles consistent à sélectionner
via un algorithme le modèle dont les capacités à
l'égard de la prédiction sont les plus grandes. La
mise en uvre de ce type de méthode par un expert statisticien
s'effectue très rapidement de manière quasi-automatique
à l'aide d'un simple programme informatique.
Analyse/
Synthèse de l'information
Certaines méthodes statistiques ont pour but de résumer/synthétiser
les données avec une perte d'information minimale. Lorsqu'un
grand nombre de caractéristiques quantitatives sont recensées
par exemple, l'Analyse en Composantes Principales (ACP) est la méthode
la plus couramment utilisée pour rechercher les variables
expliquant le mieux les variations observées, la perte d'information
étant contrôlée par un indice de fidélité.
Or, le cadre de validité de l'ACP stipule que les variations
observées soient très régulières (décrites
par une loi normale). Et en dehors de ce cadre assez strict, la
perte d'information résultant d'une telle analyse peut être
beaucoup plus grande que celle suggérée par l'indice
de fidélité. Aussi, l'examen attentif de la validité
de cette procédure peut s'avérer crucial, et conduire
à recourir à une alternative développée
récemment, l'Analyse en Composantes Indépendantes,
dont l'efficacité est avérée lorsque les variations
à analyser sont trop irrégulières.
Clustering
Largement utilisé pour effectuer des segmentations de fichiers
clients ou définir des typologies marketing dans le secteur
marchand, la tâche du clustering est de regrouper les individus
d'une population en classes «homogènes» : étant
attendu que deux individus d'une même classe doivent posséder
des caractéristiques «semblables», «voisines».
Si la mise en uvre des algorithmes de clustering est plus
ou moins automatique (encore que dans ce domaine, les procédures
les plus efficaces soient les plus flexibles, requérant un
paramétrage subtil), le résultat dépend étroitement
de la formulation mathématique du concept de «similitude»,
de «voisinage» sur lequel reposent ces méthodes.
C'est le rôle d'un expert statisticien, que de pouvoir définir
précisément cette notion de proximité.
Recourir
à une expertise
Si les logiciels statistiques et les solutions «packagées»
de data-mining permettent aujourd'hui d'implémenter automatiquement
une gamme relativement large de procédures de façon
de plus en plus conviviale (interfaces graphiques
), ils ne
permettent pas dans la plupart des cas de se dispenser d'une expertise
dans le domaine du traitement statistique de l'information .
Le recours à un expert statisticien permet en effet rapidement
de :
- formuler précisément l'objectif du traitement (résultats
attendus).
- examiner attentivement le contenu des données.
- sélectionner la méthode la plus appropriée
parmi l'éventail des outils développés en statistique.
- garantir la pertinence des résultats du traitement.
Par Aléaris.
Aléaris
Cabinet de conseil spécialisé en modelisation mathématique
et statistique.
Contact : Alexandra Clémençon.
Tél : 01.48.71.86.36
|