'18:59, dimanche
21 mars 2004, les 45 étudiants du Master Informatique Décisionnelle
et Statistique sont devant leurs ordinateurs dans l'hémicycle
du Conseil Régional. Silencieux et tendus, ils attendent
la clôture du scrutin régional et les premiers appels
des 600 volontaires de Lyon 2 répartis dans les bureaux de
vote de leur échantillon.
A 19:16 une petite commune téléphone ses premiers
résultats. Puis les appels arrivent en rafale.
Comme prévu, à 19:30, Ricco Rakotomalala, le professeur
responsable du programme informatique lance l'ordre de calcul des
premières fourchettes. Tout le monde retient son souffle
: 4 mois de préparation vont trouver leur aboutissement.
Les premières estimations ne sont pas transmises à
France-3, car la diffusion de tout sondage est interdite avant 20
heures, mais on voit déjà que les listes Queyranne
et Comparini sont au coude à coude. La fourchette calculée
à 20 heures, est diffusée sur France-3 nationale sous
la signature
« Université Lumière Lyon 2, Sciences Eco. Gestion
». Six heures plus tard, à 2 heures du matin, la Préfecture
confirmera nos estimations. Le pari des étudiants et de leurs
professeurs sera gagné : donner en temps réel et en
direct des estimations fiables des résultats électoraux.
Jean-Hugues Chauchat et Stéphane Lallich, enseignants du
Master, y voient un formidable apprentissage professionnel : «
Les étudiants ont fait la preuve de leur savoir-faire scientifique,
de leurs qualités professionnelles, de leur sens des responsabilités
et du travail en équipe. Tout le monde était stressé
car vers 2 heures du matin, on allait savoir si, oui ou non, toutes
les fourchettes diffusées étaient exactes. Mais c'est
un stress productif car il oblige l'équipe à se surpasser
et à atteindre le zéro défaut. »
De mai à septembre, les 45 étudiants achèvent
leur formation par un stage en entreprise, banques, hôpitaux,
etc., en France, en Europe, aux Etats-Unis et au Canada.
L'Université ayant pour mission de créer et de diffuser
les savoirs et les savoirs-faire ; elle ne cherche pas ici à
protéger ses « secrets de fabrication ». Nous
souhaitons au contraire contribuer à perfectionner les compétences
statistiques des praticiens des études. Nous présentons
donc en détail la méthode utilisée pour donner
en direct et en temps réel sur France-3 des estimations des
résultats des élections régionales des 21 et
28 mars 2004 en Rhône-Alpes. Ceci à partir des premiers
bulletins dépouillés dans un échantillon de
bureaux de vote des huit départements : Ain, Ardèche,
Drôme, Isère, Loire, Rhône, Savoie et Haute-Savoie.
Il faut pouvoir donner très rapidement des résultats
précis et exacts. La sanction de l'exactitude est rapide
puisque la Préfecture de Région donne les résultats
définitifs vers 2 heures du matin, soit 6 heures après
les premières fourchettes diffusées. Ces niveaux de
précision et d'exactitude sont bien supérieurs à
ceux des études classiques en marketing. Mais la réussite
de cet exercice donne de la crédibilité aux instituts
(ou à l'Université) qui s'y risquent.
France-3 a passé un contrat avec l'équipe du Master
Professionnel 'Statistique et Informatique Socio-Economiques' (ex-DESS
SISE) de la Faculté de Sciences Economiques et Gestion de
l'Université Lumière Lyon-2, soit 26 étudiants
et leurs professeurs.
Préparation
de l'échantillonnage
L'ensemble des
bureaux a été stratifié, puis les tirages ont
été réalisés à probabilités
inégales dans chaque strate Nous avons calculé que
cela divise la variance des estimations par 4. Autrement dit, cette
méthode de sondage donne ici la même précision
qu'un échantillon classique 4 fois plus grand. De façon
générale pour constituer un échantillon, il
faut toujours 1) prévoir son utilisation lors du dépouillement,
2) utiliser au mieux les informations connues a priori sur la population-cible.
1) A cause du mode de scrutin, nous avions besoin d'estimer les
résultats dans la Région Rhône-Alpes ainsi que
pour chacun de ses 8 départements. Les strates sont donc
des sous-ensembles des départements.
2) Les études de sociologie électorale montrent la
stabilité géographique des votes : les bureaux qui
votent plus (ou moins) pour un parti, ou une famille politique,
lors d'un scrutin, votent aussi plus (ou moins) pour ce parti aux
scrutins suivant, et ceci même si cette tendance baisse ou
monte globalement. En d'autres termes la structure géographique
(l'ensemble des corrélations) des votes est stable, même
si les niveaux (les moyennes) varient.
Le dernier scrutin avec des candidats identiques sur toute la Région
était la Présidentielle de 2002. Nous avons donc récupéré
les résultats du premier tour de cette élection pour
chacun des 6800 bureaux de vote de Rhône-Alpes. Il y avait
16 candidats, que nous avons regroupés en 6 tendances, compte
tenu de ce que nous savions à l'avance sur les accords électoraux
en préparation : Extrême-Gauche, PC-PS, Verts, Divers,
UDF-UMP, Extrême-Droite. Puis nous avons réalisé
une classification automatique des bureaux dans chaque département.
Le nombre des classes dans un département était à
peu près proportionnel au nombre d'inscrits : deux classes
dans l'Ardèche et huit dans le Rhône.
Disposant de 600 enquêteurs, nous avons constitué ainsi
30 classes-strates en tout, pour viser un échantillon de
20 bureaux par strates. Ceci pour être quasi assuré
d'avoir les résultats d'au moins 3 bureaux par strates au
moment du calcul des premières fourchettes.
A l'intérieur d'une strate politiquement homogène,
le nombre de voix obtenu par une liste donnée dans un bureau
donné est à peu près proportionnel au nombre
d'électeurs inscrits dans ce bureau. Il est donc optimal
de procéder, dans chaque strate, à un tirage des bureaux
avec des probabilités proportionnelles aux nombres d'inscrits.
1.Des strates
mouvantes au cours de la soirée
Au début
de la soirée, on reçoit les résultats partiels
d'un sous-ensemble aléatoire de bureaux de votes ; ensuite
les résultats définitifs de presque tous les bureaux
de l'échantillon prévu, puis, progressivement, les
résultats complets des 150 plus grandes communes de la Région.
Quand une grande commune complète arrive, cela modifie la
stratification car ses bureaux de votes étaient répartis
dans les strates a priori. Il faut donc adapter la stratification
tout au long de l'opération : chaque grande commune qui téléphone
devient une strate (dont le résultat est connu sans aléa),
et les anciennes strates se trouvent réduites d'autant. Les
bureaux de cette commune qui étaient dans l'échantillon
quittent celui-ci et les poids des bureaux qui restent dans l'échantillon
doivent être modifiés. Pour que chaque strate reste
suffisamment représentée dans l'échantillon,
on s'était assuré au départ que chacune des
strates contenait au moins cinq bureaux de petite commune ; dans
le cas contraire certaines grandes communes étaient exclues
de la liste de celles dont les résultats définitifs
étaient sollicités.
2.Estimation
ponctuelle
On estime le
% de chaque liste dans la Région en estimant, d'une part,
le nombre total de voix de la liste et, d'autre part, le nombre
total de voix exprimées.
a.Formule
générale et notations
La population des bureaux de vote de la Région est repartie
en H strates.
h : indice d'une strate, h = 1, 2, 3,
, H
Chaque strate est composée de Nh bureaux de vote (population)
parmi lesquels est choisi un échantillon de nh bureaux de
votes (par tirage à probabilités inégales,
proportionnelles au nombre d'inscrits par bureau).
i : indice d'un bureau de vote dans une strate donnée, i
= 1, 2, 3,
, nh (dans l'échantillon)
Mh : nombre d'inscrits dans la strate h
Mhi : nombre d'inscrits dans le bureau de vote i de la strate h
Mh et Mhi correspondent aux inscrits connus au moment du tirage
de l'échantillon, c'est-à-dire un mois avant le scrutin
( à ne pas confondre avec les inscrits saisis le soir des
élections par téléphone)
Vhi : nombre de votants dans le bureau de vote i de la strate h
vhi : nombre d'enveloppes dépouillées et déjà
communiquées au moment du calcul de lestimation dans
le bureau de vote i de la strate h
Yhi : nombre de suffrages pour la liste Y dans le bureau de vote
i de la strate h
ehi : nombre de voix exprimées pour la liste Y dans le bureau
de vote i de la strate h
Pour estimer le total des voix d'une liste dans une strate «
h », le nombre de voix obtenues est affecté d'un poids
lié :
- au second degrés de tirage (échantillon de bulletins
dans le bureau ; par exemple les 100 premiers bulletins dépouillés)
; si une liste a obtenue 20 voix parmi 100 bulletins, et que ces
100 sont un échantillon des 600 bulletins de l'urne, on extrapole
à (600/100)×20 = 120 voix pour la liste dans ce bureau
;
- au premier degré de tirage (échantillon de bureaux
dans la strate), l'estimation sans biais du nombre total de voix
de la liste dans la strate est le résultat précédent
pondéré par l'inverse de la probabilité de
tirage ; ici la part des inscrits du bureau (Mhi) dans l'ensemble
des inscrits de la strate(Mh) ; si les 120 voix précédentes
sont issues d'un bureau qui regroupe 1/100 ème des inscrits
(et qui avait une chance sur 100 d'être choisi, à chaque
tirage), alors on estime que la liste a obtenu 120×100 = 12000
voix en tout dans la strate. Ceci est l'estimation du total obtenue
à partir de chacun des nh bureaux de l'échantillon
; l'estimation finale pour la strate est la moyenne arithmétique
de ces nh estimations

b. Apports
de données exhaustives
Pour réduire la variance de l'estimateur de R, on utilise
le maximum d'information. Quand une commune communique ses résultats
complets, il n'y a plus d'incertitude pour cette partie de la population.
Les résultats de cette commune sont intégrés
dans l'estimation de Y et on supprime les bureaux de vote de cette
commune des strates auxquelles ils appartenaient.
Les quantités nh* et Mh* décroissent comme suit.
nh* = nh - nombre de bureaux qui appartenaient à la strate
h et qui sont dans les communes complètes
Mh* = Mh - nombre d'inscrits des bureaux des communes complètes
appartenant à la strate h
Supposons que « z » communes fournissent des résultats
exhaustifs.
j : indice d'une commune dont on a les résultats exhaustifs
(tous les bureaux de vote de la commune, y compris ceux qui n'appartiennent
pas à l'échantillon), j = 1, 2, 3,
, z
Yj : nombre de suffrages pour la liste Y dans la commune j

Les modifications
sont identiques pour l'estimation de E et la formule d'estimation
de R reste inchangée.

c. Estimation
de l'abstention
L'estimation du % d'abstention est faite de la même façon
par le quotient des estimations du nombre total de votants, et de
celui des d'inscrits.
taux d'abstention = 1- taux de participation
d. Estimations
pour chaque département
Les strates étant des sous-ensembles de bureaux d'un même
département, on obtient les estimations pour un département
en utilisant les formules précédentes en se restreignant
aux strates de ce département.
3.Construction
des intervalles de confiance à 99%
Pour calculer
des intervalles de confiance, il faut estimer la variabilité
des résultats liée au caractère aléatoire
de l'échantillon. Le Bootstrap est un procédé
très général pour estimer cette variabilité.
Il est fondé sur le « ré-échantillonnage
», c'est-à-dire le tirage d'échantillons fictifs
dans l'échantillon observé. On applique les formules
d'estimation des paramètres d'intérêts (ici
le % de voix ^R de chaque liste, leurs nombres de sièges,
etc.) sur chaque échantillon fictif et on estime ainsi leur
variabilité.
A partir d'un vrai échantillon de 'n' individus tirés
de façon équiprobable et indépendante dans
la population, un « échantillon Bootstrap » est
le résultat de n tirages avec remise dans ce vrai échantillon
; chacun des éléments 'i' de celui-ci se trouve Bi
fois dans « l'échantillon Bootstrap » ; chaque
Bi suit une loi binomiale (n tirages ; probabilité 1/n à
chaque tirage) et leur somme est constante.
Les tirages Bootstrap doivent respecter le plan de sondage qui a
produit l'échantillon observé. Le Bootstrap a été
récemment adaptée aux échantillons complexes
Avec le plan de sondage utilisé ici, on montre qu'un bon
« échantillon Bootstrap » est constitué
de la réunion de (nh-1) tirages équiprobables avec
remise dans chaque strate parmi les nh bureaux de vote ayant téléphoné.
a. Estimations
Bootstrap sans grande commune complète
Bhi : nombre de fois où le bureau i de la strate h est tiré
dans l'échantillon bootstrap. Bhi = 0, 1, 2, 3,
, nh
-1

Les modifications
sont identiques pour l'estimation de Eb. La formule d'estimation
de Rb reste inchangée.
b. Estimations
Bootstrap AVEC des grandes communes complètes
On utilise le bootstrap uniquement pour les strates dont l'information
est incomplète.

Les modifications
sont identiques pour l'estimation de E. La formule d'estimation
de Rb reste inchangée.
c. Calcul
de l'intervalle de confiance
- Par estimation de la variance (le plus adapté pour les
pourcentages)
A partir des 1 000 estimations bootstrap de R on peut calculer la
variance de cet estimateur.
B : nombre d'échantillons bootstrap, B=1 000
b : indice désignant un échantillon bootstrap, b=
1, 2, 3,
, B

- Par troncature
des valeurs extrêmes (le plus adapté pour les sièges)
Réaliser 1000 échantillons bootstrap nous permet d'éliminer
les 1% valeurs extrêmes de la distribution de R (on surprime
les 5 ^Rb les plus grands et les 5 ^Rb les plus petits). Par troncature
on obtient directement l'intervalle de confiance à 99%. L'avantage
est qu'on obtient un IC correct, même si la distribution de
^R est dissymétrique (cas où l'approximation normale
ne peut être utilisée).
4. Expression
de la répartition des sièges
N : nombre de
siège à pourvoir, N = 157 en Rhône-Alpes
Ny : nombre de sièges à pourvoir pour la liste Y
Ry : pourcentage de voix obtenu par la liste Y au 2nd tour
Règles de décision à prendre en compte (au
1er tour si une liste obtient au moins 50% des suffrages, au 2nd
tour sinon) :
- seules les listes ayant récolté plus de 5% des suffrages
obtiennent des sièges
- la liste ayant obtenu le plus grand nombre de suffrage obtient
d'office ¼ des sièges
- les ¾ des sièges restants (117) sont répartis
« à la plus forte moyenne » entre les différentes
listes (y compris la liste majoritaire) proportionnellement au nombre
de suffrages récoltés par chacune
Ce qui nous donne :
·si Ry < 5%, Ny = 0
·si Ry > 5%, Ny = répartition à la plus
forte moyenne de 117 sièges entre les listes ayant plus de
5% des suffrages + 40 sièges pour la liste majoritaire
Expression de la répartition des sièges dans chaque
département
Une fois les sièges attribués à chaque liste,
on répartit les sièges de chaque liste entre les départements
à la proportionnelle à la plus forte moyenne, ce qui
demande plusieurs itérations. Ce calcul est effectué
sur chaque échantillon « bootstrap ».
Le test
du 11 mars

La photo ci-dessus a été prise lors du test réalisé
dans l'hémicycle du conseil régional, elle permet
de visualiser le standard spécialement équipé
pour l'occasion:
50 ordinateurs et autant de téléphones pour permettre
une saisie efficace des résultats provenant des bureaux de
vote présents l'échantillon.
Le test nous a permis de vérifier que tout fonctionnait bien,
et de faire les dernières modifications nécessaires
au bon déroulement des deux soirées électorales.
|