Chers lecteurs,

Si vous êtes sur cet article, c’est sûrement que vous avez vu mes « chances d’être au second tour » sur Twitter et que vous voulez en savoir plus sur le modèle que j’utilise.

1 Le modèle

1.1 Les inputs

Avant toute chose, ce modèle n’utilise que des sondages. En général, il est utilisé sur des moyennes de sondages plutôt que sur des sondages individuels, parce qu’ils sont en général plus stable et plus fiables.

Il n’utilise pas d’autres informations comme la solidité du vote (le pourcentage de personnes sûres de voter pour un candidat), des données économiques ou des données venant des réseaux sociaux.

1.2 le modèle

L’idée du modèle est d’utiliser les sondages comme des mesures (incertaines et biaisées)  des scores des candidats au premier tour, et d’utiliser l’incertitude pour calculer les probabilités d’être au second tour.

Pour calculer les probabilités, nous allons utiliser des statistiques bayesiennes et en particulier une loi de probabilité, la  loi de Dirichlet.

Cette loi simule pour chaque candidat un score entre 0 et 1 et la somme des scores est égale à 1. Ce qui est adapté pour une élection puisque la somme des scores atteint 100%.

Avec un sondage, on peut parametriser la loi de Dirichlet pour qu’elle ait des propriétés intéressantes.

Par exemple, on peut faire en sorte que la moyenne des scores simulés soit égale au score donné par le sondage. Si par exemple macron est à 25% et fillon à 20%, il est possible de paramètriser la loi pour qu’en moyenne le score de macron soit de 25% et celui de fillon 20%.

En plus de pouvoir simuler des scores afin que la moyenne soit égale au résultat de sondage, il est possible de contrôler « l’incertitude » (que vous connaissez sous le nom de marge d’erreur) de ces scores avec un paramètre que j’appellerai le « nombre de sondés ».

Dans les articles de presse, la marge d’erreur ne prend en compte que l’erreur statistique, et si nous l utilisions, nous surestimerions grandement les chances des candidats « en avance » (MLP et Macron actuellement).

Pour tenir compte du fait qu’historiquement l’erreur des sondages est grosso modo le double de celle annoncée via la marge d’erreur, le « nombre de sondés » (qui rappelez vous gouverne l’incertitude des scores des candidats) n’est pas mis égal au vrai nombres de sondés mais de manière à capturer l’incertitude historique des sondages. 1)Selon l’étude citée ici par Arthur Charpentier (@freakonometrics), que je remercie au passage, la marge d’erreur réelle d’un sondage est grosso modo le double de celle dite « statistique ». Pour le prendre en compte, j’ai divisé par 4 la taille de l’échantillon du sondage (l’erreur diminuant en racine carré de n, pour multiplier l’erreur par 2, il faut diviser la taille de l’échantillon par 4). Toujours en se basant sur cette étude, nous allons pouvoir ajuster la taille de l’échantillon pour tenir compte de l’erreur historique enregistrée à X jours de l’élections.

Avec cette loi, une fois que nous l’avons parametrisé pour avoir les bonnes moyennes et la bonne incertitude, il suffit de simuler un grand nombre d’élections et de compter le nombre de fois où chaque candidat atteint le second tour pour calculer les probabilités.

Notre modèle, « Second Glance » a été développé pour tenir compte d’une autre incertitude des sondages, l’existence de biais. Ce biais pourrait être de systématiquement sous estimer un candidat par exemple. 2)Toujours en utilisant le papier cité dans l’article d’Arthur, il s’avère qu’historiquement le biais absolu moyen est de 1%.

Pour tenir compte de ce biais, (qu’il est impossible de connaître avant le résultat de l’élection), le modèle simule un grand nombre de sondages à partir de la moyenne de sondage utilisé comme inputs et une loi de Dirichlet avec une incertitude d’ 1% (égale donc au biais moyen), et calcule pour chaque nouveau sondages la probabilités pour chaque candidat d’être au second tour.

Pour donner un exemple, si macron est donné à 25% et le Pen à 26%, plutôt qu’utiliser juste ce sondage, le modèle va calculer la probabilité d’être au second tour pour le Pen 25% et macron 26%, puis le Pen 27% et macron 24% etc…

Pour connaître la probabilité finale pour chaque candidat d’être au second tour, il suffit de faire la moyenne de leur probabilité pour chacun des sondages (qui je le rappelle sont tous simulés à partir de la moyenne de sondage).

Conclusion

Le modèle calcule donc les probabilités d’être au second tour en utilisant la vraie marge d’erreur des sondages (au sens, historique, d’environ 7%) soit le double de la marge d’erreur donnée par les sondeurs. Il essaie aussi de corriger les biais en simulant un grand nombre de sondages à partir d’un seul sondage initial.

Ce modèle n’est pas parfait et les pourcentages ne sont pas exacts au % prêt (ni même à 5% près) mais il permet d’avoir une bonne idée de l’ordre de grandeur des chances des candidats.

 

Petite application:

Ce soir aura lieu le premier débat. L’ occasion de faire un point sur les chances de chaque candidats. Le tableau ci dessous résume la moyenne des derniers sondages et les chances d’être au second tour selon le modèle.

Le Pen Macron Fillon Hamon Melenchon
Sondages 26,6% 25,0% 18,6% 13,1% 11,5%
Probabilité d’être au second tour 95,0% 90,0% 15,0% 1,0% >1%

 

le tableau suivant rappelle les sondages lorsque j’ai lancé ce modèle, le 11 février, ainsi que les chances de chaque candidats à l’époque

Le Pen Macron Fillon Hamon Melenchon
Sondages 11/02 25,0% 22,0% 19,0% 15,0% 12,0%
Probabilité d’être au second tour 11/02 90,0% 70,0% 30,0% 7,0% 1,0%

 

References   [ + ]

1. Selon l’étude citée ici par Arthur Charpentier (@freakonometrics), que je remercie au passage, la marge d’erreur réelle d’un sondage est grosso modo le double de celle dite « statistique ». Pour le prendre en compte, j’ai divisé par 4 la taille de l’échantillon du sondage (l’erreur diminuant en racine carré de n, pour multiplier l’erreur par 2, il faut diviser la taille de l’échantillon par 4). Toujours en se basant sur cette étude, nous allons pouvoir ajuster la taille de l’échantillon pour tenir compte de l’erreur historique enregistrée à X jours de l’élections.
2. Toujours en utilisant le papier cité dans l’article d’Arthur, il s’avère qu’historiquement le biais absolu moyen est de 1%.