À la fin, ils ne seront plus que deux ! Mais lesquels ?

Puisque le nom de notre prochain président risque de se décider lors du premier tour, la question a son importance.

Pour tenter d’y répondre j’ai développé deux modèles, qui, à partir d’un sondage, calculent la probabilité qu’un candidat soit au second tour.

Pour calculer cette probabilité (entachée d’incertitudes, et qui, comme les sondages ne représente qu’une « photo » de l’opinion à un instant t) je vais utiliser des probabilités bayésienne, ce qui est juste un peu plus sophistiqué que les marges d’erreur habituelles.

l’idée générale est de se dire que le pourcentage de chaque candidat est une variable aléatoire et de calculer la probabilité que le score d’un candidat lui permette de se qualifier. Comme la méthodologie risque d’intéresser un nombre limité de lecteur, nous allons commencer par les résultats et la méthodologie sera sommairement décrite dans la seconde partie de l’article.

Résultats

Pour ce premier article (je compte recalculer pour chaque sondage), j’ai pris la moyenne des sondages depuis le 3 février comme base1)Vous pouvez trouver la liste des sondages sur cet article wikipedia.. Les scores, selon les sondages, des 5 principaux candidats sont disponibles ci-dessous :

Le Pen Macron Fillon Hamon Mélenchon
25% 22% 19% 15% 12%

 

Le tableau suivant résume les chances de chaque candidat d’être au second tour, s’il avait lieu demain, selon chaque modèle 2)Rappelons que ces probabilités ne prennent pas en compte qu’il reste 70 jours.:

  • le « First Glance », qui prends en compte l’incertitude historique, mais pas de biais ;
  • le « Second Glance » qui suppose la même incertitude et en plus un biais ;
  • le modèle « sondeurs », qui est en réalité le même modèle que « First Glance », mais réglé avec les marges d’erreur des sondeurs, et qui sous estime donc l’incertitude réelle.

 

Le Pen Macron Fillon Hamon Mélenchon
First Glance 97,0% 78,0% 23,0% 3,0% 0,0%
Second Glance 95,0% 74,9% 26,1% 3,5% 0,2%
Modèle Sondeurs 100,0% 94,0% 6,0% 0,0% 0,0%

 

Le tableau suivant, lui, prend en compte qu’il reste 70 jours avant l’élection et donc que l’incertitude est encore plus grande que celle utilisée pour le tableau précédent (je tiens à signaler que ces probabilités sont bien plus incertaines que celles du tableau précédent) :

Le Pen Macron Fillon Hamon Mélenchon
First Glance 92,5% 71,3% 29,3% 6,2% 0,7%
Second Glance 91,0% 70,0% 30,6% 7,3% 1,0%

 

Si ce modèle est loin d’être parfait il permet de se faire une idée des chances de chaque candidat de finir au second tour. On voit bien comme l’affaire Penellope a mis à mal les chances de Fillon, et ce modèle nous permet de voir que, si Hamon a une chance de se qualifier, celle-ci reste assez faible. Selon toute vraisemblance, il s’agira bien d’un match a 3. Il nous permet aussi de voir à quel point la position de le Pen est solide. Si l’on croit les sondages, elle est quasiment assurée d’être au second tour, même avec le modèle prenant en compte le plus incertitude.

Le modèle

Pour calculer les probabilité de qualification au second tour pour chaque candidat, j’ai supposé que leur score suivait une loi de Dirichlet. Cette loi aléatoire a la caractéristique de donner des scores aléatoires positifs dont la somme est égale à 1. Elle est donc particulièrement adaptée pour modéliser les scores d’une élection.

Lorsqu’un sondage est publié, on peut calculer les paramètres de cette loi, qui nous permettront de calculer les probabilités qu’un candidat soit présent au second tour3)Cette loi est le « conjugate prior » de la loi multinomiale et peut donc être utilisée pour modéliser facilement les paramètres de celle-ci..

En ne prenant que l’erreur statistique, nous allons surestimer grandement les chances des candidats « en avance » (MLP et Macron dans notre cas) et sous estimer les chances des autres.

Selon l’étude citée ici par Arthur Charpentier (@freakonometrics), que je remercie au passage, la marge d’erreur réelle d’un sondage est grosso modo le double de celle dite « statistique ». Pour le prendre en compte, j’ai divisé par 4 la taille de l’échantillon du sondage (l’erreur diminuant en racine carré de n, pour multiplier l’erreur par 2, il faut diviser la taille de l’échantillon par 4). Toujours en se basant sur cette étude, nous allons pouvoir ajuster la taille de l’échantillon pour tenir compte de l’erreur historique enregistrée à X jours de l’élections.

Une fois les paramètres de la loi de Dirichlet calculés, il suffit de la simuler un très grand nombre de fois (10 million de fois) et de compter le nombre de fois où chaque candidat finit au second tour pour calculer la probabilité qu’il y soit. Ce modèle est le premier modèle considéré, que nous appellerons « First Glance ».

Le deuxième modèle, « Second Glance » a été développé pour tenir compte d’une autre incertitude des sondages, l’existence de biais. Ce biais pourrait être de systématiquement sous estimer un candidat par exemple. Toujours en utilisant le papier cité dans l’article d’Arthur, il s’avère qu’historiquement le biais absolu moyen est de 1%. Pour tenir compte de ce biais, (qu’il est impossible de connaître avant le résultat de l’élection), j’utilise « First Glance » mille fois, mais non plus avec le score du sondage, mais avec un score simulé à partir du sondage et d’une loi de Dirichlet pour tenir compte du fait que le sondage peut être biaisé.

Le « modèle sondeurs » est tout simplement le modèle « First glance » avec un réglage qui ne tient pas compte des erreurs autres que l’erreur statistique, et donc qui prend la vraie taille de l’échantillon.

En résumé « First glance » suppose une incertitude élevée mais pas de biais, « Second Glance » une incertitude élevée avec un biais et donc une incertitude accrue, qui profite aux candidats en retard.

References   [ + ]

1. Vous pouvez trouver la liste des sondages sur cet article wikipedia.
2. Rappelons que ces probabilités ne prennent pas en compte qu’il reste 70 jours.
3. Cette loi est le « conjugate prior » de la loi multinomiale et peut donc être utilisée pour modéliser facilement les paramètres de celle-ci.