Dimanche aura lieu la primaire pour désigner celui qui aura l’honneur de finir cinquième à l’élection présidentielle. Qui dit vote, dit sondage et qui dit sondage, dit erreurs.

Cet article a pour but d’énumérer les limitations (cette liste ne sera pas exhaustive) auxquelles font face les sondages et d’expliquer leurs impacts.

  1. L’erreur statistique théorique, dont est tirée la marge d’erreur donnée par les journaux. Cette erreur est une erreur minimale incompressible;
  2. L’erreur d’échantillonnage : les personnes interrogées ne sont pas représentatifs des votants;
  3. L’erreur de participation : pour une primaire, l’immense majorité de l’incertitude vient de la participation. Le résultat sera vraisemblablement extrêmement différent s’il y a 1 million ou 3 millions de votants;
  4. Le changement d’avis des sondés : pour la primaire de la droite, 50% des gens votant Fillon auraient décidé le jour même;
  5. Le mensonge des sondés: les sondés n’osent pas admettre qu’ils votent FN ou Trump par exemple.
1. L’erreur statistique théorique

Cette erreur est la seule qui soit mathématiquement mesurable, ce qui explique l’utilisation de marges d’erreur par les médias. Cette erreur est une erreur minimale, ce qui veut dire que si l’institut de sondage fait parfaitement son travail, il n’est pas possible qu’il ait une erreur moyenne inférieure à l’erreur statistique.

En prenant seulement en compte cette erreur, il y a 95% de chance pour que le score du candidat soit le résultat du sondage plus ou moins la racine carré du nombre de personnes interrogées. Soit environ 4.4% pour 500 personnes, la taille moyenne des échantillons pour la primaire de la gauche1)Attention, puisque cette erreur s’applique pour les deux candidats, quand la question est qui sera le gagnant, l’erreur est multipliées par deux. Dans le cas de la primaire, il faut 9% d’avance pour que le candidat puisse être sûr à  95% de gagner. . Notez que plus l’echantillon est grand, plus le sondage est précis, mais une plus grande précision est très chère: il faut multiplier par 4 le nombre de sondés pour diviser par 2 l’erreur.

2. L’erreur d’échantillonnage

C’est cette erreur qui rend les sondages Twitter ou des journaux très peu fiables. La population n’étant pas représentative, le sondage devient biaisé. C’est pour cela que les sondages de Valeurs Actuelles donnaient 98% de gens contre le mariage gay alors que la réalité était plus proche de 45%.

Cette erreur ne diminue pas en interrogeant plus de personnes (contrairement à l’erreur statistique, c’est pour cela qu’un sondage de Breitbart avec 100 000 votants n’a aucune valeur), et il est très difficile de calculer son ampleur. Elle explique les différences entre les sondages internet et téléphoniques, puisque les personnes interrogées ne sont pas les même. L’erreur d’échantillonnage peut être réduite en « redressant » les résultats2)Les instituts de sondages ayant des historiques de sondages et de résultats d’élections, ils peuvent observer les biais de leur echantillon, par exemple trop à droite, et « redresser » le résultat en augmentant le score de la gauche dans cet exemple. Dans le cas de la primaire de gauche, évidemment, on manque un peu d’historique : c’est seulement la seconde..

3. L’erreur de participation

Cette erreur est limitée pour une présidentielle avec traditionnellement une très forte participation, mais très élevée pour une primaire.

Si Sarkozy n’était pas au second tour de la primaire de la droite, c’est aussi parce que la participation était plus haute que prévue.

Cet effet est parfois appelé le différentiel de participation avec des candidats soutenus par des électeurs plus ou moins sûrs de voter. Les candidats avec une base solide profitent d’une faible participation, tandis que les candidats avec de nombreux sympathisants peu motivés profitent d’une participation élevée. Pour la primaire de la gauche, on peut supposer qu’une participation faible favorisera Valls, tandis qu’une forte participation favorisera ses adversaires.

Une des explications de la victoire surprise de Trump est que les blancs de la rust belt se sont mobilisés pour lui, mais que les minorités (majoritairement démocrates) ne se sont pas mobilisées pour Hillary.

Si les instituts peuvent bâtir différents scénarios de participation pour réduire cette erreur, elle reste très difficile à mesurer et peut potentiellement mener à des erreurs significatives.

4. Le changement d’avis des sondés

Un sondage permet d’avoir une idée de l’opinion publique à un instant donné, or l’opinion est fluctuante. La victoire inattendue de Fillon est parfois attribuée à sa bonne performance lors des débats. Même le meilleur sondeur ne peut pas prédire l’avenir. Cette erreur est particulièrement élevée lors des primaires puisque les candidats sont similaires, les électeurs ont tendance à plus changer d’avis.

5. Le mensonge

Pour le mensonge, si l’erreur est difficile à mesurer et induit une incertitude supplémentaire, tant que les gens mentent de manière consistante (un électeur FN en 2012 n’ose pas non plus dire en 2017 qu’il vote FN), la méthode de redressement permet de réduire significativement l’erreur.

 

Avec toutes ces limitations, on est tenté de dire qu’il faut se passer des sondages. Sauf que s’il est facile de dire que les sondages se sont « trompés » sur Trump, le Brexit et Fillon, ils se sont en fait moins trompés que les commentateurs.

En moyenne, l’erreur des sondages a été grosso modo le double de l’erreur statistique sur 1000 personnes. Ce qui veut dire qu’historiquement, le résultat de l’élection était 95% du temps entre +-7% du résultat du sondage. Malheureusement, augmenter le nombre de sondés ne permet que de diminuer l’erreur statistiques, pas les autres types d’erreurs qui ne dépendent pas de l’échantillon, et donc même avec un échantillon de 100 000 personnes, la marge d’erreur ne diminuera pas en dessous de 3.5%.

Pour le Brexit les sondages étaient serrés et tout le monde croyait en un choix du statu quo qui permettrait de gagner de peu. Pour Trump, les sondages nationaux étaient en fait plutôt bons (ils donnaient 3 points de plus à Clinton et elle a fini avec 2 points d’avance) tandis qu’aucun commentateur ne croyait aux chances de Trump; lequel était pourtant donné à 30% par Nate Silver, statisticien utilisant les sondages. Pour Fillon, enfin, puisqu’une immense partie des gens se sont décidés à la dernière minute, il n’était pas possible pour les sondeurs de le mettre devant. Ils ont tout de même vu la dynamique Fillon deux semaines avant le vote.

Les sondages sont donc un outil très utile, tant qu’on n’oublie pas leurs (nombreuses) limitations, et qu’on les interprète rigoureusement.

References   [ + ]

1. Attention, puisque cette erreur s’applique pour les deux candidats, quand la question est qui sera le gagnant, l’erreur est multipliées par deux. Dans le cas de la primaire, il faut 9% d’avance pour que le candidat puisse être sûr à  95% de gagner.
2. Les instituts de sondages ayant des historiques de sondages et de résultats d’élections, ils peuvent observer les biais de leur echantillon, par exemple trop à droite, et « redresser » le résultat en augmentant le score de la gauche dans cet exemple. Dans le cas de la primaire de gauche, évidemment, on manque un peu d’historique : c’est seulement la seconde.