Cet exercice de statistiques posté aujourd’hui sur Twitter est une excellente occasion d’introduire trois notions fondamentales : la sensibilité d’un test, sa spécificité, ainsi que la notion d’oubli de la fréquence de base1)Je remercie d’ailleurs @PicSouWiki d’avoir mis ce sujet sous licence CC0 (domaine public) afin de nous permettre de le réutiliser..

La sensibilité d’un test est sa probabilité de détecter correctement ce qu’il cherche à trouver. Ici, elle est très élevée : le test a 99% de chance de détecter qu’une personne est effectivement terroriste, ce qui est au niveau des meilleurs tests médicaux, largement au-delà de ce qui peut être fait dans le domaine judiciaire.

La spécificité, elle, mesure la capacité d’un test à ne pas produire de faux positifs2)On parle aussi d’erreur de type II, l’erreur de type I consistant ici à ne pas identifier quelqu’un qui est réellement terroriste, c’est à dire, dans notre exemple, détecter comme terroriste quelqu’un qui ne l’est pas. Le test présenté dans cet exemple est incroyablement spécifique, avec une probabilité d’erreur de type II de seulement 0.1%. Les meilleurs tests, même purement chimiques, ont du mal à approcher ce type de valeur, dans le domaine judiciaire cela relève de l’utopie.

La fréquence de base est simplement la probabilité qu’un individu pris au hasard dans la population fasse partie du groupe que nous recherchons. Elle est ici faible, puisque seul un citoyen sur 10 000 est un terroriste.

A première vue, cet algorithme de détection est excellent et devrait permettre de détecter la majorité des terroristes, pensez-vous ? C’est là que se niche l’erreur. Vous oubliez cette fréquence de base très basse. Observons ce qui se passe si ce test est appliqué à l’ensemble de la population française3)J’arrondis le chiffre de la population à 70MM pour simplifier, cela ne change rien..

Population : 70 000 000
Nombre de terroristes : 70 000 000 / 10 000 = 7 000
Nombre d’innocents : 70 000 000 – 7 000 = 69 993 000

Notre test (impossiblement bon) va détecter 99% * 7 000 = 6 930 des terroristes, en laissant passer 70 à travers les mailles du filet, ce qui parait intéressant, jusqu’à ce que l’on remarque qu’il va aussi détecter 0.1% des 69 993 000 innocents, soit 69 993 innocents.

Ce test a beau être excellent, à la fois du point de vue de la spécificité et de celui de la sensibilité, il échoue dramatiquement lorsqu’il est appliqué à une population où la fréquence de base du phénomène à détecter est extrêmement basse. En effet, de manière contre-intuitive, plus de 90% des personnes détectées comme terroristes sont en fait innocentes : la disproportion des populations d’origine a raison du meilleur test imaginable.

Ne pas prendre en compte ce phénomène et faire confiance à ce très bon test se nomme oubli de la fréquence de base. C’est d’ailleurs ce phénomène qui explique l’opposition des statisticiens à la mise en place d’outils de surveillance, mais aussi le fait que le dépistage du cancer du sein n’est pas recommandé pour les femmes jeunes : les conséquences des biopsies chez de nombreuses femmes détectées à tort seraient supérieures aux vies sauvées par les cancers réellement détectés.

References   [ + ]

1. Je remercie d’ailleurs @PicSouWiki d’avoir mis ce sujet sous licence CC0 (domaine public) afin de nous permettre de le réutiliser.
2. On parle aussi d’erreur de type II, l’erreur de type I consistant ici à ne pas identifier quelqu’un qui est réellement terroriste
3. J’arrondis le chiffre de la population à 70MM pour simplifier, cela ne change rien.