(Ce papier doit plus que beaucoup à BayesReality, à son incomparable agilité en matière de probabilités et à sa patience proverbiale.)

Nous lançons deux pièces. Sachant que la première est tombée côté pile, quelle est la probabilité pour que la seconde soit également tombée côté pile ?

C’est assez facile. Nous avons 4 scénarios possibles : PF (i.e. la première pièce tombe côté pile et la seconde face), PP, FP et FF. Sur ces 4 scénarios, seuls les deux premiers (PF, et PP) correspondent au cas où la première pièce tombe sur pile et, sur ces deux scénarios, il n’y en a qu’un dans lequel la seconde pièce tombe aussi sur pile (PP). La bonne réponse est donc 1/2.

C’est ce qui arrive parce que, dans cet exercice, nos deux lancers sont indépendants. C’est-à-dire que la face sur laquelle tombe notre première pièce n’a aucun pouvoir prédictif sur ce qui arrivera à la seconde : c’est toujours du 50/50, notre deuxième pièce à autant de chances de tomber sur pile que sur face.

Pour les experts en probabilités, si on note $A$ l’événement « la deuxième pièce tombe côté pile » et $B$ l’événement « la première pièce tombe côté pile », ça signifie que la probabilité (conditionnelle) de $A$ sachant $B$ est identique à celle de $A$ — c’est-à-dire $\frac{1}{2}$ :

$$ P(A|B) = P(A) = 1/2$$

(En prose : la probabilité pour que la deuxième pièce tombe sur pile sachant que la première est tombée sur pile est égale à la probabilité pour que la deuxième pièce tombe sur pile tout court ; soit 1 chance sur 2.)

Maintenant, introduisons une nouvelle information : nous savons aussi qu’au moins une des deux pièces est tombé côté pile. Sachant que la première est tombée côté pile, quelle est la probabilité pour que la seconde soit également tombée côté pile ?

Si vous y réfléchissez un peu, vous verrez facilement que cette nouvelle information exclue le scénario FF du champs des possibles : si « au moins une des deux pièces est tombée côté pile », elles ne peuvent pas être tombées toutes les deux côtés face. Il nous faut donc exclure le scénario FF.

Nous avons donc maintenant un univers des possibles restreint composé des seuls scénarios PF, PP et FP. Pour les experts, c’est l’union des événements $A$ et $B$ : $ A \cup B$.

Graphiquement :

Or, dans ce nouvel univers de trois scénarios possibles, il y a exactement 2 chances sur 3 pour que $A$ se réalise (PP et FP) :

$$ P(A|A \cup B) = 2/3$$

Mais il n’y a qu’une chance (PP) sur 2 (PF et PP) pour que $A$ se réalise sachant que $B$ s’est réalisé :

$$ P(A|B,A \cup B) = 1/2$$

D’où le paradoxe de Berkson :

$$ P(A|B,A \cup B) < P(A| A \cup B)$$

Parce que nous avons réduit le champs des possibles aux cas où $A$ et/ou $B$ se réalisent, la probabilité conditionnelle de $A$ sachant $B$ est désormais inférieure à la probabilité de $A$. En d’autres termes, deux événements indépendants sont devenus négativement dépendants juste parce que nous ne tenons compte que des cas où au moins un des deux s’est réalisé.

C’est-à-dire que si vous deviez faire des probabilités dans notre univers restreint ($A \cup B$) en ignorant qu’il est biaisé, vous observeriez que la deuxième pièce tombe sur pile dans 2 cas sur 3 mais que, dès que la première tombe côté pile, ça n’arrive plus que dans 1 cas sur 2. Vous en conflueriez alors que ces deux événements négativement sont liés entre eux.

Présenté de cette façon, le paradoxe vous donne sans doute l’impression d’être, au mieux, une curiosité amusante. Pour lui donner un peu plus de corps, considérez les deux variables aléatoires suivantes, $x$ et $y$ :

En l’état, sur ces mille observations, elles ne sont pas du tout corrélées entre elles. Ce sont deux variables complètement indépendantes : les valeurs prises par $x$ (axe des abysses) n’ont pas le moindre pouvoir prédictif sur les valeurs de $y$ (axe des ordonnées).

Mais supposez maintenant que, pour une raison ou une autre, nous définissions un sous-ensemble de ces observations en ne retenant que les 250 valeurs les plus élevées de $x$ ou de $y$. Voici à quoi ça ressemble (en rouge) :

Voilà nos deux variables soudainement corrélées négativement (-49% en l’occurrence). Un observateur en conclurait que plus les valeurs de $x$ sont élevées plus celles de $y$ sont faibles et inversement ; hors, nous le savons, elles ne sont pas du tout liées entre elles.

Ce qui se passe, ici, est en fait très simple : pour rentrer dans notre sélection une observation doit correspondre à une valeur élevée de $x$ ou une valeur élevée de $y$. Certaines observations cumulent ces deux caractéristiques mais pas toutes : on a aussi tout un ensemble d’observations faibles de $x$ (resp. $y$) qui sont rentrées dans notre sélection parce que $y$ (resp. $x$) était élevé. D’où le paradoxe.

L’exemple classique, à l’origine du paradoxe, est une étude ex-post menée en milieu hospitalier sur le lien entre un facteur de risque et une maladie. Sachant que les patients de l’hôpital présentent l’un ou l’autre (ou les deux), on en conclue à tort que ceux d’entre eux qui ne présentent pas le facteur de risque ont plus de chance de développer la maladie qu’un individu pris au hasard dans l’ensemble de la population.