Dans le graphique ci-dessous, j’ai placé 100 points dont les coordonnées ont été déterminées de façons aléatoire (En l’occurrence, les abscisses et les ordonnées suivent une loi uniforme). Selon vous, combien de droites pouvons-nous tracer dans ce graphique de telle sorte qu’elles passent, au moins approximativement, par trois points ou plus ?

Pour répondre à cette question, il faut s’entendre sur ce qu’on entend précisément par un alignement approximatif. C’est une notion qui dépend de la surface totale de la zone étudiée, d’une part, et de l’épaisseur de la bande dans laquelle doivent se trouver au moins trois points pour qu’on les considère approximativement alignés.

Prenons un exemple visuel. Ci-dessous, comme précédemment, la zone graphique est un carré de 1 de côté (nous allons noter ça $L = 1$) et nous cherchons à déterminer dans quelles conditions nous pouvons admettre que les points a, b et c sont alignés.

Pour ce faire, l’idée consiste à trouver la droite qui régresse au mieux ce nuage de points (ici, les tirets) puis, de tracer de part et d’autre deux droites parallèles1)Note technique : ce ne sont pas tout à fait les résidus de la régression. Si vous faites ça, plus la pente de la droite de régression sera élevée, en valeur absolue, plus la largeur de la bande sera étroite. qui matérialisent la bande dans laquelle doivent se trouver nos points pour qu’on les considère alignés (les deux traits continus).

Naturellement tout dépend de la largeur de cette bande ($w$). Si, comme si dessus, vous retenez une largeur de bande ($w$) de $\frac{1}{3}$, vous considèrerez que a, b et c sont approximativement alignés. Évidemment, ça n’est pas du tout satisfaisant : pour la suite et avec la même surface graphique ($L^2 = 1$), nous allons plutôt utiliser une largeur de bande de $\frac{1}{1000}$2)C’est équivalent au 200ème de la distance entre le point 0 et le point 0.2 sur les axes..

En faisant tourner le petit algorithme décrit ci-dessus sur mes 100 points, voici ce que ça donne :

J’ai trouvé — tenez-vous bien — 391 alignements. Avec ces 100 points disposés de façon aléatoire et une largeur de bande de $\frac{1}{1000}$, il existe 391 alignements approximatifs de 3 points.

Surprenant n’est-ce pas ?

En réalité et contrairement à ce que nous dicte notre intuition, ça n’a rien d’extraordinaire. Il faut juste réaliser qu’avec juste 100 points ($n$), vous pouvez faire 161 700 combinaisons différentes de trois points ($k$) :

$$ \frac{n!}{k!(n-k)!} $$

C’est-à-dire que les 391 alignements approximatifs que j’ai trouvé ne correspondent, en fait, qu’à environ 0.24% des combinaisons possibles. C’est donc effectivement très peu fréquent mais nous avons tous beaucoup de mal à réaliser le nombre gigantesque de combinaisons qu’on peut faire avec 3 points sélectionnés parmi 100.

De la même façons et même si c’est affreusement long (3 921 225 combinaisons !), on peut aussi faire le même exercice avec des alignements de 4 points. J’en ai 12 (dont 4 qui se chevauchent presque parfaitement), voilà à quoi ça ressemble :

Bref, obtenir un alignement approximatif de 3 points ou plus avec des données aléatoires est beaucoup plus probable qu’on ne le croit. On a même une formule qui permet d’estimer ça en fonction du nombre de total points ($n$), du nombre de points alignés cherché ($k$), de la surface du graphe ($L^2$) et de la largeur de la bande retenue ($w$)3)Bizarrement, j’en obtiens toujours plus que ce que cette formule prédit. Mystère. :

$$ \frac{n!}{(n-k)!k!} \left(\frac{w}{L} \right)^{k-2} $$

C’est approximatif, il en existe parait-il une plus précise, mais le point n’est pas là : si vous cherchez des alignements de points dans des données parfaitement aléatoires — la position apparente des étoiles dans le ciel par exemple — vous en trouverez forcément.

References   [ + ]

1. Note technique : ce ne sont pas tout à fait les résidus de la régression. Si vous faites ça, plus la pente de la droite de régression sera élevée, en valeur absolue, plus la largeur de la bande sera étroite.
2. C’est équivalent au 200ème de la distance entre le point 0 et le point 0.2 sur les axes.
3. Bizarrement, j’en obtiens toujours plus que ce que cette formule prédit. Mystère.