C’est la différence entre corrélation et causalité

Alexis Tremblay
Alexis Tremblay

Les données sont un outil essentiel pour comprendre le monde et prendre des décisions éclairées, mais ce n’est pas toujours facile les interpréter de la bonne manière. Par exemple, il peut arriver que deux phénomènes se comportent dans le temps de manière tellement similaire qu’ils semblent l’un est la cause de l’autre. Cependant, cela pourrait être une simple coïncidence ou cela pourrait dépendre d’un troisième événement, qui n’est pas observé, et qui est la cause des deux. Réussir distinguer un simple coïncidence d’une vraie relation cause à effet parmi eux événements peut être complexemais c’est essentiel dans des domaines tels que la santé, la politique et l’économie, où des décisions importantes sont prises sur la base de l’interprétation des données. Dans cet article, nous comprenons ce que signifie que deux phénomènes sont « corrélés », ce que sont les fausses corrélations et l’importance de ne pas confondre les deux phénomènes. corrélation (c’est-à-dire une relation particulière entre les tendances de deux événements) avec le causalité (c’est-à-dire la connexion par laquelle un événement est la cause de l’autre).

Des phénomènes qui semblent liés les uns aux autres, mais ne le sont pas

Commençons par un graphique et une question : Réduire la consommation de glaces réduit-il le nombre de divorces en Alabama ? Évidemment non : le quantité de glace consommée dans une année aux États-Unis n’affecte en rien le nombre de divorces en Alabamamais si nous regardons simplement ce graphique, nous pourrions penser que c’est vrai.

Image

Ce que l’on constate en effet, c’est que la consommation de glaces aux États-Unis et le nombre de divorces en Alabama semblent diminuer de la même manière de 1999 à 2020. Au cours de cette période, en effet, les gens ont mangé de moins en moins de glace (de 16,2 à 12 livres par an) et les divorces ont diminué (d’environ 6 divorces pour 1000 habitants à 4).

Cela pourrait donc nous faire penser à tort que si l’on réduisait la quantité de glace consommée, alors on pourrait aussi réduire les divorces, et cela est dû à l’extrême « similarité » des deux graphiques. Lors de la lecture des données, il est toujours important de garder à l’esprit que des situations comme celle-ci peuvent se produire le hasard, ou – généralement – ​​à cause d’un troisième variable qui relie les deux phénomènes, mais que nous ne prenons pas en considération à ce moment-là.

En statistique, lorsque deux phénomènes varient contextuellement, on dit qu’ils sont variables liées. Voyons ce que cela signifie.

Deux variables sont corrélées lorsqu’elles changent ensemble

Deux variables ou phénomènes Je suis en rapport quand on observe que, à mesure que l’un varie, l’autre varie aussi. La corrélation décrit exactement cela s’orienter d’un variable à changer selon l’autre et s’exprime avec un coefficient de corrélation qui varie entre -1 Et 1 de cette façon:

  • 1 : corrélation positive. À mesure qu’une variable augmente, l’autre augmente également.
  • -1 : corrélation négative. À mesure qu’une variable augmente, l’autre diminue.
  • 0 : aucune corrélation. Les deux variables ont des tendances totalement indépendantes l’une de l’autre.
corrélation positive négative

Par exemple, pensons au nombre de pantoufles de plage vendus et le nombre de personnes attaquées par une méduse: les deux variables augmentent pendant les périodes estivales et diminuent pendant les périodes hivernales, suivant le même comportement. Ces variables seront alors fortement corrélé. Quand on se retrouve face à des phénomènes qui évoluent dans le temps de manière similaire ou à des graphiques comme celui des glaces et des divorces, il est facile à penser que ce n’est pas seulement lui événements ils sont lié entre eux, mais aussi que un des deux être la cause de l’autre. Ceci, cependant, est notre « raccourci mental » et n’est pas toujours vrai.

Corrélatif ne signifie pas nécessairement causal

corrélation entre deux phénomènes, aussi forts soient-ils, n’implique pas forcément celui-là est là cause de l’autre. Dans le cas de la vente de chaussons et des piqûres de méduses, par exemple, les variables sont corrélées, même si l’une n’est pas la cause de l’autre : acheter des chaussons ne nous expose pas au risque d’une attaque de méduse et nous ne ressentons pas l’urgence de le faire. aller acheter des tongs immédiatement après avoir été piqué. Les pantoufles et les piqûres sont donc liées les unes aux autres car elles varient ensemble, mais n’ont pas de relation directe de cause à effet.

causalité de corrélation

Pour montrer la relation de causalité il faut utiliser des techniques inférence causalequi visent à éliminer tout facteur de confusion et laisser la relation de cause à effet comme seul facteur à observer. Quand nous nous trouvons confrontés à des situations comme celle de la glace et des divorces ou des pantoufles et des morsures, nous en parlons corrélations parasites.

Que sont les fausses corrélations

Une fausse corrélation est la situation dans laquelle deux ou plusieurs variables Je suis en rapportmais Pas relié par un relation causale. Cela peut arriver à cause d’un coïncidence ou la présence d’un troisième facteur non pris en compte, le « facteur de confusion« .

L’exemple de divorces et les dieux glaces représente parfaitement la situation dans laquelle deux variables ont un indice de corrélation très élevée (0,967), mais ils n’ont pas pas de lien de causalité. Sur le site Corrélation fallacieuse il existe de nombreux autres exemples curieux, comme la relation entre le nombre de brasseries aux États-Unis et l’énergie solaire générée au Pérou (corrélation = 0,978) ou le nombre de licences en psychologie avec le nombre de jardiniers dans l’Utah (corrélation = 0,990). ). De toute évidence, ces corrélations ne sont qu’un coïncidence.

Toutefois, en ce qui concerne les piqûres de méduses et la vente de pantoufles, la corrélation n’est pas une coïncidence, mais dépend d’un facteur de confusion, c’est-à-dire le facteur qui relie les deux variables : aller à la mer. En fait, les deux variables dépendent de cette troisième variable : si je vais à la plage, j’ai besoin de tongs et plus je passe de temps dans l’eau, plus il est probable qu’une méduse me pique. Il s’agit d’une variable externe qui influence les deux événements, créant un corrélation sans causalité directe.

Savoir distinguer corrélation et causalité, sans tirer de conclusions hâtives, peut nous aider à prendre des décisions importantes dans des domaines cruciaux tels que la médecine, la politique et l’économie.