Du pastafarisme à la fonte des glaces, entre corrélation et causalité

“Le jeu vidéo rend violent”, “la viande est mauvaise pour la santé”, “la réussite scolaire a un impact sur la réussite professionnelle”, “les OGM sont nocifs”,  “l’altitude est reliée à la température”, “le tabagisme provoque des cancers”, “l’Homme est la cause du réchauffement climatique”, “le sport permet de garder la forme” etc etc…

“Le jeu vidéo rend violent”, “la viande est mauvaise pour la santé”, “la réussite scolaire a un impact sur la réussite professionnelle”, “les OGM sont nocifs”,  “l’altitude est reliée à la température”, “le tabagisme provoque des cancers”, “l’Homme est la cause du réchauffement climatique”, “le sport permet de garder la forme” etc etc…

Toutes ces affirmations récurrentes de la vie de tous les jours sont le reflet du fonctionnement de l’esprit humain et particulièrement de notre organe centre de l’information qu’est le cerveau. En effet, à travers nos études, nos lectures, nos loisirs ou même au travail, nous essayons sans cesse, et parfois même de manière inconsciente, d’établir des connections logiques entre les informations qui circulent chaque jour autour de nous.

Cependant, dans un monde où le numérique multiplie et accélère le flux de ces informations, il devient de plus en plus compliqué de mêler les relations de corrélation et de causalité entre les éléments. Par ailleurs, il faut savoir que les affirmations introductives peuvent également différer dans leur formulation, un point déterminant dans les messages qui en découlent. Face à la réalité scientifique, les argumentaires politiques et médiatiques ne sont donc pas toujours à l’abri des erreurs et confusions, tant par l’utilisation et l’interprétation biaisée des statistiques du.de la scientifique que par leur manipulation par le.la communicant.e.

 

Établir des liens entre les éléments, pas si facile…

Simple. Basique. Pas forcément ! Quelle est finalement la différence entre la corrélation et la causalité ?

 

Deux événements A et B seront corrélés si un lien de dépendance existe entre eux.

Pour la corrélation, trois cas se présentent : la corrélation positive (A et B varient dans le même sens), la corrélation négative (A et B varient dans des sens contraires) et l’absence toute bête de corrélation (A et B varient de manière totalement indépendante).

Exemples :

  • Relation entre l’âge d’un individu et sa taille ⇒ corrélation positive à priori (sauf si des problèmes de santé altèrent la croissance de l’individu).
  • Relation entre l’alcool et l’espérance de vie ⇒ corrélation négative à priori (bien que non dangereux pour la santé à petite dose, “à consommer avec modération” bien sûr !, on n’a pas encore prouvé les bienfaits de l’alcool sur la santé).
  • Relation entre le nombre de Coupe du Monde de football remportées par la France (dédicace à toi Zizou) et le nombre de satellites en orbite autour de la Terre ⇒ absence de corrélation (un jour peut-être qui sait ?).

Cependant, deux événements corrélés ne sont pas pour autant sujets à un rapport de cause à effet ! Notre tendance à confondre les deux porte d’ailleurs un nom : l’«effet cigogne».

 

La causalité, elle, se définit par un lien d’implication d’un événement sur un autre.

L’événement A peut tout à fait être la cause de l’événement B (et c’est l’argument que l’on serait le plus à même de proposer), mais l’événement B peut tout autant être la cause de l’événement A. Sur le même principe on peut aussi imaginer que A est la cause de B et à la fois que B est la cause de A, c’est ce qu’on appelle une causalité réciproque. Enfin, il faut savoir que le lien statistique entre A et B peut s’expliquer par la présence d’un troisième événement qui fait varier simultanément A et B ou bien par le hasard.

Exemples :

Le lien entre la pluie et de l’humidité d’une route. S’il pleut, la route sera à priori mouillée (jusque là, pas de surprise), il y a donc bien un rapport de cause à effet entre la pluie (variable A) et l’humidité de la route en question (variable B). Cependant, ce n’est pas parce que la route est mouillée qu’il a forcément plu, votre voisin.e a très bien pu nettoyer son superbe 4×4 crossover tout équipé, et humidifier la route bordant votre maison. Il n’y a donc pas de rapport de cause à effet entre l’humidité de la route (variable B) et la pluie (variable A).

Le lien entre la richesse d’un pays et le niveau d’éducation. Il serait logique de s’imaginer que plus un pays est riche (variable A), plus il pourra consacrer une plus grande partie de son budget à l’éducation et donc l’améliorer en tant que telle (variable B). Cependant la réciproque peut aussi s’appliquer dans le sens où plus un pays a un haut niveau d’éducation plus la population sera active (variable B) et efficace et produira ainsi de la richesse (variable A). On est donc dans le cas d’une causalité réciproque !

Le lien entre les maux de tête et le fait de dormir avec des chaussures. Il n’y a bien évidemment aucun lien de cause à effet entre ces deux variables, elles sont en réalité reliées par un dénominateur commun : l’état d’ébriété, dû à votre dernière soirée déguisée dont le thème n’avait d’ailleurs aucun sens.

Le pastafarisme. Religion parodique plus ou moins officielle dans le monde, elle devenue un phénomène culturel sur Internet depuis 2005. Mettant en avant une divinité créatrice et surnaturelle sous la forme d’un Monstre en spaghetti volant invisible et indétectable (cf image à la une), la religion fonde le cœur de ses croyances dans ses premier.e.s partisan.e.s : les pirates. En effet, afin de dénoncer le phénomène cigogne de certains groupes religieux, selon lequel les catastrophes naturelles planétaires, les famines et les guerres sont causées par un manque d’attention et de respect face aux divinités, Bobby Henderson (créateur du pastafarisme) proclame que le déclin du nombre de pirates est la cause directe du réchauffement climatique (causé par la colère du Monstre). Bien que corrélées, ces deux variables (à la base de l’idéologie pastafariste on le rappelle) n’ont pourtant aucune relation de cause à effet, un moyen pour Henderson de critiquer les modèles religieux classiques qui «se posent en tant que science».

                                                      

Un sujet au cœur des sciences et de la recherche

Beaucoup de gens en société estiment qu’un sondage ou une étude statistique comportant beaucoup de nombres sont des supports scientifiques et donc tout à fait pertinents et justes. Il est vrai que les statistiques sont au cœur du quotidien scientifique mais sont cependant des outils très vite mal maîtrisés et sources de confusions ou de manipulation.

Ainsi, dans le cadre de la recherche scientifique, des conventions et consensus préexistent et permettent d’attester de la pertinence et de la validité du travail d’un.e chercheur.euse.

En voici quelques exemples :

1 – Tout d’abord, l’échantillon d’individus d’une étude doit être représentatif. Suivant le type d’étude, il est nécessaire que la représentation des caractéristiques des individus de l’échantillon (partie de la population étudiée) soit identique ou très proche de la représentation de ces mêmes caractéristiques au sein de la population (d’une ville, d’un pays, du monde). Pour cela, on constitue généralement les échantillons de manière aléatoire et de façon à ce qu’ils soient suffisamment grands.

2 – Pour effectuer des tests statistiques dans des populations (intentions de vote, habitudes de consommation, représentation des groupes sanguins…), des règles (lois de probabilités, approximations) et indicateurs (moyenne, variance, écart-type, covariance, spécificité, sensibilité etc…) existent et permettent non seulement de manipuler correctement les statistiques mais aussi de juger des ensembles de données et tirer des conclusions au regard des hypothèses avancées sur le problème de départ (la question de recherche).

3 – Afin d’interpréter correctement les résultats de tests statistiques effectués, il est d’abord nécessaire qu’ils soient significatifs. Un indicateur particulièrement connu sur ce sujet est la p-value qui permet d’affirmer ou de rejeter les résultats des tests et donc de valider ou non des hypothèses. Les statistiques n’étant pas des sciences 100% objectives, des mécanismes ont été mis en place tels que des seuils de confiance (à 95%, par exemple) pour limiter les erreurs et les biais d’attribution.

 

Je conclurai cet article en rappelant évidemment que la science et les statistiques restent des domaines dont les savoirs ne sont pas exacts et certains, où la connaissance et la recherche sont toujours en quête d’inspiration, d’amélioration et de remises en questions, où l’ouverture d’esprit est une nécessité.

Cependant, c’est peut-être à chacun.e, aussi bien en tant que producteur.rice.s (de données et de résultats) que de « consommateur.rice.s» d’informations (par les médias) que revient une certaine responsabilité vis-à-vis de la production et de la diffusion de savoirs dans le monde.

 

Dans la continuité de cet article je vous recommande grandement :

  • Une excellente vidéo de DirtyBiology (youtubeur/vulgarisateur scientifique français) sur les polémiques autour des moyens de communication des savoirs scientifiques en société :
  • Le site Internet tylervigen.com qui vous propose une infinité de corrélations les plus absurdes les unes que les autres : http://www.tylervigen.com/spurious-correlations
  • Le seul et l’unique site de la Fédération Pastafariste Francophone très complet et de qualité supérieure pour en savoir sur les dogmes religieux pastafaristes !
  • Le site Internet d’Improbable Research d’humour et de satire scientifique qui propose des sujets de recherches des plus absurdes et innatendus : https://www.improbable.com/. C’est lui qui organise le Ig-Nobel “décerné chaque année à dix recherches scientifiques qui paraissent insolites mais qui amènent secondairement à réfléchir” (Wikipédia).

Les sources de cet article :

Partager:

254 vues

COMMENTAIRES



Êtes-vous un robot?