21 nov. 2007

Mensonges & Statistiques (7)

Corrélation et causalité

La figure ci-dessous illustre deux relations possibles entre les variables X et Y. Les lignes en pointillés indiquent l'existence d'une corrélation, et les lignes en trait plein l’existence d’une causalité (la flèche donnant le sens de la causalité). Dans le cas (a), les variations de X expliquent celles de Y : la corrélation observée est donc bien le résultat d’une causalité directe. Mais, comme l’illustre le cas (b), une corrélation peut aussi s’expliquer par l'action d'une "variable de confusion", ici Z, qui influence simultanément X et Y. Auquel cas, la corrélation entre X et Y n’implique pas de causalité de X vers Y.
Source : Fabrice Mazerolle, Statistique descriptive, EJA/Gualino, 2005

Corrélation sans causalité : cherchez la variable cachée

Exemple 1. Dans les communes d’Alsace, il a été observé une étonnante corrélation entre le nombre de naissances et celui des cigognes. Les villages où il est né le plus d’enfants sont ceux où l’on a recensé le plus de cigognes sur les cheminées. Est-ce à dire que les enfants alsaciens ont été apportés par les cigognes ? Bien entendu, il y a ici une variable cachée : le nombre des maisons, ie la taille du village.

Exemple 2. Les services de santé ont observé une corrélation positive entre le taux d’utilisation de crème solaire et le risque de cancer de la peau. Qu’est-ce à dire ? Les crèmes solaires seraient-elles cancérigènes ? En ce cas, la variable cachée est bien sûr « l’exposition au soleil ».

Exemple 3. La plupart des gens en sont convaincus : les antibiotiques fatiguent. De fait, il y a bien une corrélation avérée entre la fatigue du patient et la prise d’antibiotiques. Mais la relation s’explique entièrement par l’intervention d’une variable de confusion : la maladie.

Exemple 4. Si l’on en croit les statistiques de la sécurité routière, la moto est plus dangereuse que la voiture. Par km parcouru, le risque est en effet beaucoup plus grand d’avoir un accident à moto qu’en voiture. Mais n’y aurait-il pas une variable cachée ? Après tout, motards et automobilistes sont très différents quant à l’age, au sexe, et plus encore, à la personnalité. Toutes choses égales par ailleurs, on rencontre plus de casse-cous, de fous de vitesse chez les motards que chez les automobilistes. Rien ne dit qu’une mère de famille tranquille courre plus de risques sur sa moto qu’en prenant sa voiture.

Source des exemples 3 et 4 : Nicolas Gauvrit : Statistiques, méfiez-vous ! Ellipses Paris, 2007, 16 euros.

Le sens de la causalité : démêlez la cause et l’effet

Exemple 1. 70 % des gens meurent au lit... Donc, ne vous couchez pas !

Dans cet aphorisme célèbre de Pierre Dac, la cause et la conséquence sont inversées ! Si je compare, aujourd'hui à midi, les gens couchés et debout, les deux séries ne diffèrent pas seulement par la position horizontale ou verticale : la première comporte davantage de malades.

Daniel Schwarz, "Statistique et vérité", Journal de la Société de statistique de Paris, 2e trim. 1984

Exemple 2. Fêter les anniversaires est bon pour la santé. La preuve ? Les statistiques démontrent que plus on en fête, plus on devient vieux ! (Den Hartog)

Exemple 3. Les victimes de la psychanalyse

Longtemps, la Psychanalyse a rendu les mères responsables de l’autisme infantile. Le Livre Noir de la Psychanalyse donne de nombreux exemples des errements auquel leur foi a pu conduire les psychanalystes. Pour prouver leur thèse, certains n’ont pas hésité à proférer des énormités qu’on peut résumer ainsi : « les mères d’enfants autistes sont souvent dépressives. L’autisme de l’enfant est donc probablement une conséquence de la dépression de la mère ». Il n’est pas venu à l’esprit de ces ignorants que la maladie de la mère pouvait résulter de celle de leur enfant, et du sentiment de culpabilité qu’elles éprouvaient parce que la psychanalyse les rendait responsable de l’état de leur enfant.

Source des exemples 2 et 3 : Nicolas Gauvrit : Statistiques, méfiez-vous ! Ellipses Paris, 2007, 16 euros.

Exemple 4. Les chercheurs du Ministère de l’Education nationale viennent de faire une découverte: les élèves redoublants sont moins bons que les autres ! Plus précisément, les élèves qui ont redoublé réussissent moins bien que ceux n’ayant jamais redoublé ; et c’est d’autant plus vrai que le redoublement est plus précoce. Ainsi, moins de 10 % des élèves qui ont redoublé leur CP obtiennent le Bac, contre 75 % des redoublants de seconde, et 83-84 % des redoublants de Première & Terminale… Et Le Monde de titrer : « Le redoublement accroît le risque d’échec scolaire » ! Il n’est pas venu à l’esprit des auteurs que c’est plutôt l’échec scolaire qui augmente le risque de redoublement…

Education et formation, n° 66, juillet-décembre 2003, Dix-huit questions sur le système éducatif, DEP

Exemple 5. Le mécanisme de « la prophétie créatrice »

Dans son manuel, Robert Merton rapportait l’exemple suivant. « Apparemment, les faits semblent durs et froids. Les Noirs arrivés récemment d’un Sud non encore industrialisé, ignorent la discipline traditionnelle des syndicats. Le Noir est un "briseur de grève". Le Noir, "avec son niveau de vie inférieur", accepte sans discussions de très bas salaires. En un mot, le Noir est un "traître à la classe ouvrière" et l’on doit donc l’exclure des syndicats. Voilà comment notre syndicaliste tolérant mais entêté voit les faits. Il ne se rend évidemment pas compte que lui et les siens ont créé les "faits" qu’il observe. Car définissant la situation (les Noirs en opposition irréductible au principe du syndicalisme) et excluant les Noirs des syndicats, il provoque une série de conséquences rendant difficile, sinon impossible, à nombre de Noirs de n’être pas des "jaunes". Sans travail après la 1ère Guerre mondiale et rejetés des syndicats, des milliers de Noirs n’ont pu résister aux patrons, qui, gênés par la grève, insistaient pour leur ouvrir la porte de l’usine. (...) Les faits ont montré que les Noirs étaient des briseurs de grève parce qu’ils étaient exclus des syndicats (et de toute une série de travaux), et non le contraire.

D’après Robert K. Merton : Eléments de théorie et de méthode sociologique, 1956.

Corrélation et nuages de points

On représente souvent une corrélation sur un diagramme de dispersion. Un nuage de points apparaît, que l’on ajuste souvent au moyen d’une droite de régression. Mais gare aux interprétations hâtives. La corrélation globale ainsi mise en évidence peut n’être due qu’à un petit nombre d’individus.

Exemple. Prélèvements obligatoires et croissance économique

Dans un rapport au Conseil économique et social (« Prélèvements obligatoires : efficacité économique et justice sociale », 2005), Jean Gadrey soutenait qu’ « on ne peut conclure ni à un impact positif ni à un impact négatif (sur la croissance) d’un niveau plus élevé de prélèvements obligatoires, au moins pour les 20 pays les plus développés ». A l’appui de ses dires, il proposait le graphique ci-dessous.

Effectivement, la corrélation est quasi-nulle.

Las ! comme l’indiquait le professeur Jean-Marie Hommet dans une communication à la liste InterEs, "le graphique ci-dessus et son interprétation par les auteurs du rapport est un exemple à suivre ou à ne pas suivre selon qu'on veut éclairer ou manipuler l'opinion publique. Le problème est connu en économétrie sous l'appellation de "problème des données influentes", qui se pose particulièrement dans le cas des "petits" échantillons sur des données en coupes transversales. Nous sommes dans ce cas ». En effet, continue JM Hommet, « quand un échantillon est de "petite" taille, une valeur extrême exerce un effet d'attraction disproportionné sur la droite de régression. Or, il y a bien ici deux valeurs extrêmes dont on peut raisonnablement supposer qu'elles perturbent le comportement de la droite et "faussent" l'estimation des coefficients de détermination et de régression, c'est-à-dire rendent inintelligible l'analyse des écarts à la moyenne ».

Il suffit d’exclure la Norvège et le Japon de l'échantillon pour modifier radicalement la conclusion qu'on peut tirer de ce graphique. Il y a, du reste, de bonnes raisons de ne pas inclure ces deux pays. Le premier bénéficie à plein de la rente pétrolière, le second a connu onze années de déflation pendant la période considérée (1990-2001). Par exemple, « l’exclusion de la seule Norvège suffit pour que le coefficient de régression devienne négatif et statistiquement significatif au seuil de signification de 5%. En revanche, l'exclusion de 15 autres pays sur 19 n'exerce qu'un effet marginal sur la mesure de la corrélation, en deçà d'un écart-type ». On trouvera ci-dessous le graphique construit à partir de l'élimination des données relatives à la Norvège et au Japon. A comparer avec le graphique produit par Gadrey.

Aucun commentaire: