L'Antisophiste: Mensonges & Statistiques (6)

De l'intégrité graphique

Tous les graphiques mentent. Mais ils mentent plus ou moins. La différence entre un bon graphique et un mauvais graphique, c’est son intégrité. Un bon graphique est celui dont le lecteur tire les mêmes conclusions que l'analyste qui a travaillé sur les données brutes. L’intégrité graphique est le résultat de toute une série de décisions prises par son concepteur. Ces décisions concernent principalement les trois questions du filtrage des données, de l’agrégation des données et du désign graphique.

Le filtrage

Le filtrage est l’opération par laquelle on décide d’inclure ou d’exclure tel ou tel groupe de données.

Exemple 1. Dans un article du Monde, daté du 5/02/05, Laurent Mauduit évoque la question du partage de la valeur ajoutée des entreprises. Selon lui, la période récente se serait traduite par « une déformation historique du partage de la valeur ajoutée entre salaires et profits ». S’appuyant sur les données de l’INSEE (cf. graphique 1), il livre ce commentaire : « En résumé, la part des richesses créées par les entreprises et revenant aux salaires est tombée de 70 % à 60 % dans le courant des années 1980. Et la part des profits a fait le chemin inverse, grimpant de 30 % à 40 %. » On peut illustrer ces dires avec le graphique 1 (établi d’après les indicateurs annuels de l’INSEE, dec. 2006).

Le problème est que la série part de 1978. Or, les années 1978-83 furent pour les profits les pires années depuis la guerre: le taux de marge est alors 5 points en dessous de la moyenne des Trente Glorieuses. Pour montrer que les profits sont démesurément hauts, il suffit de faire partir la série du point le plus bas, et le tour est joué. A l’inverse, une série plus longue relativise considérablement l’ampleur de la hausse des profits (graphique 2).

Source: Thomas Piketty, Les hauts revenus en France au 20ème siècle, 2001

Exemple 2. Un autre type de filtrage malhonnête consiste à manipuler l’échelle des ordonnées. Observez attentivement l’évolution du cours de l’action Phantasmo sur le graphique ci-dessous. Phantasmo affiche des résultats en hausse continue, c’est apparemment un excellent placement.

En réalité, l’action Phanstasmo a beaucoup moins augmenté que ne le laisse présumer le graphique. Tout est une question d’échelle…

Source: "Empirical Evaluation in Informatics", Christopher Oezbek, professeur d’informatique à l’université libre de Berlin.

Moralité : du côté des ordonnées, surveillez l’échelle ; du côté des abscisses, prenez garde au départ de la série…

L’aggrégation

L’aggrégation désigne l’opération par laquelle on répartit les données individuelles dans des sous-ensembles. De ce point de vue, la définition des limites n'est pas indifférente. Comme le montre l’exemple ci-après, une représentation cartographique des taux de natalité par Etat aux Etats-Unis ne donne pas les mêmes informations selon que la répartition des Etats se fait par quintiles (chaque groupe représente 20 % des Etats) ou par intervalle égaux (chaque intervalle représente 1,3 pour mille) :

Le premier graphique isole le cas de l’Utah, le second met en évidence un groupe élargi d’Etats du Sud-Ouest, à forte immigration hispanique. Dans les deux graphiques suivants, le filtrage devient franchement malhonnête :

Le premier graphique donne à penser que les taux de natalité sont dangereusement bas, le second qu’ils sont au contraire dangereusement élevés.

Source : Lying with Maps (pdf), by Mark Monmonier, Statistical Science, 2005, Vol. 20, No. 3, 215–222

Le design

Un graphique a vocation à mettre en relief ce qu’a révélé une analyse scientifique des données. Tous les éléments du graphique doivent tendre vers cet objectif.

Les points peuvent être reliés en traçant une courbe, ou pas. Si l’important, c’est la tendance, relions les points. L’espace entre la ligne et la base est parfois colorié ou ombré, mettant alors en évidence l’ampleur des écarts par rapport à la base de référence. Le problème est ici double :

- les données ont-elles réellement une base objective ? Ou bien la base choisie est-elle arbitraire ? D’autre part, l’échelle du graphique indique-t-elle clairement la valeur de la base ?
- la couleur choisie est-elle appropriée ? est-elle neutre ? ou au contraire oriente-t-elle le commentaire ? On sait que des couleurs comme le rouge, l’orange, le jaune, véhiculent des émotions plus fortes que des couleurs comme le bleu ou le vert. Par exemple, le rouge est associé à des choses négatives, comme le sang, le feu, la perte d’argent, etc.

Voici un exemple de graphique équivoque, généré par l’U.S. National Oceanographic and Atmospheric Administration. Il montre l’évolution des températures annuelles moyennes de la terre de 1880 à 2002.

Ce graphique présente deux biais de conception graves :

- les anomalies représentent les écarts annuels à la température moyenne observée sur la période. Cette moyenne est de 15 degrés, mais elle n’est pas mentionnée sur le graphique, la base est ici à zéro. Or une anomalie de 1 degré rapportée à une moyenne de 15 degrés, n’est pas perçue de la même manière qu’une anomalie de 1 degré par rapport à une base de 0 !

- le choix de colorier en bleu les écarts négatifs et en rouge les écarts positifs suggère que l’évolution est alarmante. Le réchauffement est ici décrit comme une mauvaise chose. Mais les données de température ne sont en elles-mêmes ni bonnes ni mauvaises. Une température plus chaude n’est pas nécessairement une moins bonne chose qu’une température plus froide ! De ce point de vue, le graphique ci-après est plus honnête. La tendance est bien mise en lumière au moyen d’une courbe, mais celle-ci est uniformément rouge.

La valeur zéro correspond à la température moyenne de la période 1961 – 1990. Source: Guy Blanchet, Roger Goullier : Le réchauffement climatique entre mythes et réalités, DESCO

Bien évidemment, les données ont été filtrées, pour la bonne raison que nous n’avons pas de données météorologiques avant 1860. Toutefois, il est possible de connaître l’évolution des températures depuis 400 000 ans grâce aux relevés effectués sur la calotte glaciaire antarctique (cf. graphique ci-dessous).

Manifestement, la terre est sujette à des cycles de réchauffement et de refroidissement. Le dernier âge glaciaire a pris fin il y a 15 000 ans. Depuis, les températures ont augmenté de 3°C. A l’aune du temps long, l’élévation de 0.7°C des températures depuis 1880 apparaît comme un épiphénomène.

Source : How to lie with statistical graphics (pdf), Andy Sleeper, Successful Statistics LLC.

nb: sur le sujet, cf. aussi "Les pièges des représentation graphiques : les séries chronologiques", par Jean-Paul Simonnet