Et si nous prenions nos données pour la réalité ?
Chiffres, statistiques, tableaux de bord : la mesure s’est d’abord généralisée dans le monde de l’entreprise et de l’action publique. Elle sert un objectif de contrôle et une injonction de performance : il faut voir ce qui ne va pas, il faut progresser. Elle est devenue une fin en soi, des bataillons de travailleurs ne font que ça : mesurer, analyser, évaluer.
Aujourd’hui, la mesure nous touche dans notre intimité, elle prend la forme d’une auto-mesure, comme l’illustrent le mouvement quantified self et l’explosion du nombre d’objets connectés. Nous mesurons, analysons et évaluons notre activité et notre environnement au quotidien : pouls, respiration, géolocalisation, nombre de pas, nombre de calories, qualité de l’air, qualité du sommeil, consommation énergétique, quantité de croquettes avalée par nos animaux domestiques, etc.
L’unité de mesure de la mesure, c’est la donnée. La donnée brute. Mais est-elle vraiment brute, sous-entendue neutre ? Peut-on s’y fier comme le préconisent les adeptes du Big Data ? Ceux-là nous disent que c’est le nombre, c’est-à-dire le volume, qui dessine la réalité. Finis l’échantillonnage et les approximations statistiques, nous expliquent-ils : nous pourrons bientôt tout mesurer en temps réel et enfin sortir de la caverne de Platon. Nous pourrons enfin accéder à la vérité.
C’est beau. Mais une donnée n’est jamais « donnée », elle est construite. Et qui se soucie de savoir comment elle a été produite : son contexte, son authenticité ? Qui se soucie de savoir comment les algorithmes traitent les données : quels sont les choix qui ont été faits en amont et qui inéluctablement créent des biais ? Qui se soucie de savoir comment le traitement des données est mis en scène : quels sont les partis-pris esthétiques, éditoriaux et commerciaux de ces représentations de la mesure ? Chaque mesure, analyse, évaluation comporte aussi une part d’interprétation, d’exclusion, d’injustice.
Nous sommes toujours face à une approximation de la réalité. Si le projet de réussir à s’extirper de la caverne de Platon semble une utopie, croire que le Big Data va nous en sortir est clairement une illusion.
Cette foi irrationnelle dans la « data », nous commençons en effet à la percevoir. En témoignent deux sérieuses déconvenues de Google, le fidèle apôtre de cette nouvelle religion dont le slogan pourrait être « In Data We Trust » – plus approprié, me semble t-il, que leur moto bien connu : « Don’t Be Evil ».
Première déconvenue : le Google flue trends. Google a créé un algorithme pour prévoir la propagation de la grippe. S’il a pu parfois se montrer plus performant que les indicateurs classiques, il s’est trompé à de nombreuses reprises. Par exemple, en 2009, il n’a pas anticipé l’épidémié H1N1, tandis qu’à l’hiver 2012 il a réalisé une estimation trois fois supérieure à la réalité de la propagation de la grippe. Les données brutes sur lesquelles Google se base proviennent des requêtes de son moteur de recherche, partant de l’hypothèse qu’une personne faisant une recherche sur la grippe est sans doute malade et que toute personne étant malade va probablement lancer une requête sur la grippe. Visiblement, ce n’est pas toujours exact…
Deuxième déconvenue : le référencement négatif. Aujourd’hui ; apparaître bien placé dans les résultats de recherche de Google est un impératif pour quasiment toutes les entreprises, institutions, associations… Pour hiérachiser les sites, l’algorithme de Google prend en compte différentes données, dont la qualité et le nombre de liens qui pointent vers un site ainsi que l’adéquation des contenus de ce site avec ses mots clés. Des entreprises sont d’abord devenues expertes de l’amélioration du référencement de sites ; aujourd’hui, certaines se spécialisent dans la dégradation du référencement de sites concurrents. Publier par exemple des rafales de contenus inapproriés sur des sites douteux et y insérer un lien vers un site concurrent a pour résultat quasi immédiat un bannissement dudit site par Google. Google se base ici sur des données sans interroger leur sincérité et, lorsqu’il est mis devant l’évidence, peine à reconnaître que son système puisse être manipulé. Avec des conséquences pouvant s’avérer dramatiques pour certaines sociétés dont le site est mis, à tort, au ban de la bonne société connectée.
A force de prendre nos données pour la réalité, nous risquons d’oublier l’essentiel : interroger régulièrement les hypothèses sur lesquelles nous fondons notre vision du monde. Aujourd’hui, la conviction que les données sont neutres, demain peut-être la croyance que l’intelligence artificielle est humaine. Nous risquons alors de vivre une terrible désillusion, comme Theodore Twombly dans Her, qui s’éprend d’une conscience artificielle comme on tombe amoureux d’un être humain, oubliant au bout d’un moment la nature de cet être immatériel, fabriqué et très différent de nous autres.