Et si les données n’étaient pas que des chiffres ?

Depuis les années 1980, nous rappelle le sociologue Dominique Cardon, dans À quoi rêvent les algorithmes ?, des déluges de chiffres inondent les médias, le monde du travail, la sphère politique. Progressivement, les statistiques sont devenues des indicateurs, servant bien plus à influencer les comportements qu’à représenter le réel, explique-t-il. Il s’agit d’être dans les 10 premiers du classement ou de se maintenir sous les fameux 3% de déficit. Mais, qui connaît le montant de ce déficit, à quoi il se rapporte, comment il est calculé ? Ce n’est plus tant le chiffre qui compte que le fait d’être en dessous. Pour mémoire, c’est sous François Mitterrand que le montant du déficit est devenu un pourcentage, un tour de passe qui a permis de masquer l’énormité du montant, 100 milliards de francs sous le manteau d’un tout petit chiffre, 3%. Tout est une question de « dressage », diraient les chefs dans les émissions de cuisine réalité. Tout est effectivement une question de présentation, de scénarisation.

Dans le monde merveilleux des données, on appelle ça la « datavisualisation », et s’interroger sur la façon dont on nous donne à voir et à lire les données, ça s’appelle la « data literacy », en d’autres termes, la culture de la donnée. Cette discipline émergente s’annonce d’autant plus cruciale que nous entrons collectivement dans un monde piloté de plus en plus automatiquement par des données. Car les données nourrissent des algorithmes qui en grandissant peuvent atteindre le Graal de l’intelligence artificielle (IA), c’est-à-dire un programme suffisamment perfectionné pour pouvoir travailler en tout ou partie sans notre contrôle, voire sans notre compréhension. Ainsi, dans la perspective d’une gouvernance qui s’appuierait largement sur l’IA, on ne peut plus se payer le luxe d’être « data-candide », car comme le chante d’un air caustique l’artiste Albertine Meunier dans son manifeste Datadada : « La data c’est GAFA, la datum c’est Badaboum ». Mais, heureusement, il y a la FING et sa conférence « Data literacy », dont la deuxième édition s’est tenue à Aix-en-Provence les 22 et 23 septembre derniers, réunissant quelques experts mondiaux des données.

« Les données ne peuvent pas produire de la certitude, elles ne peuvent qu’estimer l’incertitude », a déclaré Heather Krause, fondatrice de Datassist , devant notre assemblée ébahie. Une façon moderne de citer Socrate : « La seule chose que je sais, c’est que je ne sais rien », et c’est déjà ça. Même lorsque les données proviennent d’une source aussi officielle que l’ONU, il ne faut pas s’y fier, explique-t-elle, car « les données reflètent toujours le point de vue et l’objectif de la personne qui les a collectées ». Et agréger des sources différentes s’avère digne d’un épisode de Mission Impossible. Il faut ouvrir les données, plaide-t-elle, et regarder ce qu’il y a dedans, faire ce qu’elle appelle une « data biographie » : d’où viennent les données ? Que mesurent-elles précisément ? Qui les a collectées ? Dans quel but ? Comment ont-elles été collectées ? Lorsque l’on comprend leurs biais et que l’on sait ce qu’on cherche à mesurer, les données sont un outil puissant pour évaluer sa propre action et l’améliorer, conclut-elle.

Au-delà de l’analyse, c’est à la représentation graphique des données que s’intéresse l’américaine Amelia McNamara, docteure en statistiques et professeure au Smith College de Northampton. Dans un essai interactif sur la construction d’histogrammes , elle montre comment le paramétrage des graphs influe sur le résultat. Tout dépend en fait de la façon de classer et de regrouper les données collectées, par exemple de la taille des tranches d’âge ou des tranches de revenus, etc. Tous ceux qui ont un jour manipulé des chiffres sont a priori conscients de cette plasticité des données. Pourtant, qui interroge la catégorisation des données en regardant un graph de l’INSEE ? Ou qui n’a jamais clôt une conversation en brandissant un chiffre comme s’il pouvait parler de lui-même ? Ce jetage de données à la figure est à l’origine du programme « #Datagueule », dont l’un des auteurs, Sylvain Lapoix, était présent à la conférence. #Datagueule déconstruit des évidences en choisissant des données qui viennent les contredire ou du moins les mettre en doute. La démarche est jubilatoire, mais pas tout à fait « honnête », car elle produit un contre-discours au discours dominant avec les mêmes armes : le bourrage de chiffres. Cependant, #Datagueule fait œuvre de pédagogie en ouvrant ses sources, donc ses coulisses sur son wiki , donnant la possibilité de vérifier et de critiquer les chiffres récoltés, ce que nous avons ardemment fait lors d’un atelier. « Les données produisent de l’information, et l’information est à la base du savoir », y expliquait Sylvain Lapoix. Mais, plus on ouvre les données, plus on comprend que notre savoir est assis sur des sables mouvants, alors comment reprendre pieds avec les données ?

En faire des pizzas, des cakes ou des « pan con tomate » réplique la chercheuse allemande Susanne Jaschko, fondatrice de Data Cuisine . Elle s’attache à faire des données une expérience à vivre, à en connaître le goût. Car les données n’ont de sens que si elles nous font prendre la mesure de quelque chose. Dans l’un de ses ateliers à Barcelone, raconte-t-elle, le chômage des jeunes a été traduit en un « pan con tomate » avec d’un côté du pain, la purée de tomate, représentant les jeunes ayant un travail et de l’autre la purée d’ail, représentant ceux qui n’en ont pas. Plus on mange le pain, plus la partie aillée grossit, à l’image du chômage des jeunes, rendant l’aliment de plus en plus indigeste. Vivre les données, c’est également ce que nous a proposé le colombien Jose Duarte, fondateur de HandmadeVisuals , un kit de dataviz fait main. Lors de son atelier, il nous a donné les chiffres de population et de superficie de quatre pays : la Chine, les États-Unis, la Russie et le Japon. Il a délimité au sol un carré de 1m sur 1m, représentant 1 km2, puis il nous a collé sur l’épaule des gommettes de couleur. Il a alors appelé une première couleur, la Russie. Une participante est venue se placer dans le carré. Ensuite, il a appelé une seconde couleur, les États-Unis, une petite poignée de personnes l’ont rejointe, ils étaient encore à l’aise dans leur mètre carré. Lorsque Jose Duarte a appelé la troisième couleur, la Chine, l’espace s’est soudain rempli et enfin à l’annonce de la dernière couleur… le Japon, on a pu expérimenter ce que la densité pouvait vouloir dire concrètement, comprendre avec nos sens les différences de densité entre les quatre pays. « Les données ne sont pas que des chiffres », cette parole de José Duarte prononcée la veille en conférence, venait de prendre tout son sens.

Ainsi, même si les données ne représentent pas la réalité, il ne faudrait pas oublier la réalité vécue qui se cache derrière l’abstraction des données. En résumé, il importe de garder en tête ce lien qui existe entre les deux sans jamais perdre de vue que la vérité est ailleurs

 

Publié dans le Digital Society Forum le 29/09/2017