Qui a peur du grand méchant Big Data ?

A force de lire des articles sur la façon dont il pourrait restreindre nos libertés et bafouer nos droits, nous nous mettons en boule tel un chat enragé, toutes griffes et crocs dehors, crachant et grognant pour faire fuir l’envahisseur numérique. Mais quelle horrible vérité le Big Data a t-il à nous révéler pour que cela nous effraie tant ?

Les prédictions les plus alarmistes circulent. Sur la base de croisements de données, nous pourrions être exclus un jour, à notre insu, d’un emploi, de l’accès au crédit, au logement, à une crèche… Mais est-ce vraiment le Big Data qu’il faut blâmer ? Les algorithmes se calibrent en effet sur des données passées et répondent sagement au travail effectué non par des machines mais par des humains comme nous… Ils intègrent par conséquent avec fidélité nos propres stéréotypes et préjugés.

C’était d’ailleurs le cas bien avant l’émergence du Big Data. Dans les années 1980, par exemple, l’école de médecine de l’Hôpital Saint-George en Angleterre a voulu automatiser le processus d’admission des élèves en se basant sur ses données historiques… Et à sa grande et fort mauvaise surprise, elle a ainsi créé un algorithme à la fois « raciste » et « sexiste ». Fallait-il, déjà à l’époque, blâmer la cause du calcul ? Ou plutôt s’interroger sur ce que la mécanique dévoilait de nos pratiques si tragiquement humaines ?

Et si le Big Data, à une échelle bien plus immanquable que celle de cette école de médecine, n’était que le fidèle miroir de nos comportements ? Et s’il ne faisait que nous renvoyer tel un boomerang nos schémas de pensée les plus frileux, discriminants ou carrément réactionnaires ? Par un curieux paradoxe, le Big Data pourrait dès lors nous aider à mieux nous connaître, au-delà de l’image que nous nous faisons de nous.

Prenons le cas de Netflix, ce Deezer du cinéma et des séries qui devrait débarquer en Europe à l’automne prochain et proposer une offre légale de streaming vidéo sur abonnement. Pour faciliter la recherche et l’accès aux contenus sur Netflix, une quarantaine d’humains qualifie les films à partir d’un vocabulaire précis de mille mots clés et évalue leurs intensités dramatiques (degré d’action, de romance, etc.).

A partir de toutes ces données, Netflix a généré 76 897 micro-genres. En fonction des films que nous regardons, l’algorithme est capable de déterminer précisément notre genre de film favori. Par exemple : « TV Dramedies Featuring a Strong Female Lead », genre Orange Is The New Black ; ou « Forbidden-Love Dramas », du type Le Secret de Brokeback Mountain … Non seulement Netflix peut dès lors nous recommander d’autres contenus pertinents, mais surtout le système traduit en mots ce que nous aimons sans que nous en ayons eu au préalable une connaissance aussi précise. Les films sont codés, pour les machines, par des humains pour que les machines décodent en retour les goûts personnels des humains… Résutat : le Big Data traduit notre « vérité », ou du moins l’une de nos « vérités » sans les détours de notre (bonne) conscience !

Et lorsque les humains travaillent de concert avec les machines pour produire un fort niveau de complexité, des événements imprévus peuvent survenir : « Certains pourraient les qualifier d’anomalie (bug) et d’autres de particularité (feature) » souligne Tood Yelling, le créateur du système de recommandation de Netflix. Illustration de ce propos : sur Netflix, l’acteur Raymond Burr (alias Perry Mason dans la série du même nom) est présent de façon disproportionnée dans les micro-genres, raflant la vedette à Bruce Willis ou Robert de Niro. Certes Perry Mason est une série américaine très célèbre des années 1950, mais pas au point d’obtenir une telle position, à moins que ce brillant avocat qui finit toujours par faire éclater la vérité ne soit une belle métaphore de Netflix et de son ambition de nous mettre à nu, ce qui serait donc une blague de geek de la part des créateurs de l’algorithme…

Quid de la version française de Netflix ? Aurons-nous droit à notre « bug made in France », notre Raymond à nous, Raymond Souplex qui face caméra nous donnera dans Les 5 dernières minutes la clé de l’énigme, l’évidence, la connaissance sur nous-même ? Et s’il ne s’agit ni d’un bug ni d’un canular, il ne reste qu’une explication : à mesure que le Big Data nous éclaire sur ce que nous sommes, il génère sa propre part d’ombre et de mystère. Et si c’était l’algorithme lui-même qui nous tendait des pièges ?

Publié sur le Digital Society Forum