Les algorithmes du big data nichés dans les sites internet que nous parcourons se nourrissent de nos données personnelles. En retour, l'utilisateur attend d'être guidé et orienté dans un tourbillon perpétuel d'informations non-triées. Nous allons mettre en lumière que la justesse et la pertinence des résultats de ces algorithmes de calcul ne devrait pas être l'unique préoccupation des data-scientists chargés de leur mise en oeuvre. La loyauté de ces procédés de calcul ainsi qu'un traitement équitable de nos traces numériques doit constituer un objectif tout aussi central.

Des algorithmes prédictifs présents dans tous les secteurs

Les algorithmes auto-apprenants du Big Data trient et recoupent sans relâche les fragments d'information laissés à leur portée. En ce sens, ces algorithmes sélectionnent, hiérarchisent et révèlent. Les spécialistes des Data science évoquent l'art de "faire parler la donnée", pas une activité humaine n'échappe à leur l'emprise : médecine, industrie, services, agriculture, transport, sport, production artistique et culturelle deviennent le terrain de jeu de ces programmes informatiques.

Ces algorithmes sécrètent des prédictions qui concernent toutes les sphères de notre vie : du travail aux loisirs en passant par la vie amoureuse : Faut-il embaucher cet individu ? Ce patient va-t-il développer un cancer ? Comment choisir les contacts parmi les clients d'un site de rencontre afin d'obtenir un fort taux de compatibilité ?

Des calculs qui se nourrissent du comportement de la foule

Ces algorithmes peuvent prendre différentes formes, une des plus connues étant le moteur de recommandation d'un site internet. Ces procédés de prescription automatique sont à l'affut d'internautes ayant des actes similaires et comparables (clics, historique d'achat, heures de connection, contenu de discussions sur les réseaux sociaux, profils appréciés).

C'est l'approche dite du crowd-sourcing qui consiste à proposer à chacun les choix de l'autre : les internautes dont l'attitude est proche devraient apprécier des produits semblables aux nôtres. La foule résout le problème elle même en fixant la norme des comportements. L'algorithme n'a plus qu'a cartographier les usages afin d'échanger les préférences. “Les clients ayant achetés cet article ont également achetés...”est la sentence qui nous informe des démarches les plus proches des nôtres. De manière paradoxale, c'est en observant les autres que l'algorithme parvient le mieux à nous connaître.

Le client cède ses données contre un service loyal hyper-personnalisé

En échange, il attend clairvoyance et discernement dans les résultats. En d'autres termes, il espère que l'algorithme de recommandation produise un résultat fiable et impartial. De surcroit, l'usager attend que ce résultat l'informe mais ne le deserve pas. En effet, un moteur de recommandation pertinent doit deviner les souhaits de ses utilisateurs afin de leur proposer le produit cherché, parfois, avant même qu'ils en ait conscience.

L'utilisation la plus poussée de ces système prédictifs franchit l'étape ultime. On les autorise a agir en notre nom et passer commande étant donné qu'ils ont pressentis que cet article nous plaira. C'est l'aboutissement de systèmes combinant hyper-personnalisation et calculs prédictifs. A l'inverse, un moteur de recommandation ne doit pas suggérer un produit dans le but de gérer au mieux un stock de marchandises. De même, un moteur de calcul d'itinéraires doit présenter le chemin idéal et non pas un chemin qui passerait en des étapes commerciales négociées au prix fort. Plus encore que de fiabilité et de performance, c'est donc bien de loyauté dont il s'agit. La loyauté d'un algorithme est sa capacité à "faire ce qu'il dit". Les usagers échangent leurs traces numériques éparses contre un conseil ... mais pas contre une vente masquée et déguisée.

Des algorithmes qui reproduisent les inégalités

Bien qu'on nous promette des calculs neutres, loyaux, impartiaux et donc aux résultats indiscutables, on se retrouve avec des procédés de calcul qui reproduisent les biais humains et les inégalités. Prenons l'exemple réel d'un algorithme d'apprentissage des décisions entrainé à reproduire le verdict d'attribuer un prêt bancaire. Le calcul du Big Data permet à l'algorithme de retrouver lui-même les mécanismes de décision uniquement à partir des données disponibles. Les éléments chargés de l'aider dans sa décision deviennent alors sensibles.

Une donnée qui peut sembler anodine comme le lieu d'habitation peut - à l'usage - servir à exclure encore plus des populations. Si le code postal fait partie des éléments qui entrent dans la décision de l'algorithme d'attribuer un prêt alors les populations exclues du prêt de part leur lieu d'habitation le seront encore plus. En effet, l'algorithme apprend les données en découvrant les schémas récurrents enfouis et cachés. Si parmi eux, le recoupement du lieu d'habitation avec la décision de ne pas accorder le prêt émerge des données alors l'algorithme fait resurgir ce préjugé et l'applique ensuite dans toutes ses décisions ultérieures ! On cautionne à notre insu les inégalités existantes en les "technicisant".

Les travaux du sociologue Dominique Cardon illustre bien ce propos. Cet exemple - parmi d'autres - nous fait prendre conscience que ces services reposant sur l'analyse des données massives sont souvent partiaux et peu transparents. La transparence d'un algorithme est sa capacité à "dire ce qu'il fait". Les algorithmes du Big Data ne sont pas neutres, pas plus que les traces qui les nourrissent. Ils procèdent d'une intention et formalisent "en dur" les préjugés subtils contenus dans les données. Ces algorithmes écrivent des opinions dans du code informatique.

Des traitements qui enferment l'usager dans ses croyances

En dernier lieu, nos vies numériques sont triées et recombinées en permanence afin de révéler nos prochains actes, parfois avant même qu'on ne l'exprime ni le perçoive. Les algorithmes proposent ici du contenu que l'usager va consommer ainsi que des bannières publicitaires qui résonnent en lui. La visée est de ne construire que des contenus appréciés ou susceptibles de l'être comme l'a évalué l'algorithme responsable de la construction. C'est un chuchotement personnalisé et permanent auquel il est difficile d'échapper. Les opinions contraires ou dérangeantes sont exclues car peu susceptibles de "générer du click".

Même le célèbre moteur de recherche de Google évolue et ne proposera bientôt qu'un seul lien à cliquer en relation avec les mots-clés choisit par l'utilisateur. On peut s'interroger de savoir si ces procédés de décryptage de l'information ne forment pas une nouvelle caverne de Platon. Une caverne personnalisée qui nous projetterai et donnerai à voir uniquement nos croyances et celles de notre groupe social sans confrontation adverse. Une bulle de verre

Conclusion, la promesse du Big Data est de délivrer un résultat loyal, optimal et impartial en échange de nos données personnelles. Les algorithmes du Big Data retrouvent et révèlent au sein des données les inégalités, les préjugés et les biais. Ils se chargent ensuite de les transcrire de manière définitive dans le code informatique.

Il y a donc une nécessité de rendre le Big Data loyal en inscrivant ce principe dans le code informatique qui le constitue. Les autorités politiques s'y intéressent désormais en premier lieu comme en atteste la commission OPECST du Sénat. De même que la commission de l'INRIA (Institut National de la Recherche en Informatique et Automatique) TransAlgo chargé d'évaluer la transparence des algorithmes. Les sociétés privées s'emparent également du sujet. En témoigne le PDG de Microsoft qui milite pour rendre les développeurs plus responsables. Ainsi que les initiatives OpenAI et des géants américains de la Silicon Valley chargées d'ouvrir, de rendre transparents le fonctionnement des algorithmes et d'en faire bénéficier le plus grand nombre.

________

Franck Bardol est Expert Data Scientist, formateur et evangelist Data. Passionné par les possibilités offertes par le gisement de données massives, il accompagne la transformation digitale des entreprises pour les aider notamment à tirer tous les avantages concurrentiels stratégiques de leurs données, et ainsi démultiplier l'engagement de leurs clients autour de leurs produits.