L'année 2020 pose un réel problème pour l'entraînement de l'IA. Nous avons brusquement modifié nos règles sociales et culturelles. De fait, beaucoup de ce que nous avons enseigné aux algorithmes comme étant "vrai" ne l'est plus ! Ce constat est particulièrement dans le domaine de la reconnaissance d'images. Nous attendons de ces algorithmes qu'ils interprètent nos nouveaux comportements dans un contexte qu'ils n'ont pas actualisé. Les algorithmes s'adaptent à de nouveaux indices visuels et tentent de comprendre comment les identifier précisément.
Alors que la reconnaissance d'images rattrape son retard, nous devons accorder plus d'importance aux mises à jour des processus d'entraînement de l'IA afin que les jeux de données erronés et les modèles open source préexistants puissent être corrigés. Les modèles de vision par ordinateur ont du mal à décrire correctement les images des nouvelles situations dans lesquelles nous nous trouvons à l'heure de la Covid-19. Les catégories ont changé.
Faire comprendre les nuances aux algorithmes
Prenons par exemple l'image d'un père travaillant à domicile pendant que son enfant joue. L'IA catégorise cette image comme "loisir" ou "détente". Elle ne l'identifie pas comme correspondant à "travail" ou "bureau", alors que travailler avec ses enfants à côté de soi est aujourd'hui une réalité très répandue. Du point de vue technique, les pixels décrivent notre monde différemment. Autrement dit, les algorithmes identifient les images, ils les catégorisent selon les pixels qui les composent et en déduisent ce qu'elles contiennent. Le changement brusque de nos façons de vivre au quotidien fait qu'il faut aussi modifier ce que les catégories et les mots-clés induisent.
Prenons, par exemple, "nettoyer". Aujourd'hui, cela peut vouloir dire essuyer quelque chose qui paraît propre. Jusque-là, les algorithmes avaient appris que pour décrire le nettoyage, il fallait qu'il y ait du désordre ou de la saleté. Il faut donc ré-entraîner les algorithmes pour qu'ils prennent en compte ces nouveaux paramètres de catégorisation. Cela est aussi vrai à une moindre échelle comme, par exemple, une personne qui attrape une poignée de porte avec une lingette ou qui nettoie le volant assis dans sa voiture. Ce qui paraissait un détail insignifiant prend beaucoup d'importance maintenant que tous cherchent à se protéger du virus. Nous devons intégrer ces nuances pour que les images soient décrites précisément. Alors l'IA commencera à comprendre le monde de 2020 et produira des résultats précis.
Le masque, un problème pour l'IA
L'IA rencontre actuellement un autre problème. Les algorithmes d'apprentissage, de Machine Learning (ML), ont du mal à comprendre comment identifier et catégoriser les visages portants des masques. Les visages sont détectés uniquement comme partie supérieure d'un visage ou comme deux visages, l'un masqué, l'autre ne comportant que des yeux… Cela génère des incohérences et induit en erreur les modèles de détection de visages. Une solution à ce problème consiste à ré-entraîner les algorithmes pour qu'ils soient plus performants sur des moitiés de visage, celles au-dessus du masque. Ce problème est le même que celui rencontré dans la détection d'un visage quand la personne porte des lunettes ou est de profil. Le port du masque est désormais aussi courant.
Tout cela montre que les modèles de vision par ordinateur ont encore du chemin à parcourir avant d'être capables de "voir" dans notre paysage social en constante évolution. Pour les y aider, nous devons construire des jeux de données rigoureux. Nous pourrons alors entraîner ces modèles pour qu'ils prennent en compte les différentes manières dont un visage peut être couvert ou partiellement caché.
Actuellement, nous élargissons les paramètres de ce que l'algorithme détecte comme étant un visage, qu'il s'agisse d'une personne masquée dans un supermarché, d'une infirmière portant un masque pour son travail ou une personne qui couvre son visage pour des motifs religieux.
Le risque de créer des biais
Toutefois, en constituant ces jeux de données robustes, nous devons être attentifs aux risques d'introduire des biais involontaires. L'IA comportera toujours des biais, cependant certains jeux de données décrivent aujourd'hui notre "nouveau normal" de manière déséquilibrée. Par exemple, nous voyons plus de visages blancs masqués que de visages d'autres ethnies. Cela peut être la conséquence du confinement qui a limité l'accès des photographes à d'autres communautés que les leurs et les a empêchés de diversifier leurs sujets. Autres possibilités, ce déséquilibre de représentation peut être dû à l'origine ethnique des photographes qui ont choisi de photographier la crise sanitaire ou encore à l'intensité de l'impact de la Covid-19 dans les différentes régions du monde. Quelle que soit la raison, ce déséquilibre fait que les algorithmes détectent mieux une personne blanche masquée qu'un individu d'une autre ethnie.
Alors que les règles sociales changent rapidement, les data scientists et ceux qui conçoivent des solutions basées sur des modèles ont une responsabilité croissante de vérification de la précision de ces modèles. Plus que jamais, des vérifications et des actualisations régulières tant des modèles que des jeux de données d'entraînement sont nécessaires pour garantir la qualité et la robustesse des modèles. Si les résultats sont erronés, les data scientists doivent rapidement les constater et corriger le modèle.
Vigilance avec les jeux de données en open source
Soulignons également que nos modes de vie actuels vont se prolonger dans un futur proche. Pour cette raison, nous devons faire attention aux ensembles de données open source que nous utilisons pour l'entraînement de l'IA. Les jeux de données qui peuvent être modifiés doivent l'être. Ceux qui ne peuvent pas être modifiés doivent comporter un avertissement afin d'identifier les projets susceptibles d'être affectés par leurs données d'entraînement obsolètes.
La première étape pour faire progresser la reconnaissance d'image par l'IA consiste à identifier le nouveau contexte que nous voulons que le système reconnaisse. Ensuite, il nous faut plus de contenu, plus de descriptions du monde qui nous entoure, et de différents points de vue ! Aujourd'hui, nous accumulons ces nouveaux contenus, nous prenons conscience des biais potentiels et des moyens de ré-entraîner les jeux de données open source existants. Nous devons tous contrôler les incohérences et les imprécisions. C'est avec notre persévérance et notre détermination à ré-entraîner les modèles de vision par ordinateur que nous adapterons l'IA au contexte de 2020 !
Andréa Gagliano, responsable du service Data Sciences chez Getty Images