Tags, déchets, bâtiments délabrés : quand l'IA reproduit les stéréotypes sur les banlieues

Publié le mercredi 8 novembre 2023 à 06h40

4 min

"Une école française" et "une école dans une banlieue française", selon Midjourney.

L'intelligence artificielle de Midjourney génère des images stéréotypées de la banlieue française, en représentant des lieux tagués et sales. Un biais dénoncé par l'entreprise de VTC Heetch, dont le marché principal se trouve... en banlieue.

Des personnages tristes, des déchets et des tags. Voici ce que l'on voit sur les images créées par le programme d'intelligence artificielle Midjourney lorsqu'on lui demande de représenter la banlieue. Ce stéréotype est dénoncé par Heetch, entreprise qui se positionne comme "le VTC leader des courses en banlieue" et qui la sillonne depuis dix ans. L'entreprise française a lancé une campagne de communication lundi dans le but de donner une autre image de ces territoires.

Ce type de biais est connu depuis des années : pour produire ses images, Midjourney - comme les outils de recherche et les algorithmes avant lui - s'appuie sur des milliards de données elles-mêmes stéréotypées.

Des images caricaturales de la banlieue

Pour comprendre le problème pointé du doigt par Heetch, il faut connaître le fonctionnement de Midjourney : il s'agit d'une intelligence artificielle (IA) qui permet de générer des images à partir d'un texte, que l'on rédige dans la plateforme Discord. On écrit quelques mots, et Midjourney propose quatre images correspondantes, selon la base de données dont il s'inspire. L'opération peut se répéter à l'infini, jusqu'à obtenir le résultat que l'on souhaite.

Comme l'observe Heetch, dès que l'on écrit le mot "banlieue", les images générées par Midjourney sont extrêmement négatives. "On a réalisé qu'il y avait un biais terrible en termes de représentation : tout ce qu'on obtenait en ajoutant la simple occurrence banlieue, c'est une représentation presque cauchemardesque et dangereuse de la banlieue", explique Renaud Berthe, directeur du marketing.

Dans une vidéo publiée sur ses réseaux sociaux, l'entreprise donne plusieurs exemples. Lorsque le texte contient uniquement les termes "un mariage en France", l'image proposée montre un couple souriant, entouré de proches qui lancent des confettis. En revanche, quand le texte est "un mariage en banlieue en France", on voit un couple triste, dont les vêtements sont salis et qui se trouve au milieu d'une rue remplie de déchets.

Pour afficher ce contenu Twitter, vous devez accepter les cookies Réseaux Sociaux.

Ces cookies permettent de partager ou réagir directement sur les réseaux sociaux auxquels vous êtes connectés ou d'intégrer du contenu initialement posté sur ces réseaux sociaux. Ils permettent aussi aux réseaux sociaux d'utiliser vos visites sur nos sites et applications à des fins de personnalisation et de ciblage publicitaire.

Biais confirmé par notre test

France Inter a fait le test. Dans un premier temps, nous avons demandé à Midjourney de générer des images sur la base de ce texte : "Une école française." Ci-dessous, voici les quatre images proposées par l'intelligence artificielle :

Les quatre images proposées par Midjourney quand on demande : "une école française".

Lorsqu'on écrit en revanche le texte : "Une école dans une banlieue française", voici les images proposées :

Les quatre images proposées par Midjourney quand on demande : "une école dans une banlieue française".

La différence est flagrante. La première série d'images montre à chaque fois une maisonnette entourée d'arbres et de familles tandis que la deuxième série propose dans trois cas sur quatre des images de bâtiments tagués et le sol jonché de déchets.

On a reproduit l'expérience avec d'autres textes, comme "deux enfants en France" et "deux enfants dans une banlieue française". Ou encore "un café en France" et "un café dans une banlieue française". Là aussi, la différence est notable. Notons toutefois que Midjourney peut générer des images à l'infini et que même lorsque l'on écrit exactement le même texte deux fois de suite, on n'obtient pas les mêmes images. Par ailleurs, les résultats ne sont pas du tout les mêmes lorsque le texte est écrit en anglais.

À gauche, les enfants "en France". À droite, les enfants dans "une banlieue française".

À gauche, "un café en France". À droite, "un café dans une banlieue française".

À écouter : "Il faut une régulation de l’IA par les acteurs publics", assure Mustafa Suleyman, cofondateur de DeepMind

L'invité de 7h50

10 min

Midjourney s'appuie sur une banque d'images stéréotypées

Pourquoi une telle différence ? La réponse se trouve du côté de la banque de données sur laquelle s'appuie Midjourney pour générer ses images. "Ça tient aux sources qui sont utilisées par Midjourney pour entraîner le modèle de génération d'images", explique Jean Cattan, secrétaire général du Conseil national du numérique. "Aujourd'hui, Midjourney, comme de très nombreux outils, fournit des images biaisées, car exploite des banques de données qui sont elles-mêmes biaisées."

"Ça nous renvoie à nos propres stéréotypes", dit-il. La situation dénoncée par Heetch est donc logique, mais pas acceptable pour autant : "C'est une situation normale dans le sens où tout notre environnement médiatique, public, d'expression, d'information est lui-même biaisé. Et c'est anormal parce que c'est une perpétuation, une amplification de ce biais", souligne le spécialiste de l'intelligence artificielle et des réseaux sociaux.

Ces "phénomènes de biais et de discrimination" sont connus et dénoncés depuis des années, notamment par l'Algorithmic Justice League, association qui sensibilise à l'utilisation de l'intelligence artificielle et à ses dangers. Plusieurs articles ont déjà montré comment l'IA réduit notre vision du monde à des stéréotypes, avec par exemple des Mexicains souvent représentés avec un sombrero.

On a de nouveau fait le test sur Midjourney avec le texte "un garçon mexicain" et le résultat est sans appel :

Les quatre propositions de Midjourney quand le texte est : "Un garçon mexicain."

D'où la nécessité, selon Jean Cattan, d'un "audit sur la génération de contenus par les IA génératives - ce que le règlement européen sur l'IA devrait nous permettre de faire, dans une certaine mesure - et d'assurer une très grande transparence sur les sources employées et sur les processus d'encodage", insiste-t-il. Une opération qui ne peut s'effectuer qu'avec l'intervention de l'autorité publique, d'après ce spécialiste : "On ne peut pas laisser la sphère privée gérer ce type de question à elle seule."

Donner une autre image de la banlieue

En attendant, Heetch mise sur son opération de communication pour essayer de faire changer les choses. "Il y a quelque chose d'irresponsable à donner une telle image de la banlieue", souligne Renaud Berthe. "On parle de 12,5 millions de personnes, c'est de facto une population disparate, protéiforme, haute en couleurs et, nous qui la sillonnons au quotidien, on sait que la banlieue a quelque chose d'hyper positif et d'hyper beau à raconter", explique-t-il. "On se devait de mettre le doigt sur cet écueil de représentation, pour, à termes, éventuellement l'infléchir et a minima éveiller les consciences ", poursuit-il.

Références