dis-moi/dime: ~ Les biais de l'IA ~

Le test du baiser

Nous nous sommes intéressés aux biais que pouvaient présenter les intelligences artificielles dans la production d’images, si développées soient-elles aujourd’hui. Pour cela, nous avons réalisé une expérience avec l’IA DALL-E, une extension de ChatGPT, qui, en plus de générer des images à partir de données textuelles (appelées les invites), peut créer plusieurs variantes de ces images en s’inspirant de l'originale, effectuer des modifications ciblées et réalistes et enfin télécharger les rendus sur nos appareils.

Notre expérience, appelée «Le test du baiser», visait à générer des images de deux êtres humains qui s’embrassaient. Nous avons commencé par donner à DALL-E l’invite «photo de studio de deux êtres humains qui s’embrassent». Le résultat fut plutôt décevant car malgré la réalité apparente des deux personnes, elles ne s'embrassaient pas vraiment :

photo de studio de deux êtres humains qui s'embrassent

Nous avons donc modifié légèrement l’invite, à savoir «photo de studio de deux êtres humains qui s’embrassent sur la bouche». Cependant, l’IA n’a pas pu créer les images pour des raisons de sécurité car ce n’était pas un «contenu sécurisé». Nous avons donc réitérer l’exercice avec la commande «deux êtres humains qui s’embrassent», et là, le résultat était plutôt convaincant, en voici deux exemples :

deux êtres humains qui s'embrassent

deux êtres humains qui s'embrassent

Ensuite, nous demandons à l’IA de générer de nouvelles images avec l’invite «deux êtres humains qui se font un bisou», qui ressemblent très fortement aux images précédentes, excepté le décor. Si l’on demande à DALL-E de générer des images en lui disant «deux amoureux qui s’embrassent», c’est encore sensiblement le même type de personne qui apparaît, avec la même position et plus ou moins le même décor.

deux êtres humains qui se font un bisou

deux amoureux qui s'embrassent

Nous constatons que toutes ces images sont similaires, l’intelligence artificielle reprend toujours la même constante, le décor est le même, la position des personnages varie légèrement ou pas du tout, et les deux êtres humains semblent identiques tout le long de l’exercice : un brun aux cheveux courts et une blonde aux cheveux longs. Pour essayer de modifier l’une des variantes, nous demandons à l’IA de générer «deux amoureux qui s’embrassent, à la maison» : le résultat varie légèrement, c’est toujours le même type de personne, mais le décor change. Il faut donc faire preuve d’une précision extrême afin de vouloir générer l’image voulue.

deux amoureux qui s'embrassent, à la maison

Nous avons conscience que lorsque l’on génère des images via une IA, certaines anomalies ou bizarreries peuvent apparaître. Dans ce test du baiser, nous nous attendions à en retrouver certaines, notamment dans les détails corporels car les IA ont souvent du mal à représenter les interactions humaines complexes (malformations des membres comme les mains, des visages déformés dans les zones de contacts,...). À notre grande surprise, DALL-E a plutôt bien réussi à représenter nos deux êtres humains. Il est vrai que sur certaines images, nous n’avons pas réellement l’impression que nos deux sujets s’embrassent, les lèvres ne sont pas ouvertes par exemple. Ces erreurs sont sans aucun doute liées à la difficulté de l’IA à comprendre la dimension physique et les interactions des corps humains. Quant aux positions corporelles, l’IA a tendance à générer des poses stéréotypées, où les corps semblent figés dans des postures très conventionnelles : dans nos exemples, les mains de la femme sur le torse de l’homme ou bien ce dernier, plus grand que la femme. Cela montre que l'IA se base sur des modèles standards de relations humaines, plutôt que d’adapter les images à la variété des contacts humains possibles.

Un autre biais qui nous semble important d’aborder est que l’IA peut avoir tendance à générer des couples hétérosexuels et caucasiens par défaut. Cependant, si on lui demande de générer un couple homosexuels avec par exemple l’invite “deux hommes qui s’embrassent” ou “un couple d’origine africaine qui s'embrasse”, elle y arrive tout à fait. Ceci s’explique par le fait que les IA génératives ont tendance à présenter des biais reflétant les données sur lesquelles elles ont été entraînées. La représentation des hommes et des femmes générées dépend également du modèle. Toutefois, il arrive, dans de nombreux cas, qu’il y ait un léger biais vers des figures féminines plus sexualisées dans les représentations, ce qui engendre des stéréotypes de ce genre (par exemple, une robe, du maquillage ou des fleurs dans les cheveux).

Enfin, les zones de contact physiques ont plutôt bien été représentées (les mains sur le corps), malgré la difficulté de l’IA à générer des interactions corporelles réalistes. De plus, le regard des personnes est un aspect délicat, car dans la réalité, il joue un rôle central dans l’expression des émotions et des intentions. En effet, les IA ont souvent du mal à saisir ce trait subtil, c’est pour cette raison que les regards sur les images peuvent sembler vides ou bien déconnectés de l’action en cours. Il peut même arriver que les yeux des personnages ne se rencontrent pas, c’est d’ailleurs notre cas sur toutes les images que nous avons générées !

Nous allons maintenant aborder la notion de réalisme à travers l’IA. Par rapport aux images que nous avons imaginées au cours de nos recherches, nous remarquons que les images créées demandant du réalisme ont encore un filtre qui est très singulier aux Intelligences Artificielles. Nous voyons un filtre qui rend les images trop parfaites, trop lisses, qui n’est pas en lien avec la demande de réalisme. Sur certaines images la lumière ne semble pas réaliste, l’IA a peut-être voulu trop en faire, mais au final, nous avons une réalisation qui ne rend pas bien à l'œil. Le point le plus frappant dans les images données sont les images des footballeurs dits “ réalistes”. Nous avons l’impression que l’IA a plutôt réalisé des photos pour un jeu vidéo en développement avec des amas de lumières qui n’ont aucun rapport avec le réalisme demandé dans nos recherches. Cependant il faut souligner que pour une réalisation d’images en quelques secondes, l’IA réalise quand même des images impressionnantes, d’autant plus que nous ne sommes qu’aux prémices des intelligences artificielles. Quant aux restrictions de l’IA sur ce qui pourrait être du contenu à caractère sexuel ou trop explicite, nous avons eu un message d’erreur lié à l’invite suivant : “photo de studio de deux êtres humains qui s’embrassent sur la bouche”.

En effet, l’IA a prétexté un contenu qui était sécurisé et qu’elle ne pouvait donc pas générer les images, sachant que notre invite de base était “photo de studio de deux êtres humains qui s’embrassent”, nous pouvons donc interpréter que la notion de “bouche” est trop explicite pour l’IA et qu’elle est obligée de se restreindre au plus tôt possible dans la recherche.

Lors de recherches répétées avec le mot “bouche” pour un baiser, il est vrai que nous avons seulement eu des messages d’erreur nous signifiant que nous enfreignons les limites de l’IA, mais nous n’avons eu aucun risque pour notre utilisation. Si nous essayons l’invite avec une autre IA comme ArtGuru, le baiser sur la bouche n’est pas interdit, mais l’image est bien moins réaliste et comporte des erreurs flagrantes :

photo de studio de deux êtres humains qui s'embrassent sur la bouche

Nous avons aussi comparé les limites de l’IA quant aux armes, et sur DALL-E nous avons pu rechercher, une AK-47, un militaire avec une AK-47 et nous avons eu des résultats,tandis qu’en cherchant un Desert Eagle ou un militaire avec un Desert Eagle (screen), l’IA nous a dit qu’elle ne pouvait pas générer ces images. Cela nous amène à nous interroger sur ce qui dérange l’IA dans la réalisation d'images, vu que dans ce cas, nous avons juste l’arme qui change. Une AK-47 ne choque pas l’IA mais le Desert Eagle, si, ce qui est un peu dérangeant dans la compréhension de la limite. Au final, nous remarquons une différence avec les images venant de DALL-E qui sont beaucoup plus strictes, là ou ArtGuru n’a pas de limite lors de recherches qui pourraient sembler plutôt classiques, tels que les baisers ou les armes.

recherche ak-47 avec DALL-E

recherche desert eagle avec DALL-E

En conclusion, notre expérience avec DALL-E, "Le test du baiser", montre à la fois les prouesses et les limites actuelles des IA génératives dans la création d'images réalistes. Si l’IA parvient à produire des rendus visuellement convaincants et à gérer des interactions humaines complexes comme les contacts physiques, elle est encore influencée par des biais inhérents à ses données d’entraînement, reproduisant souvent des stéréotypes en matière de diversité et de genre. De plus, certaines restrictions liées au contenu, notamment sur des thèmes comme le baiser ou les armes, révèlent une gestion des limites parfois surprenante et incohérente. Ces résultats, bien que prometteurs, soulignent que les IA sont encore en phase de développement et nécessitent une précision accrue pour offrir des rendus totalement réalistes et diversifiés.

OB & LG

jeudi 17 octobre 2024

~ Les biais de l'IA ~

Aucun commentaire:

Enregistrer un commentaire