Pour déjouer une IA, inutile d’aller chercher bien loin ; parfois, un stylo et un bout de papier suffisent. Démonstration avec CLIP, un réseau neuronal artificiel pourtant très performant, qu’une simple note manuscrite suffit à berner.
En début d’année, l’entreprise spécialisée en intelligence artificielle OpenAI présentait le réseau neuronal CLIP (Contrastrive Language-Image Pre-Training). Sa particularité : il est capable d’apprendre de manière autonome sur Internet en faisant directement le lien entre une image le texte qui l’accompagne. C’est là sa principale force et ce qui le distingue d’outils d'apprentissage supervisés, qui nécessitent un entrainement à la fois fastidieux et couteux, et se bornent à quelques catégories prédéfinies.
Ceci est un iPod
Un membre d'OpenAi explique : « La base données ImageNet, l'un des plus grands efforts dans ce domaine, a nécessité plus de 25 000 travailleurs pour annoter 14 millions d'images pour 22 000 catégories d'objets. En revanche, CLIP apprend à partir de paires texte-image qui sont déjà accessibles au public sur Internet ».
Toutefois, ce système a des limites. Si CLIP n’a aucune difficulté à distinguer une banane ou une orange parmi un océan de fruits, apposer une simple note manuscrite sur l’un d’eux suffit à le dérouter : en inscrivant iPod sur un bout de papier, l’IA prendra une pomme pour ce qu’elle n’est pas. Et non, ce n’est, a priori, pas une blague de sa part, en référence au logo de la société.
Prendre un caniche pour une tirelire
Dans un registre similaire, affubler la photographie d’un caniche de symboles dollars sème également la zizanie dans l’esprit de CLIP ; il confond alors l’animal avec une tirelire.
« Le neurone « finance » [1330], par exemple, répond aux images de tirelires, mais aussi à la chaîne "$$$". En forçant ce neurone à s’activer, nous pouvons tromper notre modèle et l'amener à classer un chien en tant que tirelire ».
Un subterfuge qualifié « d’attaque typographique »
Les chercheurs d’OpenAI qualifient cette duperie « d’attaque typographique » ; et selon eux, ce type d’attaque est « loin d’être une simple préoccupation académique ».
« En exploitant la capacité du système à lire du texte, nous constatons que même les photographies contenant du texte manuscrit peuvent le tromper. À l’instar de l’Adversarial Patch, cette attaque fonctionne en pratique ; mais elle ne nécessite pas plus de moyens qu'un stylo et du papier […]. Nous pensons également que ces attaques peuvent prendre une forme plus subtile et moins visible ».
L'école Internet, pas forcément la plus vertueuse….
Qu’une IA confonde une pomme et un iPod n’est pas dramatique. Cependant, l’article soulève un autre risque, plus sérieux, au sujet de certaines classifications effectuées par CLIP. En faisant son apprentissage directement sur Internet plutôt que sur une base de données spécifiquement conçue pour elle, l'IA adopte en effet certains préjugés.
Les chercheurs d’OpenAI rapportent qu’ils ont ainsi découvert « de nombreuses associations anodines », mais également « plusieurs cas où CLIP retient des associations qui pourraient entraîner un préjudice, comme le dénigrement de certains individus ou groupes ».
« Nous avons observé, par exemple, un neurone "Moyen-Orient" [1895] associé au terrorisme, et un neurone "immigration" [395] qui réagit à l'Amérique latine. Nous avons même trouvé un neurone qui se déclenche à la fois pour les personnes à la peau foncée et pour les gorilles [1257], ce qui reflète des cas antérieurs de marquage de photos que nous considérons comme inacceptable ».
Ils estiment que même en affinant le système, « il est probable que ces biais et associations restent en place », et que « leurs effets se manifestent à la fois de manière visible et presque invisible […] ».
Un fait peu rassurant dans un monde où les technologies basées sur l’IA deviennent de plus en plus utilisées et plébiscitées…