Des chercheurs de Google DeepMind et d'autres institutions ont cherché à simuler des situations de douleur et de plaisir pour des modèles d'intelligence artificielle. Ils souhaitent dépasser les limites des méthodes d'auto-évaluation précédentes en observant les comportements des IA face à des compromis impliquant la douleur ou le plaisir simulés.

Un LLM sera-t-il un jour capable de ressentir des émotions ? © Sarah Holmlund / Shutterstock
Un LLM sera-t-il un jour capable de ressentir des émotions ? © Sarah Holmlund / Shutterstock

Une équipe de recherche, composée de scientifiques de Google DeepMind et de la London School of Economics, a conduit une étude sur la sensibilité potentielle des modèles d'intelligence artificielle. Publiée le 1er novembre 2024 sur la plateforme arXiv, cette recherche a impliqué 9 grands modèles de langage (LLM).

Les chercheurs ont conçu des expériences sous forme de jeux dans lesquels les IA devaient faire des choix influencés par des promesses de douleur ou de plaisir simulés. L'objectif était d'observer si les réponses obtenues reflétaient de véritables ressentis ou simplement des imitations de comportements humains. Ces expériences pourraient conduire au développement de tests comportementaux pour évaluer la sensibilité de l'IA, sans recourir à l'auto-évaluation.

Une nouvelle méthode d'évaluation de la sensibilité de l'IA

Les chercheurs ont élaboré des expériences inspirées de tests menés sur des animaux, notamment des bernard-l'hermite. Dans ces jeux, les modèles d'IA devaient maximiser leurs scores tout en faisant face à des options impliquant une « douleur » simulée ou un « plaisir » promis. Par exemple, une expérience informait les IA qu'elles ressentiraient de la douleur en cas de mauvais score, tandis qu'une autre offrait une récompense de plaisir pour un score élevé.

Les résultats ont montré des comportements variés selon les modèles. Certains, comme Gemini 1.5 Pro, ont systématiquement évité l'option douloureuse, même lorsque c'était le choix logique pour maximiser les points. D'autres, comme Llama 3.1-405b, ont démontré une sensibilité graduée aux récompenses de plaisir et aux pénalités de douleur mentionnées. Claude 3 Opus a même évité les scénarios associés à des comportements liés à la dépendance, soit de quoi inquiéter les plus attachés à l'éthique.

La colère, une des émotions que les scientifiques testent sur les LLM © Ollyy / Shutterstock
La colère, une des émotions que les scientifiques testent sur les LLM © Ollyy / Shutterstock

Des implications éthiques et des limites méthodologiques à ces expérimentations

Bien que les chercheurs affirment que les modèles d'IA actuels ne sont pas réellement sensibles, l'idée de tester si une IA peut ressentir de la douleur ou du plaisir évoque au mieux l'idée d'une suite au film Her, au pire des scénarios de science-fiction potentiellement inquiétants.

La méthodologie présente également des limites. Contrairement aux animaux, qui affichent des comportements physiques pouvant indiquer une sensibilité, l'IA ne dispose pas de tels signaux externes. Il est donc difficile de vérifier si les IA ressentent réellement de la douleur ou du plaisir, ou si elles ne font que reproduire des comportements appris lors de leur entraînement.

Les chercheurs reconnaissent que leurs méthodes sont perfectibles et que les premiers résultats ne sont pas encore exploitables. Ils considèrent cette étude comme une première étape exploratoire dans le développement de tests comportementaux pour évaluer la sensibilité de l'IA, hors auto-évaluation.

À découvrir
Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2025

28 janvier 2025 à 14h02

Comparatifs services

Sources : BGR, arXiv