Si certains automates explorent Mars ou exécutent des mouvements acrobatiques complexes, ils restent démunis devant une simple pile de linge à plier. Ce fossé perdure, malgré les énormes progrès abattus en robotique sur la dernière décennie. Un paradoxe qui pourrait s'estomper grâce aux nouvelles méthodes d'apprentissage inspirées des modèles de langage.
L'automatisation progresse à grands pas dans notre société. Des usines aux restaurants, en passant par les entrepôts logistiques, les robots s'immiscent progressivement dans notre quotidien. Amazon déploie déjà plus de 750 000 machines dans ses installations pour améliorer son rendement, DHL utilise les robots Stretch de Boston Dynamics (créateurs du robot Atlas) pour la manutention, tandis que certains restaurants comme Denny's (diner américain classique) testent des automates pour le service en salle.
Chipotle (chaîne de fast-food mexicaine) développe un prototype guidé par l'intelligence artificielle pour dont l'unique fonction est de dénoyauter des avocats. Même BMW va intégrer le robot Figure 02 dans ses chaînes de production dès l'an prochain. Pourtant, malgré ces avancées spectaculaires, ces machines ultra-sophistiquées se heurtent encore à des limites surprenantes.
Le paradoxe de Moravec : quand la complexité se cache dans la simplicité
Cette situation déconcertante, identifiée dès 1988 par le professeur Hans Moravec de Carnegie Mellon, continue de faire suer les ingénieurs : les robots excellent dans des tâches complexes, mais échouent face à des actions qui nous paraissent très simples.
Un système informatique peut terrasser le plus grand maître d'échecs, mais se trouve incapable de ramasser une simple pièce dans un tas désordonné. Un robot barista peut enchaîner les préparations de café à un rythme effréné, mais reste impuissant devant une tasse tiède à réchauffer au micro-ondes. Cette dichotomie illustre parfaitement ce qu'est devenue la robotique moderne.
La triple barrière : perception, contrôle et physique
Le professeur Ken Goldberg de l'université de Berkeley décompose ces obstacles en trois catégories fondamentales. Le premier défi concerne la perception : malgré leurs capteurs sophistiqués et leurs systèmes lidar, les robots perçoivent leur environnement de manière moins fiable que l'œil humain.
Les voitures autonomes, par exemple, peuvent être perturbées par des reflets lumineux intenses ou des situations inhabituelles, comme des véhicules arborant des cônes de signalisation sur leur toit. Le robot Sparrow d'Amazon qui assiste les employés pour préparer les commandes en entrepôt, pourtant performant dans son cadre habituel, peine dès qu'il s'agit de sélectionner des objets spécifiques parmi une grande variété d'articles.
Le second obstacle réside dans le contrôle. Là où les humains et les animaux ont bénéficié de millions d'années d'évolution pour coordonner vision et mouvement, les robots doivent composer avec une synchronisation imparfaite entre leurs capteurs et leurs parties mécaniques. Cette désynchronisation explique pourquoi les robots serveurs de Denny's se contentent d'apporter les plats à table, laissant aux serveurs humains le soin de les disposer devant les clients.
Le troisième obstacle est d'ordre physique. Même avec une force constante et un mouvement identique, un robot poussant une bouteille sur une table obtiendra des résultats légèrement différents à chaque tentative. Ces variations microscopiques, dues à la topographie de surface ou à d'autres facteurs physiques, sont instinctivement compensées par les humains grâce à leur expérience. Les robots, en revanche, peinent à s'adapter à ces subtiles modifications de leur environnement. Cette rigidité explique pourquoi ils excellent dans des environnements strictement contrôlés, mais se trouvent désorientés dès que les conditions changent, même légèrement.
Réseaux neuronaux : le chaînon manquant de la robotique
Une nouvelle approche pourrait bouleverser ce statu quo. Le projet RT-X, fruit d'une collaboration entre Google, UC Berkeley et 32 laboratoires répartis sur trois continents, constitue la plus vaste base de données d'actions robotiques jamais créée. Elle englobe l'expérience de robots accomplissant environ 500 types de tâches différentes. Les chercheurs utilisent l'apprentissage profond pour entraîner les robots dans des environnements simulés, un processus que Goldberg compare à des « rêves robotiques ». Cette stratégie permet aux machines d'identifier les données pertinentes à partir de leurs propres observations visuelles pour accomplir un objectif spécifique et réussir à s'améliorer de manière autonome.
Les robots pourront-ils un jour atteindre un niveau d'intelligence comparable à celui des humains ? Difficile de donner une réponse définitive pour le moment ; gardons à l'esprit que l'intelligence humaine est le fruit d'une évolution biologique complexe qui dépasse largement les capacités actuelles de nos modèles d'IA. L'émergence de l'intelligence est un phénomène plus complexe que la simple accumulation de connaissances.
Source : Popular Science