PIGEON est une IA développé à Stanford et, même si son nom peut prêter à sourire pour les francophones, ses capacités de décryptage d'images sont stupéfiantes.
On savait déjà que certains systèmes d'IA disposaient déjà de compétences redoutables en matière de reconnaissance faciale, comme PimEyes ou encore Clearview AI. Cette fois-ci, une équipe d'étudiants de Stanford ont repoussé les limites de cette technologie avec PIEGON. C'est un modèle d'IA capable de localiser avec une extrême précision l'endroit où a été capturée une photo en analysant simplement son arrière-plan.
Une précision impressionnante
PIGEON n'a pas grand chose à voir avec le volatile bien connu de tous, mais signifie en réalité Predicting Images Geolocations. Ce programme peut donc passer au crible les photos fournies par Google Street View et déterminer instantanément d'où vient le cliché. Sa précision est de l'ordre de 92 % lorsqu'il s'agit de localiser le pays représenté sur l'image. Encore plus impressionnant : dans plus de 40 % des cas, PIGEON peut reconnaître un endroit à moins de 25 km de sa position réelle.
Pour se rendre compte de la performance, il est possible de mettre en parallèle ses performances avec celles d'humains sur le jeu GeoGuessr. Dans ce dernier, les joueurs doivent deviner l'emplacement d'une photo aléatoire issue de la base de données de Street View. Une immense communauté est très active autour de ce jeu et un système de classement existe pour que les utilisateurs mesurent leurs performances entre eux. Eh bien PIGEON est très bon à ce petit exercice, puisqu'il se classe dans le top 0,01 % des meilleurs joueurs. Il a réussi à battre l'un des meilleurs joueurs pro au monde, Trevor Rainbolt en jouant six matchs contre lui.
Fonctionnement et implications éthiques
Pour que PIGEON atteigne ce niveau de performance, il a été entraîné grâce à un réseau neuronal développé par OpenAI nommé CLIP, qui permet de relier images et textes. Les étudiants se sont inspirés de GeoGuessr pour affiner leur modèle. Ils l'ont nourri à l'aide d'un dataset comportant 100 000 emplacements photographiés aléatoires en associant chacun de ceux-ci à quatre images différentes. Au total, PIGEON a donc été entraîné avec 400 000 images.
Parallèlement à cela, un modèle connexe a également été développé (PIGEOTTO) et entraîné grâce à 4 millions de photographies, pour la plupart issues de Wikipédia et de Flickr. Cela lui a permis de pouvoir s'exercer à identifier un lieu à partir d'une seule image. Toutefois, les créateurs de PIGEON sont bien conscients des implications éthiques inhérentes au développement d'un modèle aussi puissant. Principalement au niveau du respect de la vie privée. Ainsi, les paramètres du modèles ne sont pas disponibles au public et leur code n'est disponible qu'à des fins de vérification académique.
PIGEON est une prouesse autant saisissante qu'inquiétante. D'un point de vue technologique pur, l'avancée est incontestable. D'un point de vue éthique, nous sommes en droit de nous questionner sur les impacts possibles d'une telle technologie si elle sortait du champ académique : surveillance d'individus sans leur consentement, exploitation commerciale, divulgation de données de localisations sensibles (militaires, agents de renseignement) ou utilisation dans un cadre politique autoritariste. Les scénarios sombres ne manquent pas. Pourvu que PIGEON reste bien tranquillement dans sa volière.
Source : ZDNet