Les nouveaux modèles d'intelligence artificielle d'OpenAI, notamment o3, montrent une capacité surprenante à déterminer la localisation géographique d'une photo en se basant uniquement sur son contenu visuel. Cette prouesse technique, bien qu'impressionnante, ravive les débats sur la protection de la vie privée et la puissance croissante des outils d'analyse d'images.

 L'aptitude des IA à comprendre et à raisonner sur le contenu visuel progresse rapidement, ouvrant des perspectives fascinantes mais aussi des défis éthiques considérables. © Shutterstock
L'aptitude des IA à comprendre et à raisonner sur le contenu visuel progresse rapidement, ouvrant des perspectives fascinantes mais aussi des défis éthiques considérables. © Shutterstock

Depuis l'annonce récente par OpenAI de ses modèles o3 et o4-mini, conçus pour un raisonnement avancé et capables de « penser avec les images » comme nous l'évoquions précédemment, les expérimentations se multiplient. L'une des applications qui a rapidement émergé sur les réseaux sociaux est le geoguessing : deviner un lieu à partir d'une simple photographie. Cette capacité soulève autant d'enthousiasme que d'inquiétudes légitimes.

ChatGPT
  • Chat dans différentes langues, dont le français
  • Générer, traduire et obtenir un résumé de texte
  • Générer, optimiser et corriger du code
9 / 10

L'IA joue les détectives géographiques

Des utilisateurs partagent en ligne leurs tests avec le modèle o3 de ChatGPT, lui soumettant des photos diverses pour en identifier l'origine. Les premiers retours semblent indiquer une efficacité notable. L'IA détaille son raisonnement, expliquant comment certains indices visuels – une plaque d'immatriculation spécifique, le style architectural d'un bâtiment, la langue d'une enseigne ou même un type de mobilier urbain – l'ont aidée à converger vers une localisation précise.

Selon certains testeurs, cette analyse se ferait sans exploiter les métadonnées (EXIF) potentiellement intégrées aux fichiers image, qui contiennent souvent des informations de géolocalisation. Si cela se confirme, o3 s'appuierait uniquement sur sa capacité d'analyse visuelle, son raisonnement et sa connexion à des bases de connaissances via le web pour identifier les lieux. Cette approche s'inscrit dans la lignée des capacités agentiques accrues de ces nouveaux modèles, capables de manipuler activement les images pour en extraire des informations pertinentes.

Des performances encore inégales

Cependant, il convient de nuancer ces performances. Des tests plus approfondis montrent que si o3 excelle à identifier des lieux emblématiques ou des panoramas urbains reconnaissables (comme Minneapolis ou le Panthéon à Paris), il peine davantage face à des scènes plus génériques ou rurales. Dans ces cas, l'IA peut hésiter, se contredire, voire échouer à fournir une localisation correcte après plusieurs minutes d'analyse, confondant des villes homonymes ou partant sur de fausses pistes.

Fait intéressant, le modèle GPT-4o, moins récent mais déjà très performant en multimodalité, semble offrir des capacités de geoguessing assez similaires à celles d'o3. Il identifie rapidement les lieux connus et peut proposer des estimations (parfois incorrectes, mais rapides) pour des lieux plus obscurs. L'avancée de o3 résiderait donc davantage dans sa capacité à expliquer son raisonnement visuel, étape par étape, plutôt que dans une supériorité écrasante en matière de précision de géolocalisation pour le moment.

Géolocalisation IA, OSINT et vie privée : un équilibre délicat

La capacité d'une IA à géolocaliser une photo rappelle inévitablement les techniques de renseignement en sources ouvertes (OSINT). L'OSINT consiste à collecter et analyser des informations publiquement accessibles (sur le web, les réseaux sociaux, les bases de données publiques) pour en tirer des renseignements utiles, souvent dans des contextes de cybersécurité, d'enquête journalistique ou de sécurité nationale. Traditionnellement, l'OSINT repose sur des recherches manuelles approfondies, l'analyse de métadonnées, le recoupement de sources multiples et l'utilisation d'outils spécialisés.

L'intelligence artificielle vient accélérer et automatiser une partie de ce processus. Des outils IA peuvent traiter d'énormes volumes de données textuelles via le Natural Language Processing (NLP), analyser des images et des vidéos grâce à la computer vision, ou surveiller les réseaux sociaux en continu. La géolocalisation par analyse visuelle directe, telle que pratiquée par o3, représente une nouvelle facette de l'OSINT assisté par IA. Elle permet potentiellement d'extraire des informations de localisation même lorsque les métadonnées ont été supprimées.

Les implications pour la confidentialité

Cette efficacité croissante de l'IA dans l'analyse d'informations publiques n'est pas sans risques. La facilité avec laquelle une photo anodine pourrait être utilisée pour déterminer le lieu de vie, de travail ou de vacances d'une personne soulève des préoccupations majeures en matière de vie privée et de sécurité. Le risque de suivi, de surveillance ou de doxxing (la divulgation malveillante d'informations privées) s'accroît à mesure que ces technologies deviennent plus performantes et accessibles.

OpenAI affirme avoir intégré des garde-fous pour que ses modèles refusent d'identifier des personnes privées et pour limiter les abus. Cependant, la frontière reste mince. L'utilisation de l'OSINT, qu'elle soit manuelle ou assistée par IA, doit s'inscrire dans un cadre légal et éthique strict, respectant notamment le RGPD en Europe ou le CCPA en Californie. La question demeure : ces cadres sont-ils suffisants face à la puissance exponentielle des IA capables d'analyser le monde à travers nos propres photos ?

Source : Life Hacker