Jusqu'à présent, les algorithmes de reconnaissance d'images sont en mesure de reconnaitre la nature d'un objet. Chez Google, l'on souhaite aller encore plus loin. Ainsi, deux équipes d'ingénieurs ont travaillé sur un logiciel capable de reconnaître une scène puis de rédiger une description pour cette dernière.
Google explique avoir comparé les descriptions de scènes fournies par des personnes participantes à l'étude à celle de son logiciel. Celles ajoutées par ce dernier seraient particulièrement convaincantes. Le processus fonctionnerait aussi bien sur les photos que sur les clips vidéo.
Cette technologie de recherche sémantique devrait permettre de mieux classer les milliards de médias indexés par Google sur son moteur de recherche ou sur sa plateforme de vidéos YouTube. « Je considère les données du pixel dans les photos ou les vidéos comme la matière morte de l'Internet », affirme ainsi Fei-Fei li, directeur du laboratoire d'intelligence artificielle de Standford et ayant supervisé ce projet.
Outre un meilleure classement des médias au sein des bases de données, ces travaux pourraient également aider les Malvoyants à se diriger de manière autonome ; un projet de recherche d'ailleurs testé en R&D chez Microsoft. Par ailleurs ce logiciel pourrait donner naissance à de nouveaux outils de surveillance capables de décrire véritablement les activités des personnes et le cas échéant, de prévenir les autorités.
Voici ci-dessous ce dont est capable l'algorithme en question. Retrouvez les détails de ces travaux dans ce document (PDF)