Microsoft annonce avoir drastiquement optimisé ses algorithmes d'intelligence artificielle permettant de décrire le contenu d'une image. Le dispositif serait désormais au moins aussi performant que le cerveau humain.
Décrire avec le plus de précision possible les caractéristiques d'une photo, voilà un défi que Microsoft relève depuis déjà quelques années. L'objectif est de permettre aux personnes non voyantes ou atteintes de déficience visuelle de comprendre plus précisément la nature d'une image insérée au sein d'un document ou d'une page web.
Un algorithme deux fois plus performant qu'en 2015
Pour mettre au point cet algorithme, Microsoft dispose d'une base de plusieurs millions de photos dotées d'une légende. Un processus de machine learning est alors capable d'associer certains mots à des caractéristiques spécifiques de l'image. Microsoft compare le processus à l'apprentissage de la lecture chez un enfant qui voit un dessin associé à un mot.
Les chercheurs ont ensuite effectué un test "nocaps". Il s'agit de laisser l'algorithme décrire de lui-même une image ne faisant pas partie de la base d'entraînement initial. Au travers des résultats de ce test, les descriptions générées par l'algorithme était plus riches que celles formulées par des êtres humains sur les mêmes photos.
Xuedong Huang, responsable technique des services cognitifs de Microsoft Azure, déclare : « Ces cinq dernières années, nous avons atteint le niveau humain de cinq manières : la transcription de la voix en texte, la traduction automatique, les réponses aux questions courantes, la compréhension globale d'un texte et en 2020, malgré la COVID-19, nous avons atteint cette parité sur l'ajout des légendes aux images. »
Des travaux concrets et prêts à l'emploi
Ces travaux de recherche, Microsoft compte bien les mettre en avant le plus rapidement possible. Et cela commence par les rendre disponibles auprès des développeurs.
Microsoft explique sur son blog que la vision artificielle fait partie des algorithmes d'Azure AI, lesquels sont mis à disposition pour les développeurs. Cela signifie qu'ils pourront en faire usage au sein de leurs propres applications. L'usage qui nous vient immédiatement en tête serait par exemple un service de stockage de photos doté d'un moteur capable d'effectuer des requêtes en langage naturel pour retrouver un cliché. C'est d'ailleurs sur ce type de technologie que s'appuie Google Photos. On imagine également un plugin de CMS permettant d'ajouter automatiquement la description d'une image sur le champ alt pour optimiser son poids SEO mais surtout pour rendre le Web plus accessible.
Microsoft annonce en outre une mise à jour de Seeing AI, une application pour iOS décrivant le monde aux alentours aux personnes atteintes de déficience visuelle. Seeing AI offre toute une panoplie d'outils permettant de lire du texte à haute voix, de scanner des codes-barres pour l'identification de produits, de reconnaître des personnes familières, ou encore d'identifier des couleurs.
Par ailleurs, les fruits de ces recherches en vision artificielle seront installées au sein des applications de Microsoft Office. Les descriptions des images pourront être générées sur les présentations PowerPoint et elles seront retournées sous la forme d'un pop-up au sein de Word et d'Outlook sur PC et Mac.
Source : Microsoft