Des chercheurs développent une intelligence artificielle pouvant donner une réponse simplement sur des descriptions d'objet. Un pas de plus dans l'amélioration de l'apprentissage naturel.
Les algorithmes actuels peuvent apprendre massivement en collectant un nombre de données précises sur un objet ou un environnement. Mais sans point de départ clairement défini, les machines peuvent facilement montrer leurs limites.
Les chercheurs en informatique du MIT ont pris conscience du problème et ont développé un système permettant aux algorithmes d'identifier des objets sans image, simplement en utilisant des descriptions orales.
Pour ce faire, le système n'apprend pas à partir de transcriptions manuelles et de descriptions complètes, mais à partir de mots provenant d'extraits audio et d'images brutes associées à ces extraits.
Un système d'apprentissage conçu pour faciliter les traductions
A l'heure actuelle, le système détecte quelques centaines de mots seulement. Mais les chercheurs ont bon espoir que leur procédé puisse apprendre rapidement une plus grande quantité de contenu et permettre d'éviter un long apprentissage manuel à la machine.A titre d'exemple, les scientifiques ont fait la démonstration de leur système sur une image d'une jeune fille blonde et aux yeux bleus, portant une robe bleue devant une maison au toit rouge. Le système a assimilé chaque pixel à un mot ou un groupe de mots comme « yeux bleus » ou « toit rouge ». Une fois l'apprentissage effectué, la machine peut retrouver des éléments de l'image en écoutant l'utilisateur lui décrire un objet ou une partie d'un visage.
L'une des applications les plus espérées par les concepteurs de ce système de machine learning est la traduction. Au lieu d'apprendre un à un les centaines de langages parlés, l'ordinateur pourrait écouter la description faite par un utilisateur A et donner les éléments à l'utilisateur B sans traduire mot à mot (et souvent avec des erreurs ou des inexactitudes) le contenu d'une image ou d'un document.