La maison-mère de Facebook, Meta, a dévoilé ImageBind, un nouveau modèle d'intelligence artificielle qui brille par sa polyvalence et qui fait preuve, sur le papier, d'une créativité très prometteuse.
Mark Zuckerberg a présenté, mardi 9 mai, un tout nouveau modèle d'IA multimodale publié en open source, rattaché à la division Meta AI de son groupe. ImageBind, c'est son nom, possède des propriétés étonnantes en ce qu'il est capable de créer du contenu en combinant jusqu'à six types de données, rapprochant un peu plus encore les machines des humains, et de leur aptitude à apprendre simultanément, de manière holistique.
ImageBind, l'IA aux 6 sens de Meta
« ImageBind est un nouveau modèle d'IA qui combine différents sens, tout comme les gens le font », résume le fondateur de Facebook. L'IA est ici capable de lier des informations provenant de six modalités différentes : des données textuelles, visuelles, audios, de mouvement, thermiques et de profondeur.
Le modèle peut littéralement surpasser les modèles spécialisés antérieurs, qui eux, étaient formés individuellement pour telle ou telle modalité. En outre, il contribue à améliorer, à faire progresser l'intelligence artificielle, en cela qu'il permet aux machines d'analyser différentes sortes d'informations.
Prenons l'exemple de Make-A-Scene, l'IA générative de Meta qui transforme les textes et croquis en œuvres d'art. En utilisant le modèle ImageBind, elle pourrait créer des images à partir de fichiers ou données audios. Dans une vidéo publiée sur son compte Facebook, Mark Zuckerberg donne l'exemple d'une image animée grâce à la combinaison de 4 modalités, dont une requête écrite, « petite créature », l'audio d'une pluie en forêt ou encore la photo d'une forêt. Le résultat est bluffant, regardez :
Une IA qui s'inspire des capacités humaines
« ImageBind fait partie des efforts de Meta pour créer des systèmes d'IA multimodaux qui apprennent de tous les types de données possibles autour d'eux », explique l'entreprise, qui ajoute que plus le nombre de modalités augmente, plus les chercheurs voient grandir leur capacité à développer de nouveaux systèmes holistiques.
Pour les systèmes d'IA traditionnels, il existe une intégration spécifique pour chaque modalité respective. ImageBind montre qu'il est possible de créer un espace d'intégration commun sur plusieurs modalités, le tout sans avoir à s'entraîner sur les données avec chaque combinaison différente de modalités. Ce modèle peut, vous l'aurez compris, donner une nouvelle vie à vos fichiers, images et requêtes, en les récupérant sous d'autres formats en sortie.
« Notre modèle a de nouvelles capacités émergentes, ou comportement de mise à l'échelle, c'est-à-dire des capacités qui n'existaient pas dans les modèles plus petits mais qui apparaissent dans des versions plus grandes. Cela peut inclure la reconnaissance de l'audio qui correspond à une certaine image ou la prédiction de la profondeur d'une scène à partir d'une photo », explique Meta, qui nous démontre bien sa capacité à créer des systèmes d'intelligence artificielle qui apprennent à partir de tous les types de données possibles qui les entourent. On n'arrête pas le progrès.
Source : Meta, Facebook @Zuck