Le géant américain de la tech continue d'étonner en matière d'intelligence artificielle. Son nouvel outil IA peut ainsi donner vie à une simple photographie.
Quand on parle d'intelligence artificielle depuis deux ans, difficile de ne pas penser tout de suite à Microsoft. La firme fondée par Bill Gates est en effet le partenaire privilégié d'OpenAI, celui qui lui a permis de mettre au monde ChatGPT. Mais le groupe américain n'est pas seulement présent en soutien, puisqu'il développe aussi ses propres outils IA, comme on peut le voir avec Vasa-1.
Vasa-1, l'IA qui met en marche les photos
Vasa-1. Voilà un nom qui devrait peut-être devenir rapidement fameux si les promesses de Microsoft étaient tenues. Car l'IA qu'il vient de nous présenter affiche des résultats aussi fascinants qu'inquiétants. Celle-ci permet en effet, à l'aide d'une seule photo mise en ligne, de faire bouger l'image en question et de lui faire répéter un texte, et même une chanson, à la perfection.
Comme vous pouvez le voir sur l'exemple mis en dessous, le résultat est assez bluffant. Le mouvement des lèvres est ainsi coordonné avec les mots exprimés, alors que les mouvements de tête ou des yeux, ainsi que les expressions faciales, donnent véritablement l'impression d'être face à un véritable enregistrement.
Un futur danger pour les deepfake ?
La technologie qui avance de cette manière, c'est beau… mais ça peut être aussi particulièrement dangereux ! Depuis l'émergence de ChatGPT, une inquiétude accompagne le développement de la technologie, qui est qu'à terme, nous ne pourrions peut-être plus distinguer le vrai du faux. Et c'est exactement ce que permet avec ses performances Vasa-1.
Un problème dont est consciente l'équipe qui a mis au monde cet instrument. Raison pour laquelle elle n'a pas souhaité fournir « une démonstration en ligne, une API, un produit, des détails supplémentaires sur la mise en œuvre ou toute autre offre connexe. » Et ce, afin que des esprits malintentionnés ne montent pas très vite des escroqueries, ou des campagnes de désinformation.
- Intégration de DALL-E 3 pour une création d'images plus créatives et réalistes
- Capacité de traitement des images par GPT-4 Vision pour des réponses contextuelles précises
- Interface conviviale et intégrée dans divers produits Microsoft