Google dévoile Lumiere, une IA génératrice de vidéos vraiment bluffante

Publié le 26 janvier 2024 à 15h02

Ce modèle d'IA délaisse la conception en cascade classique pour une approche plus aboutie ; avec des résultats assez prometteurs.

Alors que les générateurs d'images par intelligence artificielle sont désormais légion et souvent bien aboutis, des outils similaires pour la vidéo restent moins nombreux et bien moins convaincants. Une équipe de chercheurs, dont plusieurs officient pour le compte de Google Research, compte bien y remédier avec Lumiere, un modèle d’IA de génération de vidéo d’un nouveau genre.

Un modèle qui adopte une approche différente

La réalisation d’une vidéo par l’IA est plus complexe que celle d’une image statique pour plusieurs facteurs. Le principal est la cohérence des mouvements : difficile de rendre une démarche naturelle par exemple. Il peut également y avoir des problèmes de saccades ou de gestion des interactions avec le décor.

Pour pallier ce problème, plutôt que d'assembler une succession d’images individuelles aboutissant à un agglomérat plus ou moins satisfaisant, Lumiere façonne l'ensemble de la vidéo en un seul processus via une gestion simultanée du placement des objets et de leur mouvement.

Les auteurs précisent : « L’architecture Space-Time U-Net génère toute la durée temporelle de la vidéo en une seule fois, par le biais d'un seul passage dans le modèle. Cela contraste avec les modèles vidéo existants qui synthétisent des images clés distantes suivies d'une super-résolution temporelle, une approche qui rend intrinsèquement difficile la cohérence temporelle globale ».

Hila Chefer, l'une des contributrices, a publié quelques démos sur son compte X.com.

...

Les chercheurs comparent la cohérence offerte par Lumiere par rapport à celle d’Imagen Video – un autre outil vidéo IA de Google – basé sur une conception en cascade plus traditionnelle.

Comparaison ImagenVideo et Lumiere © Google Research

Le résultat auquel aboutit Lumiere est également montré dans la vidéo ci-dessous.

Des clips de 5 secondes

Lumiere est en mesure de générer 80 images à une fréquence de 16 images par seconde, ce qui correspond à une séquence de 5 secondes. On reste loin du long métrage (et même du court), mais cette durée est raccord avec la majorité des solutions actuelles. Le modèle de Stable Video Diffusion par exemple aboutit à des séquences de 14 à 25 images pour des taux de rafraîchissement compris entre 3 et 30 images par seconde. En outre, la définition est de 576 x 1024 pixels contre 1024 × 1024 pour Lumiere. Parmi les autres solutions concurrentes, citons aussi celle de Pika Labs.

Lumiere peut générer des vidéos à partir de différentes requêtes, à commencer par celle text-to-video. À l’instar d’un générateur d’images classique, c’est une simple description écrite de la demande ; « un chien portant des lunettes de soleil qui conduit une voiture » pour prendre l'une de celles exprimées dans la vidéo d’illustration.

Lumiere accepte également une invite image-to-video. Elle consiste à générer une vidéo à partir d’une image. Il est également possible de demander des vidéos stylisées à partir d’une image de référence. Enfin, outre la génération de vidéos, le modèle peut éditer des vidéos existantes, pour animer ou remplir certaines zones, ce qui est moins ordinaire.

Il n’est pas possible de faire mumuse avec Lumiere pour le moment ; cela reste un projet de recherche. Une seule certitude, dans un avenir relativement proche, les générateurs de vidéos par intelligence artificielle deviendront aussi faciles d’accès que les générateurs d’images.

Modèle STUNet © Google Research

Comparaison modèles TSR (temporal super-resolution) et STUNet © Google Research

Vous trouverez des détails sur les différents modèles TSR et STUNet pour terminer. N'hésitez pas à consulter la source si vous souhaitez approfondir le sujet.

Quelles sont les meilleures IA pour générer vos contenus ? Comparatifs 2025

L'émergence de l'intelligence artificielle comme outil grand public a ouvert de nombreuses possibilités pour tous les producteurs de contenus. Texte, image, son… Cette nouvelle technologie à la mode peut maintenant apporter son assistance dans de très nombreux domaines, et faciliter le travail dans les étapes les plus ingrates de la création. Et avec une offre qui ne cesse de s'accroître, il est important de distinguer quels outils apportent une véritable valeur ajoutée. Histoire de ne pas perdre des heures à essayer tout ce que proposent les pages de résultats de Google !

Source : Google Research

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (10)

Oncle_Picsou

On est pas si loin du long métrage, etant donné que la durée moyenne d’un plan est de 3 secondes.
Il ne faut pas espérer générer la trilogie du seigneur des anneaux avec un prompt ( même si, à terme, on y arrivera certainement)
Bien sûr, il faut générer des plans plus longs, mais avec une longueur max de 20-25 secondes, cela serait amplement suffisant.

Ce qu’il manque surtout, c’est la possibilité de mieux diriger les acteurs et éléments d’une scène (cela inclus du lip sync) et de garder une cohérence entre les plans.

On est probablement à 3-5 ans du premier film généré par ia (avec une couche de travail humain derrière pour le montage, les dialogues, les effets sonores etc…) difficilement differentiable d’une production Hollywoodienne.

Rainforce

Et ben puta1n, j’aurai pas cru voir ça aussi vite…
Y’a des postes qui vont sauter.

cloomcloom6560b0b57a3d1

On peut déjà imaginer dans quelques années des films faits (générés) par n’importe qui depuis son bureau, l’imagination et le scenario sera donc de plus en plus crucial (plus de grêve des scénaristes, ils seront désormais maitres de leurs idées).

À l’imagine de la « musique » qui ne nécessite plus d’avoir un super studio pour faire des enregistrements potables, il se sera plus nécessaire d’avoir 2 ans de travail et une équipe, et donc budget, énorme pour faire des films.

Curieux de voir où ça va aller la « folie » de l’IA

Oncle_Picsou

Pas forcément d’accord, la force des LLM etant justement le brainstorming et l’itération d’idées créatives.
Ils ont un peu de mal à suivre sur un long script pour le moment, mais tout comme la génération d’images et de vidéos, ca va évoluer très rapidement.

En tour cas, je suis vraiment curieux de voir ce que ca va donner aussi !

Proutie66

Une idée de comment l’utiliser ? Est-ce dispo sur leur api ?

SlashDot2k19

On attend le commentaire d’ABC qui semble apprécier les « IA »

Oncle_Picsou

Pas de demo publique pour l’instant

Bestdoud

Hâte de voir le prochain louis de Funès

Shooot

Faut se méfier de ces « trailers » on a déjà été abusé par une vidéo cheatée.
Ils se vendent bien.

Pernel

Moi qui pensais que Google Lumière était le cousin d’Aziz.