Alibaba dévoile une IA capable de vous faire parler et chanter à partir d’une simple photo

Publié le 01 mars 2024 à 08h58

Faire parler la Joconde est désormais un jeu d'enfant © Alibaba

On arrête plus l’IA. Le groupe chinois Alibaba a présenté récemment son nouveau modèle d’intelligence artificielle surnommé « EMO ». Ce dernier permet d’animer une photo avec un réalisme saisissant.

Après les deepfakes, voilà une nouvelle prouesse de l’IA qui pourrait causer bien des soucis. Dans un article de recherche publié le 27 février 2024, le groupe chinois Alibaba (qui tient notamment le site de e-commerce AliExpress) a détaillé le fonctionnement de son modèle de génération de vidéo EMO qui est capable d’ajouter des mouvements et une voix à une simple photo.

Faire dire (et chanter) n’importe quoi à n’importe qui

En utilisant un algorithme qui retranscrit directement l’audio reçu d’une part en mouvement faciale de l’autre part et « sans avoir recours à des modèles 3D intermédiaires ou à des points de repère faciaux » EMO se permet donc de faire parler ou chanter des photos avec des mouvements de tête et de lèvres extraordinairement proches de la réalité.

...

Ainsi, en faisant passer une simple photo d’Audrey Hepburn dans la moulinette d'EMO, il devient possible de faire chanter du Ed Sheeran à l’actrice aujourd’hui décédée. Vous voulez faire chanter du Eminem à une photo de Leonardo DiCaprio à 20 ans ? Pas de problème non plus. Plus impressionnant encore, le logiciel se débrouille très bien avec des personnages dessinés ou peint, puisqu’Alibaba se permet même de faire déclarer à La Joconde un monologue de Shakespeare, avec les expressions faciales qui vont avec.

Une arme de désinformation massive ?

Pour entrainer EMO, les chercheurs ont « constitué une base de données audio-vidéo riche de 250 heures de contenus et de 150 millions d’images », précise l’article. « Les contenus audio sont riches en information concernant les expressions faciales, permettant théoriquement de générer un large panel de mouvements faciaux », poursuivent les ingénieurs dernières EMO. La tâche n’est pas pour autant facile, les modèles de diffusion (similaire à ce que fait Stable Diffusion) pouvant parfois se perdre dans la retranscription des mouvements faciaux.

Bien évidemment, en y regardant de près il est possible de voir quelques artefacts et les vidéos en elle-même dégagent quelque chose qui se rapproche parfois un peu de la vallée dérangeante, mais pour une première version du système les résultats sont tout de même époustouflants… et un peu inquiétants. La possibilité de faire dire n’importe quoi à n’importe qui en n’ayant besoin de rien de plus qu’une image en relativement bonne qualité pourrait être utilisée comme une arme de désinformation massive, surtout si son utilisation est encore plus aisée que ce qui se fait aujourd’hui avec les deepfake.

A découvrir

Quels sont les meilleurs générateurs d'images par intelligence artificielle ? Comparatif 2025

25 mars 2025 à 15h08

Comparatifs services

Source : Arxviv - Alibaba Group

Par Corentin Béchade

Alibaba

Intelligence artificielle

Actualités High-Tech

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (0)

Poster mon commentaire

Commentaires (10)

xXBernadette_SanguineXx

heu, pas comme si ça existait depuis 10 ans, on appelait ça des filtres à l’époque…

bizbiz

" En utilisant un algorithme qui retranscrit directement l’audio reçu d’une part en mouvement faciale de l’autre part et « sans avoir recours à des modèles 3D intermédiaires ou à des points de repère faciaux »"

Et c’est donc là que se trouve le tour de force. Wombo.ai et consorts ont du soucis à se faire.
Par contre, aucunes notes sur la disponibilité ou sur l’utilisation de cet outils ?

SlashDot2k19

Bluffant…
Il y a 30 ans Internet était surnommé « l’autoroute de l’information ».
Dorénavant c’est devenu « l’ autoroute de la désinformation »

Vankovic

La fin du Monde est proche…

On savait que ce genre de chose allait arriver.
Il y avait déjà quelques vidéos « prometteuses » dans le genre.
Là, on va verser rapidement dans le systématique.
C’est extrêmement inquiétant, même dans la vie courante, quel est l’intérêt « utile » de ce genre de chose, à part faire circuler de fausses informations ? Concrètement à quoi cela peut-il servir, à part pour quelques biopics cinématographiques ?
Il est largement temps de légiférer, même si c’est illusoire…

fredolabecane

ça va en faire chanter plus d’un…

malak

Deepfake puissance 100… la seule limite sera notre imagination…

xryl

Je suis Sony, Universale, ou Warner Bros, je te garantie de l’intérêt de cette techno. Une prise qui a foiré, un acteur qui est défoncé 24/7 sur le tournage, je peux quand même reprendre une prise, ou finir un film (type Fast & Furious) avec un acteur décédé.

Et si j’ai les bons lobbys, je peux même faire en sorte que ce ne soit pas illégal d’inclure cela dans mes contrats et d’abuser de la technologie pour faire une seule prise à un figurant/auditionneur et le faire jouer pendant 2h dans un film.

g-jack

Finalement on va peut être arriver à un virage ou l’information visuelle n’aura plus aucune crédibilité, du coup c’est tout un système à revoir (vidéo surveillance, authentification faciale, preuve par l’image ou l’audio…) mais après si on sait que c’est si simple et que ça ne vaut plus rien, peut être ça évitera justement l’utilisation de fausses videos vu que ça n’aura plus aucune valeur aux yeux de personnes…
Bon ok il y a du chemin à parcourir !

Vankovic

ça confirme bien mes propos.
Seul les productions télévisées ou cinématographiques peuvent y trouver un intérêt, sain ou pas…
Au delà de ça, tout autre usage est forcément problématique ou suspect.

Sans compter les usages « anodins » mais destructeurs dans la société civile.
Adolescents malsains qui « règlent leurs comptes », licenciements abusifs ou calculés, mise en cause d’innocents, etc. La liste sera sans fin.

bizbiz

Au final le célèbre adage de Saint Thomas n’a plus lieu d’être ? A moins d’utiliser la bonne formule qui aurait dû être être " Je ne crois que ce que je touche ! " … en plongeant sa main sale dans la plaie béante et sanguinolente du Christ … le sadique .

Sinon, rétropédalage total et retour à la TSF et au canard acheté au tabac-presse du coin de la rue.

On est pas sorti de l’auberge .