Des visages qui échappent plutôt très bien à la théorie de l'uncanny valley © Capture Clubic - OpenAI
Des visages qui échappent plutôt très bien à la théorie de l'uncanny valley © Capture Clubic - OpenAI

À peine dévoilée, Sora, l'IA générative de vidéos créée par OpenAI, fascine autant qu'elle inquiète. Certains lui prêtent déjà un fort potentiel dans la propagation de désinformation.

Il y a quelques jours, OpenAI a de nouveau montré à quel point elle était considérablement en avance en matière d'IA. Après la déferlante de ChatGPT, allons-nous connaître un nouveau raz de marée provoqué par Sora, leur nouveau système d'IA capable de transformer des descriptions textuelles en vidéos ? 2024 est une année charnière où de nombreuses élections auront lieu à travers la planète. Dans ce contexte, l'utilisation d'un outil si puissant que Sora dans l'élaboration de deepfakes est une possibilié à ne pas sous-estimer.

Sora : promesses et périls

Les vidéos générées par Sora, bien qu'imparfaites, sont déjà saisissantes. Alors que certaines auraient demandé plusieurs heures de travail à des animateurs, VFX artist ou motion designers, Sora est capable de générer des vidéos de 60 secondes rapidement à partir d'une simple phrase. C'est une avancée technologique considérable. Pour Rachel Tobac, co-fondateur de SocialProof Security, l'écart entre ce qu'est capable de produire ce nouvel outil et ce qui se faisait avant en termes de crédibilité est immense.

Pour parvenir à un tel résultat, Sora marie deux technologies d'IA. Elle s'appuie premièrement sur des modèles de diffusion, comme DALL-E. Cela lui permet d'agencer des pixels aléatoires en images nettes. Ensuite, elle s'appuie sur une autre technologie, baptisée « transformer architecture » qui vient ordonner ces images en séquences cohérentes.

Des capacités impressionnantes, qui suscitent déjà l'inquiétude. Hany Farid de l'Université de Californie à Berkeley explique : « Comme pour d'autres méthodes en IA générative, rien ne laisse penser que la conversion de texte en vidéo ne va pas continuer à s'améliorer rapidement, nous rapprochant toujours plus d'une époque où il sera difficile de différencier le faux du vrai ». Il continue : «  Cette technologie, si elle est associée au clonage vocal alimenté par l'IA, pourrait ouvrir un tout nouveau champ de possibilités dans la création de deepfakes montrant des personnes dire et faire des choses qui ne se sont jamais produites ».

OpenAI n'a, pour le moment, pas rendu publiquement accessible Sora. Pour l'instant, elle met le modèle à l'épreuve pour évaluer son potentiel de mésusage. Selon un porte-parole d'OpenAI, le groupe qui opère cette analyse est composé « d'experts dans des domaines tels que la désinformation, le contenu haineux et les biais ».

 Des mammouths plus vrais que nature © Capture Clubic - OpenAI
Des mammouths plus vrais que nature © Capture Clubic - OpenAI

Vers un cadre réglementaire renforcé

L'impact potentiel d'un outil aussi puissant que Sora sur la propagation d'informations erronées est réel. Les vidéos générées, aussi imparfaites soient-elles, restent au-delà de tout ce qui existait jusqu'alors. N'oublions pas que Sora n'est qu'au début de son existence et qu'il pourrait évoluer aussi rapidement que l'a fait Midjourney l'a fait. Il est fort possible qu'un jour, ces vidéos soient complètement indifférenciables de la réalité.

Que nous reste-t-il pour éviter cet écueil ? Cela peut paraître un peu utopiste, mais mis à part une étroite collaboration entre les gouvernements, les entreprises d'IA et les réseaux sociaux, pas grand-chose. Des mécanismes comme des « watermarks » (filigrane prouvant qu'un contenu a été généré par IA) peuvent également être envisagés. Au vu de l'ampleur du défi, sera-ce suffisant ?

  • Génération vidéo rapide et réaliste
  • Interface utilisateur intuitive
  • Intégration avec ChatGPT

Source : New Scientist