Fotolia Intelligence Artificielle_cropped_0x0

Des chercheurs ont créé un programme automatisé visant à analyser le mouvement dans des séquences vidéos pour créer un sound design adapté et artificiel qui correspond aux images.

Le processus, nommé AutoFoley en référence au nom du métier de bruiteur dans l'industrie du cinéma, a convaincu les personnes interrogées, qui l'ont jugé bien plus efficace que les bruits effectués par les artistes Foley.

Gagner du temps et de l'argent

La notion de sound design d'un film inclut la bande originale, qui est l'ensemble des musiques composées spécifiquement pour l'œuvre ou non, le mixage des voix de chacun des personnages, principaux ou secondaires, et le bruitage plus général, qui comporte par exemple les bris de verre, les claquements de portes ou encore les bruits des coups et coups de feu dans les films d'actions. Ces derniers sont faits par des bruiteurs, appelés Foley artists, qui utilisent des objets similaires ou des processus intelligents en studio, pour des sons plus propres. Mais des chercheurs ont développé une intelligence artificielle destinée à effectuer ces protocoles de manière automatisée.

« Ajouter des effets sonores en post-production en utilisant l'art du Foley est une partie importante des bandes-son des films et de la télévision depuis les années 30 », a déclaré Jeff Prevost, professeur à l'université du Texas de San Antonio et co-créateur de l'AutoFoley. « Les films sembleraient vides sans les couches contrôlées de bande-son Foley réaliste. Cependant, ce processus ajoute aussi un temps et des coûts significatifs à la création de films. »

Des rendus plus convaincants avec une IA ?

Prevost et une de ses étudiantes, Sanchita Ghose, ont créé une machine d'apprentissage avec deux modèles différents. Le premier s'appuie sur l'identification des actions d'une vidéo, notamment en se fondant sur les couleurs et les mouvements, tandis que le second détermine le son approprié en analysant l'évolution des objets dans le cadre temporel de la vidéo. La dernière étape après ces deux pistes de travail consiste à synthétiser les sons.

Le chercheur et son étudiante ont déjà fait de nombreux clips pour tester différentes situations, et Jeff Prevost explique la complexité de la tâche : « Une limite dans notre approche est le besoin de classification, qui est présent dans toute la séquence vidéo. » Les deux modèles ont été présentés à un panel de 57 étudiants et les ont convaincus en majorité. Face au premier modèle, 73 % d'entre eux ont choisi le son automatisé plutôt que le son original, et ils ont été 66 % à être plus convaincus par le second modèle que par le son initial de la vidéo.

Source : IEEE Spectrum