En mêlant l'image au son, l'IA parvient à reconnaître une, voire plusieurs voix mélangées.
Inné pour l'Homme, pas pour la machine
On en a tous fait l'expérience : en se concentrant, on parvient à isoler la voix d'une personne, même quand celle-ci s'exprime dans un environnement bruyant. Cette capacité nous est innée, et les spécialistes de la cognition l'ont baptisée séparation automatique des discours. Mais la machine est encore loin de pouvoir égaler cette prouesse du cerveau humain.La recherche s'était jusque-là attelée à trouver une solution en se concentrant uniquement sur le signal audio. Mais distinguer plusieurs voix dans un même signal audio, et parvenir à les séparer, s'avère impossible à ce jour. Une équipe d'ingénieurs en logiciel du laboratoire Google Research a donc décidé d'explorer une autre voie, en combinant les ressources de l'audio et de la vidéo.
Un visage identifié par la voix
Leur modèle d'apprentissage profond permet à une IA d'isoler séparément les signaux de plusieurs discours en même temps. La vidéo ci-dessus montre bien comment le logiciel parvient à distinguer quand John parle, quand c'est Rory qui s'exprime, quand leurs voix se mélangent, etc. Le logiciel s'est d'abord entraîné pendant 2 000 heures à identifier séparément chacune des voix sur des vidéos sans bruit de fonds, et à les associer à leur visage respectif.Une fois cette étape achevée, des bruits ont été ajoutés aux mêmes séquences pour entraîner l'IA à isoler les voix au milieu du brouhaha. Dernière étape : le même exercice avec, simultanément, deux voix connues de la machine. Celle-ci parvient à les distinguer et donc à enregistrer le signal qu'elle veut. Les ingénieurs de Google imaginent de nombreuses applications possibles à leur procédé : la captation sélective d'une voix, ou bien une reconnaissance faciale inversée, bien pratique pendant une visioconférence.