Retranscrire une réunion gratuitement à l’arrache avec YouTube

Anicet Mbida
Publié le 24 juin 2015 à 10h04
Vous souhaitez économiser les 2 à 3 euros la minute que prendrait un pro ? N'êtes pas trop à cheval sur la précision ? En détournant la fonction sous-titres de Youtube, il est facile de transformer n'importe quel enregistrement audio en texte. Le résultat est loin d'être impeccable. Mais c'est gratuit, rapide et plutôt amusant.

Le saviez-vous ?

Chaque fois qu'une vidéo est déposée sur Youtube, sa bande son est passée au crible. Google commence par y rechercher des signatures audio. L'objectif ? Vérifier qu'aucune musique protégée par droits d'auteur n'est utilisée. Ensuite, s'il y détecte des voix, il applique une reconnaissance vocale et génère automatiquement des sous-titres pour les malentendants. C'est cette fonction dont on peut tirer parti pour transcrire un enregistrement.

0258000008085662-photo-sous-titres-automatiques-youtube.jpg

Première étape : convertir l'audio en vidéo

Youtube n'accepte pas directement les fichiers audio. Il faut donc d'abord les convertir en vidéo. Le principe : afficher une image prétexte, fixe, pendant toute la durée de l'enregistrement. Google explique comment s'y prendre avec un logiciel de montage vidéo comme Movie Maker ou iMovie. Mais il y a beaucoup plus simple : passer par des services en ligne.

TunesToTube, par exemple, automatise toute l'opération en quelques clics. Il suffit de se rendre sur le site www.tunestotube.com et de se connecter à son compte Youtube (on pourra le dissocier une fois la conversion terminée). En appuyant sur le bouton « Upload Files », le service invite à choisir un fichier MP3 à convertir. Le même bouton permet de charger une image prétexte, mais il est plus rapide d'en générer une avec le bouton « Create Background Image ».

08085770-photo-capture-tunestotube.jpg

Il est également possible d'ajouter un titre, une description ou de rendre la vidéo publique. Mais rien de tout cela n'est nécessaire pour une simple transcription. En revanche pour lancer la conversion et l'importation directe sur Youtube, il faudra cliquer sur « I'm not a robot » et répondre au Captcha.

Le service est gratuit. En contrepartie, il ajoute un petit message « Uploaded in HD @ TunesToTube.com » dans un coin de la vidéo. Pour autant, la piste audio n'est pas impactée. Ce qui reste l'essentiel pour notre transcription.

Autre limite, TunesToTube n'accepte pas les MP3 de plus de 50 Mo sans donation préalable. Pour s'en affranchir, les ubergeeks pourront utiliser ffmpeg et convertir n'importe quelle vidéo en MKV avec une simple commande en ligne. Tous les détails sont dans ce billet de Edward Mann.

Deuxième étape : générer les sous-titres

Une fois la vidéo déposée sur Youtube, il n'y a plus qu'à attendre. La bande son sera analysée par reconnaissance vocale et les sous-titres générés automatiquement. Seule inconnue, la durée de traitement plutôt aléatoire. Elle dépend de la longueur de l'enregistrement et de l'encombrement des serveurs Google. D'expérience, il faut compter en moyenne 30 minutes avant de voir les sous-titres associés à la vidéo. Donc patience.

Malheureusement, vous n'êtes pas prévenu quand les sous-titres sont générés. Pour le savoir, il faut accéder à la vidéo dans le gestionnaire Youtube et cliquer sur l'onglet « CC sous-titres ». S'il y a un point vert à côté de « Français (automatique) », c'est bon. On peut les télécharger.

08085786-photo-sous-titres-youtube.jpg

Cliquez sur « Français (automatique) » puis déroulez le bouton « Action » et sélectionnez télécharger au format .sbv (celui qui ajoute le moins d'indicateurs de temps au texte).

Pour nettoyer ce fichier, un simple passage par la fonction rechercher/remplacer du traitement de texte suffit. Sous Word par exemple, il est possible de rechercher n'importe quel chiffre avec le code : « ^# ». Donc pour supprimer l'ensemble des indicateurs de temps, recherchez tous les chiffres séparés par des « : » et des « . », avec la formule : ^#:^#^#:^#^#.^#^#^#,^#:^#^#:^#^#.^#^#^#^p et remplacez tout... par rien.

08085706-photo-rechercher-remplacer-un-chiffre.jpg

On obtient alors un fichier texte propre avec la retranscription complète de l'enregistrement.

Et la qualité de la retranscription ?

Pas de magie. Comme il s'agit de reconnaissance vocale informatique, il ne faut pas s'attendre à une précision extrême. Loin de là. Néanmoins, avec un bon orateur, ayant une bonne élocution, le résultat est largement lisible, même s'il reste quelques erreurs. Exemple, ci-dessous, avec le discours de Robert Badinter sur l'abolition de la peine de mort.



Mais parfois, la transcription est tellement médiocre qu'elle en devient risible. On passera plus de temps à corriger les erreurs qu'à retranscrire l'enregistrement soi-même. Un exemple éloquent, celui du célèbre hommage de Malraux à Jean Moulin reproduit ici.


Il ne faut donc pas attendre de miracles d'un tel système. S'il y a de la musique, des bruits de fond ou si plusieurs personnes parlent en même temps, oubliez ! Youtube prévient d'ailleurs qu'il n'essaiera même pas de générer des sous-titres quand les locuteurs sont difficiles à distinguer. Reste que cela peut toujours dépanner et surtout éviter de payer 120 euros pour une heure de transcription.
Anicet Mbida
Par Anicet Mbida

On me présente souvent comme le vétéran de l'informatique et des nouvelles technologies. Ma plus grande fierté ? Avoir gagné le concours des "Deux Lignes" d'Hebdogiciel dans les années 1980 et d’avoir développé des jeux pour UbiSoft quand ils étaient encore installés à Créteil dans le Val de Marne. C’est totalement par hasard que j’ai bifurqué journaliste informatique en 1994, dans un titre de presse professionnelle qui plus est (01 Informatique). Une formidable expérience qui m’a permis de commenter toutes les transformations de ces vingt dernières années et d’interviewer les plus grands : Steve Jobs, Bill Gates, Andy Grove, John Chambers, Larry Ellisson, etc. Ce qui me passionne ? L’impact social des technologies : la façon dont Internet a changé notre façon de draguer, d’acheter, de s’informer ou de se distraire. Ce portable, dernier objet que l'on regarde avant de se coucher, le premier au réveil. C’est probablement pourquoi j’ai créé la chronique Culture Geek sur BFM TV en 2009. Et même si certains ne me connaissent aujourd'hui qu'à travers ce miroir grossissant de la télévision, l’essentiel de mon métier, de mon ADN, a toujours été lié à la presse écrite. Hier comme rédacteur en chef adjoint de 01Net et de 01 Business et Technologies, aujourd'hui comme Rédacteur en Chef de Clubic Pro. N’hésitez pas à me contacter. J’essaie, dans la mesure du possible, de répondre à tout le monde.

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !
Commentaires (0)
Rejoignez la communauté Clubic
Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.
Abonnez-vous à notre newsletter !

Recevez un résumé quotidien de l'actu technologique.

Désinscrivez-vous via le lien de désinscription présent sur nos newsletters ou écrivez à : [email protected]. en savoir plus sur le traitement de données personnelles