Crée en 2003, la Mozilla Foundation s'attache à fournir un grand nombre de services libres, dont le navigateur Mozilla Firefox © Mozilla Foundation
Crée en 2003, la Mozilla Foundation s'attache à fournir un grand nombre de services libres, dont le navigateur Mozilla Firefox © Mozilla Foundation

Le projet Common Voice de Mozilla, dont l'objectif est de créer une base de données vocable accessible à tous, a récemment lancé un appel pour avancer sur certaines langues représentatives des minorités, mais également sur le français.

Lancé en juillet 2017, le projet Common Voice de Mozilla a pour but de rendre accessible à tous une base de données de voix permettant d'aider au développement de services et d'applications.

Proposer, au sein des interfaces, des langues adaptées aux utilisateurs est un enjeu important, surtout depuis que la reconnaissance vocale s'est démocratisée. Cependant, il y a encore de nombreux manques, et Mozilla a besoin de toute l'aide possible pour arriver à ses fins et proposer une base de données libre et ouverte.

Le français parmi les langues les moins complètes

Pour créer une base de données vocable, il n'y a pas de secret, il faut des voix. Avec son projet Common Voice, Mozilla veut permettre à chaque utilisateur, quelle que soit la langue qu'il utilise, de pouvoir faire fonctionner la reconnaissance vocale. Toutes les langues sont concernées, y compris les dialectes représentatifs des minorités. Mais la tâche est ardue, et de nombreuses langues sont malheureusement sous-représentées dans de nombreuses bases existantes, comme l'indique Mozilla dans un communiqué récent.

« Les bases de données qui alimentent les services de reconnaissance vocale appartiennent à quelques grandes entreprises, et certaines voix y sont largement sous-représentées. Des voix comme celles des accents les moins courants, des minorités locales, mais également des personnes en situation de handicap. […] Et pour certaines langues, c'est même le désert : les données sont inexistantes »

Mozilla veut remédier à ce problème avec sa propre base de données gratuite et open source. Les besoins sont nombreux, que ce soit pour divers accents anglais ou de nombreuses langues dont l'indonésien, l'hindi, l'aragonais, le tadjik, le sicilien et le français.

Voici un exemple des phrases qu'on nous propose d'enregistrer afin d'enrichir la base de données © Clubic
Voici un exemple des phrases qu'on nous propose d'enregistrer afin d'enrichir la base de données © Clubic

Ajoutez votre pierre à l'édifice avec votre voix

Afin de réaliser leur travail, les développeurs de chez Mozilla ont besoin d'une grande quantité d'échantillons. Le français étant très recherché actuellement, vous pouvez participer à la collecte en prêtant votre voix du moment que vous êtes francophone. Que vous viviez en Belgique, au Luxembourg, en Suisse, en Amérique du Nord ou en Afrique du Nord, vous pouvez vous rendre sur la page du projet, et suivre le guide !

Pour faire simple, on vous propose tout un tas de phrases à lire à voix haute et de façon intelligible afin de créer plein de petites pistes qui seront récupérées et traitées. Mozilla demande également de fournir un certain nombre de données démographiques pour améliorer la qualité de la base de données et la précision de la reconnaissance vocale, mais, rassurez-vous, toutes les données sont anonymisées.

Afin de rendre le tout plus ludique, Mozilla vous propose de voir la progression actuelle de toutes les langues, de consulter de nombreuses données statistiques, ou encore de comparer vos progrès à ceux d'autres contributeurs.

Source : Goodtech