Fondé à Boston en 1994, Nuance Communications est le leader mondial de la reconnaissance vocale. L'entreprise, qui compte aujourd'hui 13 500 employés, dont 1700 ingénieurs et linguistes, a créé en vingt ans plus de 4600 applications d'imageries et de reconnaissance vocale. Le centre de recherche et développement d'Aix-La-Chapelle est principalement en charge du développement de l'assistant virtuel Dragon Drive pour les autos connectées, et du logiciel Dragon Naturally Speaking pour les entreprises.
Les ingénieurs du département Nuance Automotive y travaillent en étroite collaboration avec les constructeurs allemands Audi, BMW, et Mercedes pour intégrer leurs technologies vocales dans leurs systèmes d'info-divertissement embarqués. En parallèle, des linguistes de diverses nationalités oeuvrent pour adapter l'interface vocale dans les nombreuses langues d'Europe, d'Amérique du Nord et d'Asie. Le laboratoire de recherche dispose d'un studio pour enregistrer, dans chaque langue, les voix masculines et féminines de la synthèse vocale qui émane du programme Dragon Drive pour la navigation, la lecture de SMS/emails, ou des informations...
15 ans d'innovations dans l'automobile
Dialoguer avec son automobile comme on le ferait avec une personne, voici le défi que tente de relever l'éditeur américain Nuance Communications. La société a commencé à intégrer sa technologie de reconnaissance vocale dans des systèmes d'info-divertissement au début des années 2000. Au départ, l'assistant vocal permettait simplement aux conducteurs de passer et prendre des appels téléphoniques en mode « mains libres ». Au fil des années, le champ d'action de l'assistant vocal a été peu à peu étendu à la programmation GPS, la gestion de la musique, la lecture de SMS, ou encore la diffusion des informations trafic en temps réel. À partir de 2012, la firme a passé un premier cap en développant Dragon Drive Connect, une plate-forme cloud qui délivre des services et des applications personnalisées pour les autos connectées.Dans le même temps, les ingénieurs commencent à améliorer significativement le niveau de compréhension des technologies de reconnaissance vocale de Nuance grâce aux progrès réalisés dans le domaine de l'intelligence artificielle. Mise à jour quotidiennement, la dernière version de Dragon Drive Daily Update 2015 combine désormais la puissance du cloud à des algorithmes beaucoup plus précis capables d'interpréter de mieux en mieux le langage naturel. Plus besoin de dicter des phrases prédéfinies pour se faire comprendre par le dispositif, il suffit d'énoncer des commandes le plus naturellement possible : « A quelle distance est la prochaine station essence ? », « Où se situe le restaurant de fruits de mer le plus proche ? », etc. Non seulement le programme comprend mieux, mais il s'améliore à mesure qu'il est utilisé.
Le discret centre de recherche de Nuance Communications d'Aix-la-Chapelle en Allemagne.
Une nouvelle interface conversationnelle
Réservée pour l'heure aux modèles haut de gamme des constructeurs allemands précités, l'interface « conversationnelle » de Dragon Drive change radicalement la manière d'interagir vocalement avec une voiture. Basé sur une solution dite hybride (cloud et embarquée), le système de biométrie vocale s'active par le biais d'une phrase clé, ou en appuyant sur un bouton placé sur le volant, par exemple. Le dispositif s'avère en outre associé à Dragon Drive Mobile que les constructeurs intègrent dans leurs applications sous leur propre marque. Une fois connectée au système, l'appli verrouille le smartphone et permet d'accéder vocalement à ses contenus : agenda, réseaux sociaux, musique...L'un des atouts de Dragon Daily Update réside dans sa capacité à faire la conversation avec un phrasé proche de celui d'un humain. Bien plus agréables que les habituelles synthèses vocales informatiques, des voix d'hommes ou de femmes naturelles peuvent énoncer au choix les derniers titres de la presse, les résultats sportifs, les conditions de circulation, les prévisions météorologiques, ou même les publications de ses comptes Twitter et Facebook. Bluffant !
Dans la BMW Serie 7, première voiture à avoir bénéficié de la nouvelle mouture de Dragon Drive, un bouton de commande placé sur le volant permet d'activer l'assistant vocal en un clin d'œil.
Assistant virtuel sur mesure
Les fonctions de Dragon Drive diffèrent d'un modèle de véhicule et d'une marque à l'autre. « Chacun de nos clients bénéficie d'une intégration sur mesure de notre plate-forme logicielle », relate Nils Lenke, le directeur de la recherche de Nuance Communications. Sur certains modèles, l'assistant vocal peut aussi piloter des fonctions telles que la climatisation, l'éclairage de l'habitacle, la fermeture des portières, etc. Un algorithme se charge de gérer les requêtes du conducteur et de fournir une réponse à partir du système embarqué ou du cloud. Les démonstrations sont impressionnantes, mais le bon fonctionnement de certaines commandes vocales nécessitant un traitement via le cloud, reste tributaire d'une connexion viable au réseau mobile.La technologie vocale est intégrée en première monte par les ingénieurs de Nuance sur les véhicules. Chaque constructeur peut ainsi bénéficier d'une intégration personnalisée et offrir une expérience vocale différente.
Les commandes vocales font partie des fonctionnalités en vogue des autos connectées. Face à la concurrence farouche d'Apple avec CarPlay et Google avec Android Auto, Nuance Communications met les bouchées doubles pour séduire les constructeurs auto en leur proposant une plate-forme de services vocaux personnalisables. Lors de la visite du centre de recherche, nous avons pu entrevoir (mais pas photographier) différents services en charge de l'intégration de Dragon Drive dans l'habitacle et les systèmes d'info-divertissement des véhicules. Un travail très complexe, monopolisant une armée d'ingénieurs. « En fonction de la complexité du système embarqué, l'intégration complète de Dragon Drive dans un véhicule peut nécessiter entre 6 et 12 mois » explique Fatima Vital, la directrice marketing de Nuance.
Les ingénieurs testent le programme sur les « vrais » modèles de tableaux de bord et systèmes d'info-divertissement fournis par les constructeurs.
Nuance donne de la voix
De l'acoustique aux boutons de commandes vocales placés dans l'habitacle, en passant par l'affichage graphique des fonctions vocales sur l'ordinateur de bord, ou encore, la gestion des smartphones, les ingénieurs peaufinent chaque détail pour offrir l'expérience la plus pertinente possible. L'une des étapes les plus fastidieuses réside dans le développement du catalogue de synthèses vocales qui comprend actuellement 50 langues et plus de 100 voix.Christophe Couvreur, le vice-président de Nuance Communications met l'accent sur la qualité et la personnalisation de la synthèse vocale de Dragon Drive pour ses clients : « Les voix ne sont pas toutes développées à Aix-la-Chapelle, mais aussi dans d'autres centres de R&D dans le monde, notamment à Sunnyvale aux États-Unis, à Shanghai en Chine, à Merelbeke en Belgique ou encore, Turin en Italie. Quelques constructeurs de voitures choisissent des voix qui existent déjà dans notre catalogue, mais pour d'autres comme BMW ou Audi, nous avons créé des voix customisées en différentes langues. Exemple concret : Audi utilise des voix customisées en allemand, anglais et français, ainsi que des voix standards extraites de notre catalogue pour les autres langues ».
Dans le centre d'Aix-la-Chapelle, des linguistes des quatre coins du monde transcrivent les textes énoncés par l'assistant virtuel dans une vingtaine de langues.
Le centre de recherche d'Aix-la-Chapelle dispose d'un véritable studio d'enregistrement pour enregistrer des voix féminines et masculines dans de nombreuses langues, dont l'allemand, l'espagnol, le japonais, l'italien, et le russe. L'éditeur profite notamment de l'important vivier d'étudiants étrangers présents dans la ville universitaire d'Aix-la-Chapelle pour dénicher ses « acteurs voix ». Un peu comme pour le doublage d'un film de cinéma, ils doivent lire à haute voix des extraits de livres ou d'articles de journaux. Un travail titanesque qu'il faut réitérer dans chaque langue. L'éditeur va même jusqu'à faire enregistrer des variations, avec des voix présentant les différents accents qu'il peut y avoir d'une région et d'un pays à l'autre, dans une même langue. Son catalogue comprend, pour le français, des acquisitions de voix avec l'accent belge, suisse, ou québécois. La synthèse vocale de Nuance n'est toutefois pas 100 % humaine, un logiciel se charge de combler informatiquement les mots qui peuvent éventuellement manquer en imitant la voix sélectionnée.
Nuance enregistre des voix pour son catalogue de synthèse vocale dans le monde entier depuis plus de 20 ans.
Quid de la reconnaissance vocale de demain ?
Pour conclure cette visite, nous avons demandé au directeur de la recherche Nils Lenk quelles seront les prochaines évolutions des technologies vocales de la firme : « Notre système de reconnaissance et de synthèse vocale va être de plus en plus précis et performant grâce aux nouveaux progrès des technologies et des systèmes d'apprentissage automatique (deep learning, NDLR). Il permettra de parler librement à sa voiture de manière encore plus naturelle qu'aujourd'hui. Dans le fond, les systèmes deviendront plus "intelligents", en utilisant la connaissance du monde, l'accès aux ressources de l'Internet, les capteurs de la voiture, et le raisonnement pour trouver des réponses vraiment utiles aux demandes des conducteurs ».Nuance Communications entend aller beaucoup plus loin que les assistants personnels pour smartphone comme Siri d'Apple. Mais l'éditeur n'est pas le seul à exploiter les dernières avancées en matière d'intelligence artificielle (IA) pour révolutionner la reconnaissance vocale. Le laboratoire de recherche de Facebook à Paris dirigé par l'éminent chercheur en IA Yann LeCun a été créé en partie pour développer l'assistant virtuel de demain. Pour concurrencer Siri, Cortana ou encore Now, Mark Zuckerberg ambitionne de pouvoir proposer un jour sur son réseau social un assistant virtuel « plus humain » qui serait capable d'aider ses membres dans toutes sortes de tâches quotidiennes... Sans oublier l'assistant virtuel VIV créé par deux des trois fondateurs de Siri, qui s'annonce comme l'un des plus évolués jamais conçu. Encore en cours de développement, il devrait à terme être vendu sous forme de licences aux fabricants d'équipements high-tech et les constructeurs automobiles. Une chose est sure, les technologies de reconnaissance et de synthèse vocale sont promises à un bel avenir...