Après la vision artificielle, Google s'intéresse désormais à un autre aspect de l'intelligence artificielle : la conversion des textes en paroles. Les dispositifs d'aujourd'hui, notamment ceux embarqués au sein des outils d'accessibilité, sonnent encore très synthétiques.
Ces derniers reposent sur l'enregistrement de personnes avec une combinaison de mots calqués sur la reconnaissance textuelle. Il y a eu les travaux visant à enchainer les mots les uns après les autres (Concatenative TTS) et puis ceux visant à synthétiser la diction (Parametric TTS).
Mais Google a mis au point son projet WaveNet, lequel repose sur un réseau de neurones artificiels. WaveNet est capable d'apprendre plus de 16 000 sons par seconde pour peaufiner la diction et générer des modèles prédictifs de sons à venir en fonction des précédents.
Il en résulte alors une intonation plus naturelle proche de celle qu'un humain pourrait avoir en lisant les mêmes textes. Voici ci-dessous en anglais les différences observées :