La reconnaissance vocale : mythe ou réalité ?

La capacité des ordinateurs à reconnaître le langage humain évoque l'un des plus grands mythes de l'informatique. En effet, lorsque l'on parle de reconnaissance vocale, on a le sentiment de palper les prémices de l'intelligence artificielle. Cette idée est illusoire dans la mesure où il s'agit uniquement de reconnaissance, et non pas d'interprétation. Cette limitation n'enlève rien aux progrès spectaculaires qui ont été réalisés dans ce domaine. Jadis, avec les programmes de ce type, il était nécessaire de passer par une phase d'apprentissage longue et pénible. Les dictées ne pouvaient s'effectuer de façon fluide, il fallait souvent découper les mots pour que la reconnaissance fonctionne. Ces archaïsmes appartiennent désormais au passé. En consultant notre test, vous vous apercevrez qu'au fil des années, cette activité s'est transformée en un véritable jeu d'enfant (avec les meilleurs programmes du genre). Pour savoir comment contrôler votre machine à la voix, ou cumuler les 20 en dictée, n'hésitez pas à parcourir les quelques lignes qui vont suivre !

Pour aborder le problème de la reconnaissance vocale, nous avons décidé de tester les deux principaux programmes du marché. Tout d'abord, nous passerons en revue le module de reconnaissance intégrée à Windows Vista. Étrangement, lors du lancement de son nouveau système d'exploitation, Microsoft n'a pas, ou peu mis l'accent sur cette fonctionnalité. Cette dernière mérite-t-elle que l'on s'intéresse à elle ? La réponse ne devrait pas tarder à pointer le bout de son nez. La deuxième application ne sera pas réservée au dernier OS de la firme de Redmond. En effet, Dragon Naturally Speaking fonctionne sur les 3 principaux systèmes de Microsoft (Windows 2000, XP et Vista). Ce programme spécialisé cible un public de particulier et de professionnels. Pourquoi utiliser la reconnaissance vocale ? Le système est-il vraiment pratique ? Quelles sont les forces et les faiblesses des deux logiciels que nous avons décortiqués pour vous ? Réponse au cours des quelques lignes qui vont suivre...

Un domaine peu concurrentiel

Les plus curieux d'entre vous pourront être étonnés par le fait que ce dossier détaille deux uniques applications. Ceci s'explique par le fait que pour l'heure, l'utilisateur particulier sera limité par un choix particulièrement restreint. En effet, si le domaine professionnel reste concurrentiel, force est de constater qu'il n'en va pas de même pour les applications grand public. L'abandon d'IBM ViaVoice sur le sol français laisse le terrain libre à Dragon Naturally Speaking. Windows Vista nous sauve de ce monopole en intégrant nativement un module de reconnaissance vocale.

Les pièges de la reconnaissance vocale

Contrairement à ce que l'on pourrait penser, la reconnaissance vocale est un exercice informatique particulièrement difficile. À l'inverse de l'oreille humaine, les logiciels ne sont pas en mesure de distinguer les sons émis par la parole des bruits ambiants. Pour que le système fonctionne correctement, il sera donc impératif d'utiliser un micro de qualité (un micro-casque est fourni avec Dragon Naturally Speaking). Autre difficulté et non des moindres, la langue française compte de nombreux homophones. Ce terme désigne des mots ou groupes de mots dont la sonorité de prononciation est identique. Pour éviter ce piège élémentaire, les applications de reconnaissance vocale utilisent le contexte de la phrase. La reconnaissance sera donc plus pertinente avec de longues phrases qu'avec de petits groupes de mots. L'intonation jouera également un rôle important. Dans une conversation, l'accent ou le timbre de la voix ne gêne en rien la compréhension. Contrairement aux humains, les programmes ne sont pas en mesure de franchir cet écueil. Dans la grande majorité des cas, il faudra donc passer par une phase d'apprentissage obligatoire.

Pourquoi utiliser la reconnaissance vocale ?

Les logiciels de reconnaissance vocale offrent généralement deux fonctionnalités principales. La première qui vient à l'esprit n'est autre que la dictée vocale. Grâce à cela, il est possible de rédiger des documents sans avoir à effleurer la moindre touche de clavier. Dès lors, on comprend que cette capacité intéressera tout particulièrement les personnes pour qui la pratique intensive d'un clavier constitue encore un exercice douloureux. Les dactylographes chevronnés pourront également être séduits par le gain de temps apporté par cette technologie. En dehors des usages personnels, le domaine d'application de ces programmes est relativement vaste (pour plus d'informations, vous pourrez consulter le chapitre suivant).

La seconde possibilité offerte par les logiciels de reconnaissance vocale ne viendra pas forcément de suite à l'esprit. Pourtant, elle mérite qu'on s'intéresse à elle pour plusieurs raisons. En effet, Windows Vista ou Dragon NaturalllySpeaking donnent la possibilité de diriger intégralement son ordinateur en prononçant une liste de commandes vocales. Cette possibilité mettra nos ordinateurs bien-aimés à la portée des personnes atteintes de handicaps les empêchant d'utiliser un clavier ou une souris.

Histoire de la reconnaissance vocale

Grandes lignes de l'histoire de la reconnaissance vocale

1950 : La reconnaissance vocale est une technologie particulièrement récente. La mise au point du premier appareil capable de reconnaître des paroles remonte à 1950, soit près de 20 ans avant la naissance du premier ordinateur. La notion même de logiciel n'existait pas, ce système de reconnaissance archaïque reposait uniquement sur une machine câblée. Elle se limitait à reconnaitre les chiffres et souffrait de nombreuses imperfections.

1952 : Un modèle plus abouti fut mis au point par K.H. Davis, R Biddulph et S.Baleshek. Cet appareil analogique parvenait

Sputnik

à reconnaitre les 10 chiffres avec un bon taux de pertinence (en langue anglaise et pour une seule voix).

1958 : Suite au lancement de Sputnik par les Soviétiques, le gouvernement américain décide de fonder le DARPA (pour Defense Advanced Research Projects Agency). Cette agence est spécialisée dans la recherche et la mise au point de nouvelles technologies destinée aux applications de défense militaires. Le but est de conserver une avance technologique significative sur les nations ennemies. Dès 1971, cet organisme jouera un rôle prépondérant en matière de recherche sur la reconnaissance vocale et posera également, 10 ans plus tard, les premières bases du plus grand réseau informatique du monde à savoir l'Internet.

En 1961 : J.Dreyfus-Graff finalise un appareil justement nommé « phonétographe ». Cette machine est maintenant capable d'identifier des phonèmes. Les résultats sont excellents, mais l'utilisateur doit adapter sa prononciation pour que le système fonctionne.

1970 : La France débute ses recherches en matière de reconnaissance vocale.

1971 : Le premier dispositif commercial voit le jour. Il s'agit du « Voice Command system » de J.J.W. Glenn et M.H. Hitchcok. Ce

système autonome est alors capable de reconnaitre 24 mots isolés. Il faut cependant passer par une phase d'apprentissage (ce qui est encore le cas à l'heure actuelle). La même année, le DARPA investit la bagatelle de 15 millions de dollars dans le projet SUR (Speech Understanding Research). Le but de la manœuvre est de développer un système informatique capable de reconnaitre un langage continu. Les Américains estiment que ce projet a un fort potentiel pour des applications militaires et commerciales.

Frederick Jelinek

1972 : Frederick Jelinek rejoint les équipes d'IBM. Ce chercheur spécialisé dans la reconnaissance vocale jouera un rôle clé dans le développement de Via Voice, le logiciel phare d'IBM. Il quittera le groupe en 1993.

En 1976 :, les efforts du DARPA donnent naissance à trois systèmes : HARPY, HEARSAY I et II et HWIM.

1977 : Naissance de Microsoft

1978 : Texas Instrument commercialise un jouet nommé « Speak and Spell » (dictée magique en France). Cet appareil est l'une des premières machines à utiliser un moteur de synthèse vocale (pour la diction). Pour tester le produit en ligne, cliquez sur le lien suivant.

1982 : Une année majeure, puisqu'elle correspond à la création de la société Dragon Systems. Elle est fondée par James et Janet Baker, deux diplômés de l'Université Rockefeller

. Ces deux chercheurs s'intéressent à la reconnaissance vocale en observant les courbes provoquées par la parole humaine sur un oscilloscope. Ils ont aussi travaillé pour le CMU (Carnegie Mellon University), un acteur principal du projet de recherche de reconnaissance vocale du DARPA (voir année 1971). L'entreprise commercialisera des technologies de reconnaissances vocales. Tout au long de son existence, Dragon Systems restera à la pointe de la reconnaissance vocale. Cette entreprise signera les avancées les plus significatives en la matière.

1983 : Un avion de chasse français inaugure la première commande vocale embarquée (un an plus tard, le système est intégré en standard sur les Mirages 2000). Le Mig29A se voit également équipé d'un casque à commandes vocales. Enfin, la même année, l'Alsacienne Martine Kempf invente le Katalavox. Ce système lui permet de concevoir le premier fauteuil roulant à commande vocale. Cet ingénieur travaille aujourd'hui aux États-Unis.

1986 : Kurzweil entre dans la course à la reconnaissance vocale.

1987 : Créations de Lernout & Hauspie, une société Belge qui deviendra le leader incontesté des solutions de reconnaissance vocale en 2000 (année pendant laquelle cette société fera l'acquisition de Dragon Systems, la société à qui l'on doit Dragon NaturallySpeaking).

1990 : Dragon lance DragonDictate 30K, le premier système de reconnaissance vocale capable de piloter un PC en utilisant des commandes vocales. Le système rencontre un accueil mitigé en raison du fait qu'il est impératif de décomposer les commandes en marquant en temps de pause entre chaque mot prononcé. Quelques mois plus tard, IBM leur emboite le pas avec VoiceType.

1991 : Microsoft utilise la technologie de Dragon Systems avec son VoicePilot.

1993 : Dragon Systems commercialise le premier logiciel de reconnaissance vocale compatible avec les cartes son standard sur marché (sous Windows).

1994 : Lancement du premier système de reconnaissance vocale d'IBM sur PC.

1997 : La société Dragon procède à une démonstration de reconnaissance vocale sur un PDA made in Cupertino : l'Apple Newton MessagePad 2000. La même année, en juillet, Dragon lance la première version de Dragon NaturallySpeaking, un programme capable de reconnaitre un langage continu. En aout, IBM propose également un système de dictée vocale continue : ViaVoice. Un an plus tard, les deux compagnies cumulées vendaient 75 000 copies de leurs programmes.

1998 : Après s'être concentré sur les marchés professionnels (pour les applications téléphoniques), Phillips renoue avec le grand public en commercialisant un logiciel de reconnaissance vocale nommé Freespeech. La même année, l'entreprise Belge Lernout & Hauspie lancera ses premiers produits nommés VoiceXpress, VoiceXpress + et VoiceXpress Pro. Ces logiciels seront basés sur des technologies provenant du rachat de Kurzweil, un acteur apparu en 1986.

2000

Le 5 avril, Microsoft s'associe a Lernout & Hauspie pour intégrer les solutions de reconnaissance vocale et de synthèse vocale de la société belge à son interface de programmation vocale nommée SAPI (Speech Application Programming Interface). Cette application est destinée à simplifier le travail des programmeurs qui souhaitent développer des applications vocales.

La même année, Lernout & Hauspie concrétise un rachat majeur. Le géant absorbe Dragon Systems, une société à la pointe dans le domaine de la reconnaissance vocale. La société belge devient alors l'acteur principal de la reconnaissance vocale à l'échelle planétaire. Dragon Naturally Speaking sera donc commercialisé sous la marque L&H.

2006 : Le DARPA (Defense Advanced Research Projects Agency) prépare une super machine dédiée à la traduction. Cet organisme ambitionne de développer un logiciel capable de traduire de façon quasi simultanée l'arabe et le mandarin avec une précision accrue. L'appareil devrait être utilisé par les renseignements américains pour écouter et parcourir tous les médias existants (radio, conversations téléphoniques, émissions TV, sites Web, etc.) dans le but de filtrer des informations stratégiques...

Quelques dates clés de la commercialisation des logiciels en France

1993 : Microsoft propose un système de reconnaissance vocale intégré sur PC. La même année, Apple présente un appareil nommé Quadra 840 AV. Ce dispositif est capable de reconnaitre 4000 commandes vocales.

Novembre 1995 : Dragon Systems lance la première version française de DragonDictate au prix de 8 000 francs. Rappelons que ce programme n'était pas encore capable d'interpréter un langage continu (il fallait alors marquer un temps de pause entre les mots). La dictée n'était pas non plus de la partie, il s'agissait simplement de piloter un ordinateur à l'aide de voix.

Février 1998 : Dragon Naturally Speaking 2 est vendu 950 FF (140 euros). Le programme est maintenant capable d'interpréter une phrase continue.

Septembre 1998 : Sortie en France de Dragon Naturally Speaking Preferred. Le programme entre alors en concurrence avec ViaVoiceGold d'IBM. Ces deux protagonistes se partagent le marché français.

1999 : « Philips Speech Processing » est le premier acteur à rejoindre IBM et Dragon System. La célèbre firme hollandaise publie Freespeech98, un logiciel capable d'interpréter un langage continu (il n'est donc plus nécessaire de marquer des temps de pause entre les mots). Avant cette incursion dans le marché grand public, Philips avait réservé cette fonctionnalité au marché professionnel.

Premier trimestre 1999 : un quatrième acteur débarque sur le marché français. Il s'agit de Lernout & Hauspie, un géant belge spécialisé (entre autres) dans les programmes de reconnaissance vocale. Cet éditeur proposera les logiciels VoiceXpress standard, Voice Xpress advanced et Voice Pro.

Anecdotes et prédictions concernant la reconnaissance vocale

Les prédictions de Bill Gates...

Perds pas la boule, Bill.

Bill Gates a toujours pensé que la reconnaissance vocale allait profondément bouleverser de monde de la micro-informatique. Pour s'en convaincre, il suffit de jeter un œil sur le recueil de citations suivant (en anglais). Cette compilation regroupe pas moins de 28 déclarations s'échelonnant sur une période de 11 ans. En bref, pour ceux et celles qui n'auraient pas le courage d'affronter ce listing, nous avons compilé quelques-unes de ces citations :

En 1997, le fondateur de Microsoft nous apprend que dans dix ans (en 2007, donc), la reconnaissance vocale remplacera le clavier et la souris... Cinq jours plus tard, cette période est ramenée à 5 ans.

En janvier 1998, Monsieur Gates déclare que dans les cinq prochaines années, la reconnaissance vocale fera partie intégrante de Windows et que cette dernière constituera une interface à part entière. Finalement, elle sera réellement intégrée sans tambours ni trompète en 2007 avec Windows Vista (au vu des faibles performances, on comprend aisément ce déni d'intérêt).

En juin 1998, il déclare que dans un laps de temps compris entre trois et six ans, la reconnaissance vocale sera intégrée au cœur du système d'exploitation. Selon lui, les applications devraient se greffer sur ce module, et en tirer parti avantageusement.

Clou du spectacle : en 2005, Bill Gates déclare que la reconnaissance vocale va être intégrée en standard. Pourquoi pas, Vista entérine cet état de fait. Les choses se gâtent lorsqu'il déclare qu'il y a de fortes chances (appréciez la nuance) pour que dans trois ans (donc, aujourd'hui), cette technologie devienne réellement grand public...

Cliquez ici pour consulter l'intégralité des déclarations (en anglais).

La prédiction de John Pierce

En 1969, John Pierce, du laboratoire Bell d'AT&T (reconnaissance vocale) déclare que la mise au point de la reconnaissance automatique de la parole ne deviendra pas une réalité avant plusieurs décennies. L'ingénieur étaye ses dires en précisant que ce procédé nécessiterait l'utilisation d'une intelligence artificielle.

La vidéo « choc » de Windows Vista

L'histoire des présentations officielles de Microsoft est parsemée d'incidents involontairement comiques. Par exemple, les vieux de la vielle de la micro se souviennent probablement du tollé provoqué par l'écran bleu qui suivit l'insertion d'une certaine prise USB... S'agit-il d'une marque de fabrique ? Tout pourrait porter à le croire. Figurez-vous que la reconnaissance vocale de Windows Vista n'a pas échappé à cette loi des séries (noires). Pour vous en convaincre, vous pourrez visionner la vidéo de présentations suivante... Bill, es-tu là ?

Vidéo de présentation de l'« ordinateur parlant »

Une vidéo culte du journal télévisé d'antenne 2 de 1981 nous présente un ordinateur parlant. Le système reconnaît une centaine de mots (1 000 dans 5 ans d'après le reporter) et il est présenté comme étant révolutionnaire. Il permettait de concevoir des circuits électroniques en réduisant le temps de travail par deux (à cette époque, une heure passée sur un ordinateur coutait relativement cher). Le présentateur déclare que dans 5 ans, un tel procédé pourrait être intégré dans une machine à laver, ou dans une cuisinière électrique...

Cliquez ici pour accéder à la vidéo « Ordinateur parlant » de l'Ina.

Les domaines d'application

L'État, l'armée et les renseignements :

Le domaine d'application des programmes de reconnaissance vocale est particulièrement vaste. Tout d'abord, il est impossible d'aborder ces technologies sans parler des problématiques de défense militaire. Les personnes qui ont consulté le chapitre consacré à l'historique de la reconnaissance vocale ont pu constater que dès 1971, le département de la défense américain a investi une somme colossale dans la recherche et le développement de cette technologie. L'enjeu stratégique et militaire de la maîtrise de ce procédé s'impose comme une évidence à l'heure des guerres industrielles et des menaces terroristes. À ce sujet, les excellentes performances des logiciels à destination des particuliers laissent supposer que les systèmes utilisés par l'armée et les services de renseignement bénéficient d'une puissance de calcul et d'une capacité de traitement particulièrement importantes.

Le domaine professionnel :

En second lieu, on pourra bien sûr parler des applications professionnelles. Les programmes de reconnaissance vocale sont largement utilisés dans le domaine médical. Leur utilisation accélère le traitement des rapports et comptes rendus. Ce domaine n'est évidemment pas le seul à bénéficier de ces technologies, de nombreux autres corps de métiers tertiaires utilisent la reconnaissance vocale (justice, bureau d'études, etc.).

Le domaine personnel : Enfin, les particuliers ne sont pas en reste.

La reconnaissance vocale est présente partout autour de nous et de nombreuses personnes l'utilisent au quotidien sans même s'en rendre compte. On pourra citer l'exemple des téléphones portables capables de composer un numéro lorsque l'on prononce le nom d'un contact donné. De nombreux standards téléphoniques (qui a parlé de nos FAI bien-aimés ?) utilisent aussi la reconnaissance vocale. Bien sûr, les personnes qui sont amenées à taper de longs textes pour un usage personnel ou professionnel simplifieront leur travail en utilisant un logiciel de reconnaissance vocale. Dans un autre registre, il existe un certain nombre d'applications médicales capables de faciliter la vie des personnes attentes de lourds handicaps.

Même si à l'heure actuelle, la reconnaissance vocale n'occupe pas la place de choix qui avait été annoncée par les grands noms de l'informatique, elle demeure tout de même présente dans bien des domaines. En dépit de toutes ces prédictions erronées, la probabilité que la reconnaissance vocale soit utilisée à une plus large échelle reste toujours d'actualité.

Secrétaire en péril ?

À l'époque, le taux de reconnaissance des programmes de dictée était loin d'être excellent. D'énormes progrès ont été réalisés en la matière et on peut maintenant dire que les meilleurs logiciels du genre offrent une reconnaissance quasi parfaite. On pourra donc se poser des questions concernant les métiers de la dactylographie. Pour éclaircir ce point, nous avons interrogé le responsable d'un cabinet de radiologie équipée de plusieurs postes sur lesquels est installé un logiciel de reconnaissance vocale professionnel. Ce retour d'expérience ne peut pas être pris pour une généralité. Toutefois, il est tout de même intéressant d'apprendre que dans ce cabinet, le déploiement de cette technologie n'a pas mis d'emplois en péril. Ce pré-traitement permet de gagner un temps précieux, mais il est toujours nécessaire d'effectuer une vérification finale. L'accélération du traitement permet aux clients de repartir presque instantanément en possession de son compte rendu de visite. En résumé, l'intervention humaine reste indispensable, mais le gain de temps obtenu accélère les procédures.

Windows Vista : la phase d'apprentissage

À propos de Windows Vista

Un module de reconnaissance vocale natif (Speech) est intégré dans toutes les éditions de Windows Vista (édition familiale basique comprise). Étrangement, cette fonctionnalité n'est pas celle qui a été la plus mise en avant par Microsoft lors du lancement de son nouveau système phare. Ce manque d'intérêt se confirme lorsqu'on consulte le tableau comparatif des différentes versions. Le module de reconnaissance vocale n'est même pas mentionné sur le site de Microsoft ( cliquez sur le lien suivant pour observer le tableau comparatif ). Les faibles performances de cette partie pourraient-elles être à l'origine de ce manque de médiatisation ? Réponse en parcourant notre test.

Déroulement du tutoriel d'apprentissage

Le tutoriel de prise en main du module vocal de Windows Vista est particulièrement long. Ce qui pourrait passer pour un défaut se révèle être un choix judicieux. En effet, il est impossible de nier la qualité des informations qui sont transmises tout au long des étapes de cet apprentissage. L'assistant vous guidera pas à pas de manière à ce que vous saisissiez tous les tenants et les aboutissements du contrôle vocal. Pendant ces étapes, vous apprendrez à réaliser une dictée vocale ou mieux encore, à contrôler intégralement votre ordinateur sans effectuer le moindre clic de souris ! Windows Vista exploitera les sons que vous émettrez lors de tous ces exercices pour adapter le module de reconnaissance à votre timbre de voix. L'idée d'affiner la reconnaissance sans que l'utilisateur ait l'impression de passer une épreuve rébarbative est excellente.

De fausses performances ? Dès les premiers exercices de dictée, tout porte à croire que la reconnaissance est extrêmement puissante. Une fraction de seconde après avoir prononcé les phrases demandées, les blocs de texte apparaîtront dans Notepad de sous vos yeux éblouis. Cette efficacité est illusoire, même en modifiant l'ordre des mots prononcés, on s'étonne de constater que l'ordinateur interprète la phrase demandée (voir photo ci-dessous) ! Pire encore, lorsque l'ordinateur nous a demandé d'épeler le mot « Renaud », le programme a été incapable de reconnaître la lettre N. En répétant plusieurs fois cette même lettre, les caractères N, A, U, D se sont affichés miraculeusement à l'écran ! Pourtant, l'ordinateur avait déjà eu le temps de s'habituer à notre timbre de voix. En effet, nous avions déjà exécuté et complété toutes les étapes de ce même tutoriel à trois reprises !

0384000001598050-photo-vista-appuyer-sur-une-touche-du-clavier.jpg

Pour la première phrase, inversez l'ordre des mots ce qui nous donne : «parler à l'ordinateur est facile un exercice ». Vous pourrez alors vous étonner de voir la phrase s'afficher sans la moindre faute. De qui se moque-t-on ?

0384000001598068-photo-vista-je-r-p-te-le-mot-n-et-il-marque-automatiquement-toute-la-fin-du-nom.jpg

Lors des exercices pratiques, l'efficacité du module de reconnaissance est totalement illusoire. En dictant quatre fois la lettre N., le programme a complété le nom propre en utilisant les bonnes lettres. La plaisanterie est d'assez mauvais goût.

À l'issue des exercices du tutoriel, l'apprentissage pourra s'avérer insuffisant. Vous pourrez alors réhabituer l'ordinateur à votre voix sans forcément passer par le premier tutoriel. Une boîte de dialogue s'affichera et vous devrez alors répéter de nombreuses phrases qui s'afficheront à l'écran. En somme, cette étape évoque la phase d'apprentissage de DragonDictate (voir photo de ci-dessous).

Malheureusement, il ne faudra pas s'attendre à des miracles. Après avoir passé cette (longue) phase de dictée censée améliorer la reconnaissance, le programme se bornait toujours à commettre des erreurs grossières.

Capture d'écran du tutoriel d'apprentissage

Comme vous pourrez le constater en visualisant ces quelques clichés, le tutoriel d'apprentissage de Windows Vista bénéficie d'une esthétique agréable. L'aspect visuel est une chose, l'ergonomie en est une autre. Sur ce second point, le logiciel de Microsoft confirme son bon niveau de finition. L'utilisateur est parfaitement pris en main, les exercices sont bien pensés et la difficulté est progressive. Les étapes sont certes longues, mais l'enseignement est promulgué de façon pédagogique. Dommage que l'algorithme de reconnaissance ne bénéficie pas de ce niveau de finition.

Le tutoriel d'apprentissage est très bien réalisé. Il prendra les nouveaux utilisateurs par la main et leur apprendra toutes les notions de base indispensables.

Les morceaux choisis :

015E000001598074-photo-vista-on-ne-demande-qu-a-te-croire.jpg

Exemple d'une phrase qu'il est nécessaire de dicter pendant l'apprentissage complémentaire... sans commentaires / Eh oui, Speech est un programme comme un autre, avec les avantages et les inconvénients que cela comporte...

Windows Vista à l'heure de la dictée

Taux de reconnaissance

Après avoir fini le tutoriel d'apprentissage, nous avons pu constater que le taux de reconnaissance était loin de donner satisfaction. Pourtant, Windows Vista profite des exercices du tutoriel pour adapter ses paramètres à la voix des utilisateurs. Le micro aurait pu être en cause, mais nous avons utilisé le même matériel que lors du test de DragonDictate. Nos doutes se sont portés sur les paramètres audio, mais cette fois encore, nous avons pu constater que tout était en ordre. Pour invalider la thèse du mauvais apprentissage, nous avons décidé de relancer une procédure d'entraînement. Au final, nous avons réalisé toutes les étapes du tutoriel d'apprentissage à trois reprises et avons même procédé à une dictée censée améliorer la reconnaissance. Il ne fait donc aucun doute que toutes les conditions du succès étaient réunies lors de notre test.

Comment corriger ses erreurs

Un ensemble de commandes vocales permettent de corriger ses erreurs sans avoir à utiliser sa souris ou son clavier. Vous pourrez prononcer ces instructions à n'importe quel moment sans qu'elles soient interprétées comme étant de simples blocs de texte (elles n'apparaîtront donc jamais dans votre document sous forme de mots).

Sélectionner un mot : la sélection d'un mot s'effectue le plus simplement du monde. Prononcez simplement la commande « Sélectionner {nom du mot que vous souhaitez sélectionner} ». Le programme de reconnaissance sélectionnera alors le mot que vous souhaitez corriger, modifier, ou remplacer.

Effacer un mot ou une portion de texte : pour effacer un mot sélectionné le prononcer la commande « Supprimer cela ». Pour effacer un bloc de texte, commencer par le sélectionner. Vous n'aurez qu'à prononcer la commande « Sélectionner {premier mot de la sélection} jusqu'à {dernier mot de la sélection} » pour mettre le bloc de texte souhaité en surbrillance. Après, il ne nous restera qu'à prononcer la commande de suppression (« Supprimer cela »).

Se déplacer dans le document : Vous souhaitez déplacer le curseur dans le bloc de texte ? Prononcez simplement la commande : « Aller à {nom du mot devant lequel vous voulez placer le curseur}. Il est également possible de prononcer les commandes « Aller à la fin du document » ou « Aller au début du document » pour naviguer aux endroits correspondants.

0384000001598044-photo-vista-aller-a-un-endroit-du-document.jpg

Epeler un mot : Pour épeler un mot, sélectionnez-le en utilisant la commande appropriée (voir commandes précédentes). Dans la boîte de dialogue, vous pourrez voir le mot « Epeler » souligné en bleue comme s'il s'agissait d'un hyperlien. Prononcez donc la commande « Epeler », vous pourrez alors dicter les lettres une par une.

Faire défiler l'ascenseur : Vous pourrez naviguer dans le texte que vous êtes en train de dicter en utilisant l'ascenseur. Pour ce faire, vous prononcez simplement les commandes « Faire défiler vers le haut » ou « Faire défiler vers le bas ». Il sera aussi possible d'agir sur la vitesse de défilement en indiquant un chiffre compris entre 1 et 20 (exemple : « Faire défiler vers le bas 10 ») .

Windows Vista prend le contrôle

Principe de la prise en main du système d'exploitation

Le fait que le module vocal soit intégré au cœur du système d'exploitation même donne probablement un avantage systèmes de Microsoft. Il ne fait aucun doute que dans son principe, le système de contrôle de l'ordinateur est particulièrement bien pensé. En résumé, pour contrôler l'ordinateur, deux possibilités s'offriront a vous. La première est enfantine puisqu'elle consiste à prononcer oralement le nom des boutons et commandes visible à l'écran. Le second système est bien plus ingénieux. En prononçant la commande « Afficher les numéros », vous activez l'affichage d'une grille numérotant chacun des boutons présents à l'écran. Il ne vous restera alors qu'à prononcer le numéro du bouton, suivie de la confirmation vocale « OK ». Malheureusement, la pauvreté du taux de reconnaissance tuera toutes ces bonnes idées dans l'œuf.

Exemple de commandes

Cliquez quelque part : pour interagir avec Windows, il suffit de prononcer le nom de l'élément qui est affiché à l'écran. Dans l'exemple ci-dessous, la commande « Double - cliquez sur Images » ouvre le répertoire d'images. Il est possible de cliquer, double-cliquer, ou effectuer des clics droit ou des clics gauche.

0384000001598078-photo-vista-souris-1-le-double-clic.jpg

Changer de programme plusieurs façons vous permettront de basculer d'un programme à l'autre. La plus simple d'entre elles constituera à prononcer la commande « Basculer vers {nom du programme ouvert} ».

Fermer un programme : Pour fermer un programme prononcez la commande « Fermer cela ». Difficile de faire plus simple.

Réduire la fenêtre d'un programme : Vous ne devriez pas avoir de mal à retenir cette commande : prononcez simplement la phrase « Réduire cela » lorsque vous voulez réduire une application qui est exécutée au premier plan.

Renseigner un formulaire : Pour enseigner un formulaire prononcez simplement « Aller à {nom du formulaire} (voir exemple ci-dessous).

Démarrer une application : pour démarrer WordPad, prononcez la commande « Démarrer Wordpad ». Vous pouvez également prononcer successivement les commandes « Demarrer / Tous les programmes / {nom du programme à démarrer}.

Déplacer la souris : Microsoft emploie une technique radicalement différente de DragonDictate. En prononçant la commande « Grille de souris », vous afficherez un damier sur l'écran de l'ordinateur. Il ne vous restera alors qu'à prononcer un ou plusieurs chiffres correspondant à la zone où vous souhaitez déplacer la souris.

02BC000001598076-photo-vista-reconnaissance-vocale-grille.jpg

Dans son principe, la grille de souris est similaire à la grille des numéros (voir paragraphe suivant).

Comment utiliser la grille de numéros

Comme expliqué en introduction, il est possible d'agir avec Windows en affichant une grille de numéros (commande : « Afficher les numéros »). Vous n'aurez alors qu'à prononcer le numéro du bouton qui vous intéresse pour que Windows simule un clic de souris. Au besoin, vous pourrez également demander l'exécution d'un double clic, ou d'un clic-droit.

Dragon NaturallySpeaking : la phase d'apprentissage

À propos de Dragon NaturallySpeaking

À l'heure actuelle, en dehors du module de reconnaissance de Windows Vista, Dragon NaturallySpeaking n'a pas de concurrent sur le sol français (pour le domaine particulier et semi-professionnel). Pour mieux cerner ce qui se cache derrière ce nom commercial étrange, il est important de connaître l'histoire du programme. Les utilisateurs les moins initiés pourront penser qu'il s'agit d'une application parmi tant d'autres, mais il n'en est rien. Les deux fondateurs de l'entreprise qui est à l'origine de Dragon NaturallySpeaking (Dragon Systems) ont contribué aux recherches sur la reconnaissance vocale menées par le département de la défense des États-Unis dès 1971. Pour de plus amples précisions sur le sujet, vous pourrez consulter le chapitre que nous avons consacré à l'histoire de la reconnaissance vocale.

Déroulement du tutoriel d'apprentissage

En matière d'apprentissage, l'approche de Dragon NaturallySpeaking est radicalement opposée à celle de Microsoft. Vista mise sur un tutoriel long, mais pédagogique. À l'inverse, Dragon catapulte ses utilisateurs après sept minutes de lecture d'un texte qui ne donnera aucune information sur le fonctionnement du logiciel ! Pour en savoir un peu plus, il faudra parcourir le traditionnel fichier d'aide au format texte, ou pratiquer les exercices d'un didacticiel particulièrement austère. Ce dernier se borne à indiquer une suite d'actions à réaliser sous forme de texte.

Bien sûr, avant de commencer la phase d'apprentissage, un assistant adaptera les paramètres audio. Dans un premier temps, il se chargera d'adapter le volume. Une seconde boîte de dialogue se chargera d'évaluer la qualité sonore.

Les niveaux sonores faibles et les mauvaises qualités d'écoute nuisent considérablement à la qualité de reconnaissance. Cet assistant vérifiera les paramètres sonores.

En fin de procédure, le logiciel procédera à un type d'analyse totalement absente de la procédure de Windows Vista. En effet, pour mieux s'adapter à votre style d'écriture, les développeurs de Dragon NaturallySpeaking ont eu la brillante idée de scanner tous les documents texte qui se trouvent dans le répertoire « Mes documents » (au format RTF, DOC, DOCX, etc.). Après s'être imprégné de votre style, le programme aura moins de mal à interpréter vos locutions. Cette trouvaille est excellente, mais nous aurions aimé pouvoir sélectionner manuellement une liste de documents à analyser. Il est également dommage que cette analyse soit limitée au répertoire « Mes Documents ».

Au cours de cette étape, l'assistant de Dragon NaturallySpeaking passera en revue les messages et documents de manière à analyser votre style d'écriture (voir bouton radio coché dans la photo ci-dessus).

Captures d'écran du tutoriel d'apprentissage

Vous pourrez choisir le texte que vous devrez prononcer pour adapter le logiciel à votre voix

Une flèche jaune vous indiquera le début d'une phrase à prononcer / Lunettes et tête identiques à l'assistante de Vista. Lequel a copié sur l'autre ?

Dragon NaturallySpeaking à l'heure de la dictée

Taux de reconnaissance

Mettons de suite au suspense, une brève période d'apprentissage (de sept minutes tout au plus) suffira à Dragon NaturallySpeaking pour reconnaître vos paroles avec un taux de reconnaissance proche de la perfection. Nous touchons là le point fort du logiciel. Dès les premières minutes d'utilisation, on ne peut qu'être surpris par l'efficacité du programme. Non seulement la reconnaissance est quasi parfaite, mais en plus, l'optimisation est au rendez-vous. Dragon NaturallySpeaking fonctionne parfaitement, et rapidement, même sur les machines les moins puissantes (un processeur d'un gigahertz fera parfaitement l'affaire).

Comment corriger des erreurs

Plusieurs commandes vocales permettent de corriger des erreurs sans avoir à utiliser sa souris ou son clavier. Vous pourrez prononcer ces instructions à n'importe quel moment, elles ne seront jamais interprétées comme étant de simples blocs de texte (elles n'apparaîtront donc jamais dans votre document sous forme de mots).

Sélectionner un mot : Si un mot n'est pas orthographié correctement, prononcez simplement la phrase : « Sélectionner, {nom du mot mal orthographié} » pour le mettre en surbrillance. Un menu à choix multiple vous affichera une liste de proposition. Si le mot n'est pas présent, choisissez simplement la fonction « Epeler ».

Effacer un mot ou un caractère : Comme nous l'avons vu, il sera possible de sectionner un mot en particulier. Pour l'effacer, prononcez simplement la commande : « Effacer ça ». Pour supprimer un seul caractère, il suffit d'annoncer la commande « Retour arrière ». Pour supprimer le caractère suivant, dites simplement « Effacer le caractère suivant ». Il est aussi possible de supprimer le mot qui suit grâce à la commande « Effacer le mot suivant ».

Se déplacer dans le document : Prononcez simplement la phrase « Fin de document ».

Insérer des mots : Le placement du curseur à l'intérieur d'un bloc de texte est particulièrement simple. Prononcez simplement les commandes « Insérer avant {nom du mot dans le document} » ou « Insérer après {nom du mot dans le document} ».

Dragon NaturallySpeaking prend le contrôle

Principe de prise en main

L'utilisation d'un logiciel de reconnaissance vocale est idéale lorsque l'on souhaite saisir beaucoup de texte. Cette fonctionnalité majeure nous ferait presque oublier que de nombreux programmes proposent également de contrôler son ordinateur à l'aide de la voix. Dragon NaturallySpeaking fait partie de ce logiciel. Voyons comment se déroule une prise en main vocale.

Exemples de commandes

Sélectionnez ce que vous voyez : Tout comme avec Speech sur Windows Vista, il est possible de sélectionner les éléments visibles à l'écran en prononçant simplement leur nom (« Fichier » pour cliquer sur le menu Fichier, par exemple).

Démarrer et fermer des programmes : Pour démarrer un programme, dites simplement « Demarrer , {nom du programme} ». Pour le fermer, dites « Fermer la fenêtre », ou utilisez les menus en disant « Fichier/ Fermer ».

Agir sur les fenêtres : Pour contrôler les fenêtres, vous pourrez utiliser les commandes « Maximiser les fenêtres » , « Minimiser les fenêtres », ou « Restaurer les fenêtres ». Tout comme Vista, DragonNaturally Speaking supporte la fonction « Basculer vers ».

Agir sur les menus des programmes : Pour agir sur les menus des programmes, prononcez simplement le nom du menu. L'éditeur précise que la reconnaissance est améliorée lorsqu'on précède les commandes du mot « Cliquer ».

Provoquer un défilement vertical et vertical : Vous pourrez agir sur le défilement d'un document texte ou d'une page Web (par exemple) en prononçant la commande « En haut, à droite, en bas, à gauche » précédée d'une valeur de vitesse (comprise entre 1 et 20).

Simuler une frappe de clavier : Tout comme avec le module de reconnaissance vocale de Windows Vista, il est possible de simuler la frappe d'une touche. Pour ce faire, il suffira de prononcer la commande « Appuyer sur {nom de la touche en question} ».

Déplacer la souris : Dragon Dictate offre deux possibilités pour déplacer le pointeur de la souris. La première n'est pas sans rappeler Speech (sur Windows Vista). En prononçant la commande « Damier de souris », une grille s'affichera alors à l'écran, vous n'aurez plus qu'à indiquer le numéro d'un carré pour placer le curseur.

La seconde méthode est plus conventionnelle : prononcez la commande « Souris » suivie d'une valeur de déplacement (de 1 à 10) puis, indiquez la direction (en haut, en bas, à gauche, à droite). Il est également possible de forcer une vitesse de déplacement (« Plus vite, très vite, bien plus vite... »). Pour stopper le curseur, dites « Arrêtez, Stop, ou Annuler ».

Test vidéo de Dragon NaturallySpeaking

Quoi de mieux qu'une petite poignée de vidéos pour mettre à l'épreuve nos deux protagonistes. Au cours de ces différents tests, vous pourrez évaluer l'aptitude de Windows Vista et Dragon Naturally Speaking à interpréter les paroles du langage humain. Ces applications ont été confrontées à deux tests. Dans un premier temps, nous avons dicté un document texte. Comme vous pourrez le constater, en fonction du programme, la qualité de l'interprétation pourra varier du tout au tout. La seconde épreuve consiste en une session inhabituelle de surf sur Internet. Lors de cette épreuve, nous verrons s'il est réellement possible de visiter un site Web sans utiliser son clavier et sa souris.

Remarque : La qualité sonore des fichiers vidéos n'est pas excellente. Ceci s'explique par le fait que nous avons utilisé la même entrée que celle qui est exploitée par les programmes de reconnaissance vocale que nous avons testés. Le micro utilisé est de bonne facture, mais les applications de reconnaissance abaissent souvent le volume de l'entrée son. L'augmentation du volume et la compression sont responsables de cette perte de qualité.

Dragon NaturallySpeaking Vidéo test de dictée

Texte dicté :
Ceci est un test de reconnaissance vocale. Comme vous le constatez, Dragon NaturallySpeaking est relativement puissant. En effet, le nombre d'erreurs constatées est particulièrement faible. Pourtant, nous ne ménageons pas le programme. En effet nous allons essayer de prononcer la phrase suivante le plus rapidement possible. Il ne fait aucun doute que la pertinence de la reconnaissance a de quoi étonner.

Texte reconnu :
Ceci est un test de reconnaissance vocale. Comme vous pourrez le constater, Dragon NaturallySpeaking est relativement puissant. En effet, le nombre d'erreurs constatées est particulièrement faible. Pourtant, nous ne ménageons pas le programme. En effet nous allons essayer de prononcer la phrase suivante le plus rapidement possible. Il ne fait aucun doute que la pertinence de la reconnaissance a de quoi étonner.

Dragon NaturallySpeaking : vidéo test du contrôle de l'ordinateur

Speech (Vista) : vidéo test de dictée

Texte original :
Ceci est un test de reconnaissance vocale. Nous allons tester l'aptitude de Windows à reconnaître les phases que nous prononçons. Étrangement certains blocs de texte seront bien reconnus. Malheureusement dans la majorité des cas, des erreurs grossières pourront être constatées. Par rapport à son concurrent, le programme de Microsoft souffre d'un second défaut majeur. En effet, le programme de dictée vocale de Windows Vista pourra uniquement être utilisé avec les traitements de texte de Microsoft. Cette limitation est vraiment regrettable.

Texte reconnu :
Ceci est un test de reconnaissance vocale. Nous allons testé l'aptitude de windows à à reconnaître les phrases que nous prendrons son point étrangement certains blocs de texte seront bien reconnue. Ne alors haussement dans la majorité des cas, des erreurs grossières pourront être constatées. Parlé par son concurrent le programme certains souffrent d'un second défaut majeur. En effet, le programme de dictée vocale de Windows Vista trois uniquement être utilisés avec les traitements de texte de Microsost. Cette limitation est vraiment regrettable.

Speech (Vista) : vidéo test du contrôle de l'ordinateur (surf)

Dragon Naturally Speaking VS Windows Vista : verdict

Pertinence de la reconnaissance : Depuis Windows Vista, la reconnaissance vocale est intégrée nativement dans toutes les versions de l'OS grand public de Microsoft. En partant de ce

postulat, on ne donne pas cher de la peau de Dragon NaturallySpeaking (rappelons que ce logiciel est uniquement disponible sous Windows). Contre toute attente, il semblerait bien que l'ancêtre de la reconnaissance vocale ait encore de beaux jours devant lui. Lors des exercices de dictée, le taux de reconnaissance de Dragon NaturallySpeaking s'est montré largement supérieur à celui de Windows Vista. Par rapport au système de Microsoft, les bénéfices ne s'arrêtent pas à cette caractéristique pourtant primordiale. En effet, pour la dictée, Windows Vista est limité à Word, Wordpad, ou au bloc note. À l'inverse, il sera possible d'utiliser le programme de Nuance avec la quasi-totalité des applications pouvant accepter du texte.

À propos de performances requises : Non seulement Dragon NaturallySpeaking bat son concurrent à plates coutures, mais en plus, il enfonce le clou en réclamant des performances moindres ! En effet, nous avons pu constater que Dragon NaturallySpeaking fonctionnait parfaitement sur un Netbook équipé d'un processeur Atom cadencé à 1.6 Gigahertz (MSI Wind). Rappelons qu'à titre de comparaison, ce CPU s'apparente à un Pentium III de un Gigahertz. En dépit de ces faibles performances, le programme de Nuance est tout de même parvenu à donner entière satisfaction ! Ne comptez pas réaliser la même prouesse avec Speech (le programme intégré à Windows Vista). Lors d'un test réalisé sur un Athlon 64 de trois gigahertz, le programme de Microsoft accusait de nombreux retards de compréhension.

À propos du contrôle vocal de la machine : Le module de reconnaissance vocale de Windows Vista est moins performant que celui de Dragon NaturallySpeaking. Ce handicap pénalise l'expérience du contrôle vocal. Ceci étant dit, il faut bien avouer que l'intégration de Speech au cœur du système donne un avantage certain à Microsoft (pour ce qui est du contrôle vocal). En effet, l'idée de placer une grille de numéros en face des boutons actionnables est excellente. Malheureusement, comme nous l'avons souligné, la piètre qualité des interprétations vocales tuera l'initiative dans l'œuf. Quant à lui, Dragon NaturallySpeaking s'avèrera beaucoup moins pratique à utiliser. Il suffirait de combiner les forces de Vista à celles de Dragon NaturallySpeaking pour que le contrôle vocal se transforme en un véritable jeu d'enfant.

Au final : Des deux activités principales que sont le pilotage de la machine et la diction du texte, on retiendra surtout la seconde. Il ne fait nul doute que la pratique d'un bon logiciel de reconnaissance vocale (Dragon NaturallySpeaking, au hasard) modifiera profondément votre rapport à la bureautique ! En effet, le gain de temps dégagé par cette technologie est particulièrement important. En plus de cela, contrairement aux phases de « clavardage » rébarbatives, un aspect ludique indéniable se dégage des sessions de diction de texte. Dans un premier temps, le rédacteur en herbe aura l'impression de se sentir pousser des ailes, mais attention, le meilleur des programmes ne permettra pas d'éviter les séances de relecture. Par rapport au clavier, il faudra également s'habituer à formuler intégralement sa phrase avant de commencer à la dicter. En effet, contrairement à ce que l'on pourrait penser, une phrase longue est toujours plus facile à interpréter qu'un simple bloc de texte (ces programmes analysent le contexte de la phrase pour améliorer la pertinence de la reconnaissance). L'air de rien, cet exercice intellectuel demandera parfois un certain temps d'adaptation. Quoi qu'il en soit, pour ce qui est des travaux de dactylographie, le bénéfice apporté par un bon logiciel de reconnaissance vocale est indéniable.

Réagissez à cet article en utilisant le forum associé.

Les plus

-Fourni avec Windows
-Tutoriel long, mais bien construit
-Bonne intégration dans le système

Les moins

-Vista uniquement
-Reconnaissance (très) aléatoire
-Ne fonctionne pas avec Open Office,
ou tout autre programme que Word...
-Impossible de supprimer les
données de reconnaissance vocale

Reconnaissance3

Correction (texte)7

Contrôle vocal9

Apprentissage8

-Fourni avec Windows
-Tutoriel long, mais bien construit
-Bonne intégration dans le système

-Vista uniquement
-Reconnaissance (très) aléatoire
-Ne fonctionne pas avec Open Office,
ou tout autre programme que Word...
-Impossible de supprimer les
données de reconnaissance vocale

Reconnaissance3

Correction (texte)7

Contrôle vocal9

Apprentissage8

Les plus

-Un micro-casque fourni
-Reconnaissance excellente
-Multi utilisateur sur une même session

Les moins

-Le micro se rallume tout seul
-Le contrôle de l'OS n'est pas pratique
-Recadre automatiquement le document,
même micro éteint

Reconnaissance9

Correction (texte)7

Contrôle vocal5

Apprentissage5

-Un micro-casque fourni
-Reconnaissance excellente
-Multi utilisateur sur une même session

-Le micro se rallume tout seul
-Le contrôle de l'OS n'est pas pratique
-Recadre automatiquement le document,
même micro éteint

Reconnaissance9

Correction (texte)7

Contrôle vocal5

Apprentissage5

La reconnaissance vocale : mythe ou réalité ?

Un domaine peu concurrentiel

Les pièges de la reconnaissance vocale

Pourquoi utiliser la reconnaissance vocale ?

Histoire de la reconnaissance vocale

Grandes lignes de l'histoire de la reconnaissance vocale

Quelques dates clés de la commercialisation des logiciels en France

Anecdotes et prédictions concernant la reconnaissance vocale

Les prédictions de Bill Gates...

La prédiction de John Pierce

La vidéo « choc » de Windows Vista

Vidéo de présentation de l'« ordinateur parlant »

Les domaines d'application

Secrétaire en péril ?

Windows Vista : la phase d'apprentissage

À propos de Windows Vista

Déroulement du tutoriel d'apprentissage

Capture d'écran du tutoriel d'apprentissage

Les morceaux choisis :

Windows Vista à l'heure de la dictée

Taux de reconnaissance

Comment corriger ses erreurs

Windows Vista prend le contrôle

Principe de la prise en main du système d'exploitation

Exemple de commandes

Comment utiliser la grille de numéros

Dragon NaturallySpeaking : la phase d'apprentissage

À propos de Dragon NaturallySpeaking

Déroulement du tutoriel d'apprentissage

Captures d'écran du tutoriel d'apprentissage

Dragon NaturallySpeaking à l'heure de la dictée

Taux de reconnaissance

Comment corriger des erreurs

Dragon NaturallySpeaking prend le contrôle

Principe de prise en main

Exemples de commandes

Test vidéo de Dragon NaturallySpeaking

Dragon NaturallySpeaking Vidéo test de dictée

Dragon NaturallySpeaking : vidéo test du contrôle de l'ordinateur

Speech (Vista) : vidéo test de dictée

Speech (Vista) : vidéo test du contrôle de l'ordinateur (surf)

Dragon Naturally Speaking VS Windows Vista : verdict

Windows Vista (Speech)

Dragon Dictate Naturally Speaking