Les bots conversationnels s'améliorent d'année en année, et leurs usages sont de plus en plus répandus. Face à la pandémie de COVID-19, Microsoft a déjà proposé il y a quelques mois son Plasma Bot, un chatbot aidant à trouver des donneurs de plasma.
Visiblement, la société continue de pousser plus loin le développement de ce type de logiciels. D'après un brevet récemment déposé, l'enseigne travaillerait aujourd'hui sur des systèmes capables d'adapter leur langage à leur interlocuteur, et de revêtir un visage humain.
Vers de plus belles conversations
D'après le brevet déposé par Microsoft auprès de l'Office américain des brevets et des marques (USPTO), l'entreprise se pencherait effectivement sur le développement de bots conversationnels. En règle générale, ces bots ont des interactions limitées, et les conversations qu'ils proposent deviennent rapidement monotones et peu naturelles.
C'est ce sur quoi souhaiterait travailler Microsoft. Son brevet, intitulé « Linguistic Style Matching Agent », précise que « parce que ces interfaces ont des voix, et même des visages, les utilisateurs s'attendent de plus en plus à ce que les systèmes informatiques présentent un comportement social similaire à celui des humains. Cependant, les agents conversationnels interagissent généralement de manière robotique et non naturelle. Ce fossé important dans les attentes est peut-être l'une des raisons pour lesquelles les agents conversationnels ne sont utilisés que pour des tâches très simples et déçoivent souvent les utilisateurs ».
Ce secteur est d'autant plus important qu'il repose sur un marché en pleine croissance. Selon Microsoft, aux États-Unis, près de 50 millions d'adultes (soit un sur cinq) auraient accès à une enceinte connectée à commande vocale, où la voix est la principale interface. Beaucoup d'autres ont accès à un assistant via un smartphone ou une montre connectée.
Fournir un visage à des interfaces vocales
Fournir à ces interfaces la capacité d'adopter divers tons de voix et expressions faciales serait donc une idée à laquelle il peut être utile de s'intéresser.
Microsoft propose ainsi « une méthode comprenant : la réception d'une entrée audio représentant la parole d'un utilisateur; la reconnaissance du contenu du discours; la reconnaissance du style linguistique; la génération d'un dialogue de réponse basé sur le contenu du dialogue; la modification du dialogue de réponse selon la base linguistique de l'entrée. »
En d'autres termes, les logiciels ainsi conçus adapteront leur style conversationnel en fonction de la manière dont les utilisateurs leur adressent la parole. Ce style conversationnel reposera sur la prosodie (l'ensemble de nos traits oraux), le choix des mots et le timing de parole.
Le brevet, qui comporte différentes possibilités de mises en oeuvre, ajoute que ces « agents incorporés » pourraient aussi percevoir les expressions faciales de l'utilisateur, celles-ci pouvant ensuite être interprétées et, si besoin, imitées. Il précise ainsi que « l'agent conversationnel peut être incarné, ce qui signifie qu'il a un "visage" qui semble parler. Il peut utiliser des techniques d'apprentissage automatique telles qu'un modèle de langage neuronal génératif pour produire un dialogue multi-tours ouvert et répondre aux déclarations d'un utilisateur d'une manière naturelle et compréhensible. »