Un outil de transcription destiné au personnel soignant et alimenté par l'intelligence artificielle Whisper d'OpenAI fait un carton aux États-Unis. Problème, il a tendance à halluciner, allant jusqu'à inventer des propos jamais tenus par les patients…
Whisper est décrit comme un système avancé de reconnaissance automatique de la parole, spécifiquement conçu pour transcrire le langage parlé en texte. Il est intégré dans certaines versions de ChatGPT ainsi que dans les offres cloud d'Oracle et de Microsoft.
L'IA a également été affinée sur la base du langage médical et intégrée à un outil commercialisé par l'entreprise Nabla. Objectif : retranscrire et résumer les interactions des médecins avec leurs patients, leur octroyant un gain de temps considérable. Cependant, OpenAI a précisé que Whisper ne devait pas être exploitée dans les « domaines à haut risque ». Plus de 30 000 cliniciens et 40 systèmes de santé l'utilisent tout de même.
Des hallucinations violentes et absurdes
Et c'est un problème. Un groupe de chercheurs évoluant dans différentes universités américaines a en effet analysé 13 000 extraits audio issus de transcriptions de Whisper. Ils ont identifié pas moins de 187 hallucinations, c'est-à-dire des informations fausses ou inventées, sans fondement réel. S'il s'agit d'un problème bien connu dans le domaine de l'IA générative, le fait qu'il se produise dans un contexte médical soulève de nombreuses questions et fait craindre la possibilité de mauvais diagnostics.
Ces hallucinations se produisent dans des contextes bien précis, particulièrement lorsque la personne arrête de parler. L'outil est capable de générer des phrases entières, parfois violentes ou totalement absurdes. Dans un cas, l'IA a évoqué un traitement antibiotique, alors que la personne écoutée ne l'avait pas mentionné.
En rouge, les hallucinations de Whisper :
Ceci est d'autant plus problématique qu'il est impossible de comparer la transcription générée par Nabla à l'enregistrement original, car l'outil efface l'audio pour des « raisons de sécurité des données ». Les chercheurs ont déterminé que près de 40 % des hallucinations de Whisper étaient nuisibles ou préoccupantes.
7 millions de visites médicales transcrites
Des responsables de Nabla ont expliqué être conscients que Whisper pouvait halluciner, et qu'ils s'efforçaient de résoudre le problème.
De son côté, OpenAI rappelle que son IA doit être utilisée de manière responsable : « Nos politiques d'utilisation interdisent l'utilisation dans certains contextes de prise de décision à fort enjeu, et notre modèle de carte pour l'utilisation en source ouverte comprend des recommandations contre l'utilisation dans des domaines à haut risque. Nous remercions les chercheurs d'avoir partagé leurs résultats. »
L'outil a été utilisé pour transcrire environ 7 millions de visites médicales, estime Nabla.
- Chat dans différentes langues, dont le français
- Générer, traduire et obtenir un résumé de texte
- Générer, optimiser et corriger du code