Cette IA utilisée pour la transcription dans les hôpitaux a une fâcheuse tendance à halluciner

Publié le 28 octobre 2024 à 16h27

Un outil de transcription destiné au personnel soignant et alimenté par l'intelligence artificielle Whisper d'OpenAI fait un carton aux États-Unis. Problème, il a tendance à halluciner, allant jusqu'à inventer des propos jamais tenus par les patients…

L'outil permet aux médecins de transcrire automatiquement leurs échanges avec les patients © cottonbro studio / Pexels

Whisper est décrit comme un système avancé de reconnaissance automatique de la parole, spécifiquement conçu pour transcrire le langage parlé en texte. Il est intégré dans certaines versions de ChatGPT ainsi que dans les offres cloud d'Oracle et de Microsoft.

L'IA a également été affinée sur la base du langage médical et intégrée à un outil commercialisé par l'entreprise Nabla. Objectif : retranscrire et résumer les interactions des médecins avec leurs patients, leur octroyant un gain de temps considérable. Cependant, OpenAI a précisé que Whisper ne devait pas être exploitée dans les « domaines à haut risque ». Plus de 30 000 cliniciens et 40 systèmes de santé l'utilisent tout de même.

Des hallucinations violentes et absurdes

Et c'est un problème. Un groupe de chercheurs évoluant dans différentes universités américaines a en effet analysé 13 000 extraits audio issus de transcriptions de Whisper. Ils ont identifié pas moins de 187 hallucinations, c'est-à-dire des informations fausses ou inventées, sans fondement réel. S'il s'agit d'un problème bien connu dans le domaine de l'IA générative, le fait qu'il se produise dans un contexte médical soulève de nombreuses questions et fait craindre la possibilité de mauvais diagnostics.

Ces hallucinations se produisent dans des contextes bien précis, particulièrement lorsque la personne arrête de parler. L'outil est capable de générer des phrases entières, parfois violentes ou totalement absurdes. Dans un cas, l'IA a évoqué un traitement antibiotique, alors que la personne écoutée ne l'avait pas mentionné.

En rouge, les hallucinations de Whisper :

...

Ceci est d'autant plus problématique qu'il est impossible de comparer la transcription générée par Nabla à l'enregistrement original, car l'outil efface l'audio pour des « raisons de sécurité des données ». Les chercheurs ont déterminé que près de 40 % des hallucinations de Whisper étaient nuisibles ou préoccupantes.

Whisper est l'un des outils de transcription les plus populaires © bump23 / Shutterstock

7 millions de visites médicales transcrites

Des responsables de Nabla ont expliqué être conscients que Whisper pouvait halluciner, et qu'ils s'efforçaient de résoudre le problème.

De son côté, OpenAI rappelle que son IA doit être utilisée de manière responsable : « Nos politiques d'utilisation interdisent l'utilisation dans certains contextes de prise de décision à fort enjeu, et notre modèle de carte pour l'utilisation en source ouverte comprend des recommandations contre l'utilisation dans des domaines à haut risque. Nous remercions les chercheurs d'avoir partagé leurs résultats. »

L'outil a été utilisé pour transcrire environ 7 millions de visites médicales, estime Nabla.

ChatGPT

Chat dans différentes langues, dont le français
Générer, traduire et obtenir un résumé de texte
Générer, optimiser et corriger du code

9 / 10

Télécharger

Sources : The Verge, ABC News

Par Mathilde Rochefort

OpenAI

Intelligence artificielle

Actualités High-Tech

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (0)

Poster mon commentaire

Commentaires (6)

Binbin

On est quand même clairement dans un problème d’usage… après on imagine que Nabla a probablement survendu les possibilités de son IA…
En France la transcription s’effectue souvent en fin de consultations devant le patient, le médecin dicte son compte rendu sous l’attention de son patient et voit en temps réel le texte s’écrire pour le corriger au besoin…

Blackalf

C’est peu de cas sur l’ensemble, mais ça pourrait quand même mal tourner pour un patient si un praticien, chirurgien ou anesthésiste, se fie trop à l’IA.

Et les erreurs, ça arrive. Anecdote : je devais me faire opérer dans les années 90 et j’avais vu un anesthésiste comme c’est la procédure.

Lui : Vous avez une morphologie bizarre, pour un homme.
Moi (qui lisait le dossier à l’envers en même temps, j’ai toujours su faire ça) : Dites, docteur…Simone P., ce n’est pas moi.

C’était une membre de ma famille qui allait se faire opérer au même moment et il se trompait de dossier.

Palou

Oh que non, pas si souvent que ça, comme quand tu vas faire des radios et que tu les reçois par courrier avec un compte-rendu … le patient concerné n’est pas présent.

cucurbitacee

Si vous êtes en France justement, cet article vous concerne bien. Nabla est une start-up crée par des français. Leur solution commence à être intégrée dans des logiciels médicaux en France, logiciels qui équipent un grand nombre de médecins (comme Weda). Doctolib vient aussi de sortir sa propre solution de « résumé » du dialogue de consultation. Loquii en est une autre, etc.

MattS32

Un copain tétraplégique avait été hospitalisé suite à une chute de fauteuil.

Après avoir regardé les images, le médecin a ramé pour essayer de lui expliquer gentillement qu’il risquait de ne plus marcher. Il n’avait visiblement regardé que les images, sans lire le dossier

Et le copain l’a laissé ramer jusqu’au bout et lui a répondu qu’il ne s’attendait de toute façon pas à ce que la chute ait réparé quoi que ce soit

Binbin

Merci pour cette précision, l’article ne le mentionnait pas…
J’ai été sur leur site du coup et il y a un témoignage qui souligne une mauvaise utilisation de l’outil…

Actualités

Commentaires