© Semantic Scholar
© Semantic Scholar

Des chercheurs américains ont mis au point un logiciel capable d'effectuer automatiquement un « tl;dr ».

« Too long; didn't read » (« trop long, pas lu »). Résumée en « tl;dr », cette abréviation est couramment utilisée sur Internet. Elle peut notamment être employée par l'auteur d'une publication à rallonge afin d'en proposer un bref résumé à ses lecteurs. Si cela s'avère utile pour un post de quelques paragraphes, que dire dans le cas d'une étude scientifique de plusieurs dizaines de pages ?

Machine learning

C'est précisément à ce domaine que se sont attaqués les chercheurs de l'Allen Institue for AI, fondé par Paul Allen, feu cofondateur de Microsoft. Ils ont en effet apporté une nouvelle brique au sein du projet « Semantic Scholar », un moteur de recherche de documents scientifiques fonctionnant à l'aide de l'intelligence artificielle. Le nouvel outil, évidemment baptisé « TLDR », a pour but de résumer automatiquement en une phrase les articles de la base de données.

Pour y parvenir, l'IA s'appuie sur des réseaux de neurones profonds et sur l'apprentissage automatique (ou machine learning). Il a donc fallu commencer par « l'entraîner » via une grande quantité de données à analyser. L'outil a d'abord appris à générer des phrases concises, à partir de dizaines de milliers d'articles scientifiques, chacun associé à un titre. Puis il s'est formé au travail de synthèse, en étudiant un autre corpus d'études, possédant chacune un résumé.

Capable de générer ses propres phrases

Ce n'est toutefois pas la première initiative de ce type. Depuis 2018, le site Paper Digest propose ainsi de « résumer des articles académiques grâce à l'intelligence artificielle ». Mais d'après Dan Weld, qui dirige le projet Semantic Scholar, celui-ci ne reprend que des phrases clés du texte, tandis que TLDR est capable de synthétiser le contenu avec ses propres mots. Des termes peuvent néanmoins rester techniques et s'adressent donc à un public d'initiés. Mais l'équipe du projet espère pouvoir prochainement produire des résumés accessibles au grand public. Les retrouvera-t-on bientôt dans nos moteurs de recherche ?

Cela paraît aujourd'hui prématuré. Pour l'heure, TLDR ne fonctionne que sur le corpus couvert par Semantic Scholar, à savoir « seulement » dix millions de documents, uniquement consacrés à l'informatique. D'autres disciplines devraient cependant suivre dans les mois à venir.

Source : Nature