Une IA qui résume des études scientifiques en une phrase : l'avenir des moteurs de recherche ?

Publié le 27 novembre 2020 à 17h15

Des chercheurs américains ont mis au point un logiciel capable d'effectuer automatiquement un « tl;dr ».

« Too long; didn't read » (« trop long, pas lu »). Résumée en « tl;dr », cette abréviation est couramment utilisée sur Internet. Elle peut notamment être employée par l'auteur d'une publication à rallonge afin d'en proposer un bref résumé à ses lecteurs. Si cela s'avère utile pour un post de quelques paragraphes, que dire dans le cas d'une étude scientifique de plusieurs dizaines de pages ?

Machine learning

C'est précisément à ce domaine que se sont attaqués les chercheurs de l'Allen Institue for AI, fondé par Paul Allen, feu cofondateur de Microsoft. Ils ont en effet apporté une nouvelle brique au sein du projet « Semantic Scholar », un moteur de recherche de documents scientifiques fonctionnant à l'aide de l'intelligence artificielle. Le nouvel outil, évidemment baptisé « TLDR », a pour but de résumer automatiquement en une phrase les articles de la base de données.

Pour y parvenir, l'IA s'appuie sur des réseaux de neurones profonds et sur l'apprentissage automatique (ou machine learning). Il a donc fallu commencer par « l'entraîner » via une grande quantité de données à analyser. L'outil a d'abord appris à générer des phrases concises, à partir de dizaines de milliers d'articles scientifiques, chacun associé à un titre. Puis il s'est formé au travail de synthèse, en étudiant un autre corpus d'études, possédant chacune un résumé.

Capable de générer ses propres phrases

Ce n'est toutefois pas la première initiative de ce type. Depuis 2018, le site Paper Digest propose ainsi de « résumer des articles académiques grâce à l'intelligence artificielle ». Mais d'après Dan Weld, qui dirige le projet Semantic Scholar, celui-ci ne reprend que des phrases clés du texte, tandis que TLDR est capable de synthétiser le contenu avec ses propres mots. Des termes peuvent néanmoins rester techniques et s'adressent donc à un public d'initiés. Mais l'équipe du projet espère pouvoir prochainement produire des résumés accessibles au grand public. Les retrouvera-t-on bientôt dans nos moteurs de recherche ?

Cela paraît aujourd'hui prématuré. Pour l'heure, TLDR ne fonctionne que sur le corpus couvert par Semantic Scholar, à savoir « seulement » dix millions de documents, uniquement consacrés à l'informatique. D'autres disciplines devraient cependant suivre dans les mois à venir.

Source : Nature

Par Bastien Contreras

Moteur de recherche

Intelligence artificielle

Actualités High-Tech

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (0)

Poster mon commentaire

Commentaires (10)

enrico69

Résumer une étude en une phrase… Déjà que l’on manque de plus en plus de nuance dans notre société

cirdan

Franchement, devoir s’en remettre de plus en plus à l’IA pour sa musique, ses films, trier ses mails, choisir le prochain resto, lire ses articles de presse, … ça devient gavant.
Quelles que soient les bonnes intentions de ce projet, ça restera un algorithme qui choisira ce que je dois lire, ma manière de le lire et je ressens un vrai ras-le-bol de toutes ses annonces sur les IA qui prétendent orienter mes choix et guider ma vie.
Il est clair qu’on a plus que jamais besoin de garder notre libre-arbitre.

cirdan

Je suis assez d’accord mais il ne faut jamais perdre de vue que ce sont bien les humains qui programment cette IA. Un peu d’utopie n’est pas inutile pour envisager l’avenir sereinement…

carinae

Ce que tu dis n’est pas très objectif😉. L’IA peut avoir beaucoup d’avantages notamment en terme de traitement de l’information car il ne t’a pas échappé qu’on croule sous l’information. Même sur les forums certains posts sont trop longs pour être lus.
Le problème avec l’IA c’est d’éviter les biais et notamment les filtres de bulles dans certains domaines… Mais sinon ça peut être très efficace .,. Ça pourrait être intéressant pour le secteur de la santé par exemple…vu son efficacité…

cirdan

Complètement d’accord mais c’est à nous à sélectionner.

Peut-être mais est-ce vraiment une IA qui doit décider de ce que nous devons retenir d’un article ? Serais-tu d’accord pour qu’une IA abrège ce que tu as mis longtemps à écrire et à exprimer ? Il vaut peut-être mieux un post très long lu par quelques intéressés qu’un post revu par une IA survolé par beaucoup. Ca n’est que mon opinion !

Alors là c’est autre chose. Une IA scientifique n’a pas la même fonction qu’une IA pour la presse, par exemple.
Une IA scientifique va traiter des données et en tirera des conclusions : aide à la découverte de nouveaux traitement, production de modèles de molécules… Mais ce sont des données concrètes et mesurables qui sont à la base de départ.
Par contre, une IA pour la presse va devoir réinterpréter une idée. Ce qui est spirituel n’est pas mesurable et l’aléatoire entre forcément en jeu.
Alors qu’une IA scientifique oriente tes recherches et te propose une expérience « évaluable », une IA pour la presse oriente tes idées et ne te propose que son « point de vue ».
Quoi qu’il en soit, pour le coup j’espère que mon post n’est pas trop long. Et tant pis s’il ne sera pas lu jusqu’au bout !

carinae

Alors effectivement je suis totalement d’accord avec toi. Ce n’est pas a une IA de décider pour nous Je n’avais pas tellement en tête une IA scientifique mais plutôt une IA permettant le traitement de l’information car c’est surtout la a mon sens qu’il y en a le plus besoin. Typiquement pour la détection massive de virus pour exemple.
Mais quelque part tout cela existe depuis fort longtemps…avec les cookies par exemple

cirdan

Oui, il faudrait déjà cibler ce qui mérite véritablement d’être appelé « IA ». Un prochain débat peut-être ?
Bonne journée à toi.

sebstein

Dans ce cas-ci, il ne s’agit pas de te dire ce que tu dois lire ou pas, mais justement te donner une brève idée du contenu pour savoir rapidement si tu dois perdre ton temps ou pas sur ce contenu. Il est évident que tu n’as pas la possibilité de lire entièrement des millions d’études… donc, savoir en un coup d’œil celles qui peuvent d’intéresser, ça peut être utile.

Fei666

C’est le rôle de l’abstract ça.
Pour moi semantic scholar a plus un rôle d’indexation, trouver des mots-clés pertinents en plus de ceux qui sont fournis.

kyaude

‹ Alors effectivement je suis totalement d’accord avec toi. Ce n’est pas a une IA de décider pour nous › : +++.
Personne ne peut juger du niveau de notre ignorance, l’ignorance n’est pas un manque de qqc mais un trop plein de certitudes préprogrammées qui nous feront passer à côté de l’extrapolation qu’un esprit imaginatif , c’est ce qui arrivera en utilisant des synthèses interdisciplines que l’IA privatisera pour élaborer les brevets en résultant tout en freinant nos possibilités d’en faire de même.