Face à la levée de bouclier citoyenne, les géants du net ont renforcé leur arsenal de lutte contre les fakes news, ces fameuses fausses informations qui circulent sur la toile. Problème : ces grandes plateformes se contentent souvent d'opérer un filtrage « contenu par contenu » et ne réagissent que trop tardivement pour bloquer un site qui publie des infox lorsqu'il est détecté.
Heureusement, des chercheurs du CSAIL du MIT et de l'Institut de recherche en informatique du Qatar pourraient avoir trouvé la solution.
Un algorithme basé sur le langage
Leur idée : utiliser l'intelligence artificielle pour mesurer la fiabilité d'une source. Ces chercheurs ont ainsi mis au point un algorithme d'apprentissage automatique qui se base sur des milliers d'articles publiés, et jauge la précision d'une information et le biais excessif d'un point de vue. Cet algorithme a été conçu à partir d'une hypothèse : un site qui émet des fausses informations aura tendance à reproduire ce schéma. En d'autres termes, il sera souvent un producteur régulier de fake news.La particularité de cet algorithme est qu'il se base davantage sur le langage utilisé que sur la revendication ou l'information elle-même. En effet, ces plateformes ont tendance à utiliser un discours basé sur l'émotion, et à recourir abondamment à des expressions orientées comme « démoniaque » ou « acteur de la crise ». Cette analyse par le langage est par exemple la même qui permet de définir l'orientation idéologique d'un site.
Ainsi, un site considéré comme ayant une sensibilité de gauche parlera probablement souvent d'équité ou de réciprocité, tandis qu'un site conservateur reprendra plus certainement des termes liés à l'autorité ou à connotation religieuse. Les chercheurs ont également montré qu'ils parvenaient à dresser un lien entre la complexité d'une adresse web et sa propension à héberger de fausses informations.
Pour entraîner son algorithme, l'équipe s'est appuyée sur l'analyse de plus de 2 000 organes d'information par l'outil Media Bias / Fact Check, ainsi que sur une série d'indices linguistiques.
Un système qui présente encore des failles
L'heure où les algorithmes pourront remplacer la traque de ces sites par l'Homme n'est cependant pas encore arrivée. L'intelligence artificielle ne représente pas encore un système de filtrage de contenus infaillible et le taux de précision de cet algorithme ne serait que de 65%.De même, les chercheurs estiment qu'il faut une base de 150 articles publiés sur un site pour pouvoir en évaluer la fiabilité. Assez pour détecter les émetteurs de fake news en ligne depuis suffisamment longtemps, moins pour les sites plus récents et plus petits, qui passeront plus facilement au travers des mailles du filet.
Le piège de la partialité
Si cette méthode fonctionnait, elle pourrait cependant aider les réseaux sociaux à réagir plus rapidement pour bloquer les sites concernés. De même, les sites d'information sérieux pourraient se tourner vers l'IA dans le but d'évaluer la précision et la fiabilité d'une source.Se pose alors la question de la possible partialité d'un tel algorithme. A l'heure où la légitimité des moteurs de recherche et des réseaux sociaux est remise en question en raison de leur éventuel parti pris idéologique, l'IA pourrait tôt ou tard être accusée des mêmes travers.