Trop peu d’images sont légendées sur Wikipédia, ce qui nuit à l’accessibilité et à la lisibilité de l’encyclopédie collaborative en ligne. Pour résoudre ce problème, la Wikimedia Foundation a lancé une compétition ouverte à tous : pendant trois mois, les volontaires sont invités à créer un outil d'IA pour automatiser la rédaction de légendes et d’alternatives textuelles des images sur Wikipédia.
Cette compétition s’appuie sur le partage et la diffusion publique d’un volume de données jamais vu jusqu’à présent.
Des images bien légendées pour un meilleur apprentissage
Moins de la moitié des images des pages anglophones de Wikipédia possèdent une légende, et elles ne sont que 10% à disposer d’une description alternative (alt-text). Pour les autres langues, ces chiffres sont encore plus bas, voire quasi-inexistants pour certains dialectes peu répandus. Pour la Wikimedia Foundation, ce problème rend l'encyclopédie moins accessible et inclusive pour ses utilisateurs.
Le légendage est en effet un enjeu essentiel pour l'accès aux connaissances : de bonnes légendes améliorent non seulement la lisibilité globale des articles, mais permettent aux personnes avec un accès limité à internet et aux personnes en situation de déficience visuelle de bénéficier d’un moyen de compréhension en-dehors des images.
Une compétition collaborative sur trois mois
Les algorithmes et outils développés par Wikimedia ne sont à l’heure actuelle pas assez perfectionnés pour parvenir à sous-titrer ou légender correctement les images. Ils manquent en effet de pertinence sémantique, et ne fonctionnent de toute façon pas dans toutes les langues.
Pour pallier ce problème, la Wikimedia Foundation a annoncé l'ouverture d’une compétition, en partenariat notamment avec Google Research. Jusqu'au 9 décembre 2021, trois équipes de volontaires travailleront pour créer un outil automatique de légendage multilingue utilisant l’intelligence artificielle et le machine learning. Cette compétition est ouverte à tous.
Les volontaires sont invités à se rendre sur Kaggle, où Wikimedia met à leur disposition toutes les données, supports et informations nécessaires pour démarrer leur projet. Avec près de six millions de fichiers d’images en libre accès issus de Wikipedia Image-Text, c'est la base de données de ce type la plus fournie jamais publiée sur internet.
Source :