Un million de publications publiques issues de Bluesky ont été utilisées pour créer une base de données destinée à la recherche en intelligence artificielle. Ces données, diffusées sans consentement explicite des utilisateurs, ont finalement été retirées, mais leur exploitation reste permise par le fonctionnement ouvert de la plateforme.
En utilisant l'API Firehose de Bluesky, un bibliothécaire spécialisé en IA, Daniel van Strien, a collecté 1 million de messages publics. Ces publications, accompagnées de métadonnées et d'identifiants décentralisés, ont été publiées sur la plateforme Hugging Face pour des recherches en apprentissage automatique.
Après une vague de critiques, Daniel van Strien a retiré ces données et présenté ses excuses, en reconnaissant le manque de transparence dans sa démarche. C'est l'accès ouvert aux informations sur Bluesky, pourtant perçu comme un avantage, qui a rendu cette exploitation possible.
Les données de Bluesky restent accessibles sans mécanisme de contrôle strict
L'API Firehose de Bluesky centralise et met à disposition, en temps réel, l'ensemble des contenus publics publiés sur la plateforme : messages, mentions, suivis, ou encore modifications de pseudonymes. Cette fonctionnalité est conçue pour encourager les développeurs à créer des outils exploitant ces flux, comme des visualisateurs de données ou des bots. Mais cette ouverture n'est assortie d'aucune limitation claire quant à l'usage des informations, ce qui permet à des tiers d'y accéder et de les traiter à grande échelle, comme l'a démontré le projet de Daniel van Strien.
À l'instar de X.com, qui assume de les ouvrir aux modèles d'IA, Bluesky se vante d'être un modèle où tout contenu public est potentiellement réutilisable. C'est ainsi que Daniel van Strien a collecté et publié ces données, y compris des contenus supprimés ou sensibles, pour développer des modèles linguistiques et des outils d'analyse. Bien que son intention soit de contribuer à des avancées techniques, sa démarche a rapidement fait polémique, notamment auprès des utilisateurs, qui n'avaient pas été consultés.
Pour l'instant, Bluesky propose comme solution de réfléchir à des mécanismes de consentement, mais aucune mesure concrète n'a encore été mise en œuvre.
L'exploitation de l'ouverture de Bluesky reste difficile à contenir
Bluesky affirme ne pas utiliser les publications de ses membres pour entraîner des systèmes d'intelligence artificielle générative. Cette posture éthique tranche avec les pratiques de plateformes comme X.com ou Meta, qui incluent dans leurs conditions d'utilisation la possibilité d'exploiter les contenus publiés. Pourtant, cette promesse ne protège pas les utilisateurs des initiatives externes, comme celle de Daniel van Strien, qui a démontré que les données publiques de Bluesky pouvaient être extraites et réutilisées à d'autres fins.
Le fonctionnement même de Bluesky, fondé sur une décentralisation complète et un protocole open source, rend la plateforme vulnérable à ce type d'exploitation. Les développeurs peuvent accéder à l'ensemble des données publiques et construire leurs propres outils sans intervention ou autorisation préalable. Par exemple, des services comme Firesky utilisent l'API Firehose pour surveiller l'activité en temps réel sur le réseau.
La solution pour ce modèle ouvert consisterait en une régulation stricte pour limiter ses dérives, mais qu'en est-il de l'équilibre entre liberté et contrôle ?
15 novembre 2024 à 16h59
Source : Mashable