Spécialisé depuis des années sur les questions d'anonymisation et de recoupement des données Internet, Arvind Narayanan a prouvé, dans une nouvelle recherche, que le simple historique de navigation permettait de retrouver l'identité de l'utilisateur.
Des données collectées « anonymement »
Sur Internet, les entreprises ont plusieurs manières de collecter des données. Bien évidemment, Google, Facebook et consorts connaissent votre identité : les clauses signées bien souvent sans être lues lorsque vous créez un compte auprès de ces entreprises expliquent en détail la nature des données collectées et l'utilisation, très vaste, que ces entreprises peuvent en faire.L'autre moyen, légal, c'est la collecte de données de manière anonyme. Elle se fait par le biais de toute une série d'outils comme les cookies, le tracking de liens et autres. Ces données sont anonymes : la loi interdit aux entreprises d'associer les données collectées de cette façon (par exemple simplement en se connectant sur un site Internet qui utilise des cookies) à l'identité d'une personne. Théoriquement, donc, les internautes sont inconnus de ces entreprises et ne sont qu'un code dans un flux de données.
L'historique web suffit à identifier une personne
Arvind Narayanan a voulu voir si ces données sont réellement anonymes. Dans une recherche publiée le 25 janvier 2017, il a développé un algorithme capable de recouper les habitudes de navigation d'internautes qui lui ont soumis anonymement leur historique de navigation. Selon lui, « les historiques de navigation sous pseudonyme (donc anonymisés, ndlr) échouent » dans le fait d'être réellement anonymes.« Chaque historique de navigation de chaque personne est unique et contient des témoignages de son identité », estime le chercheur de Princeton. Il déclare même qu'avec un historique composé simplement de 30 liens issus de Twitter, il a été en mesure de retrouver le profil Twitter correspondant avec 50 % de réussite.
Lorsque la recherche s'est intéressée aux 374 historiques de navigation envoyés par des volontaires et que le chercheur et ses équipes ont utilisé un algorithme maison (qu'ils estiment pouvoir être affiné), ils ont pu identifier 70 % des personnes ayant participé. De fait, une grande entreprise pouvant développer un algorithme plus puissant et ayant accès à beaucoup plus de données serait facilement à même de créer un système permettant de remonter à l'identité de l'utilisateur, sur la base de simples données anonymes collectées légalement.