Fondée en 1996 et basée à San Francisco, l'association à but non lucratif Internet Archive se consacre à l'archivage du web et a mis en place une collection de contenus recensant les catalogues de diverses bibliothèques ou universités à travers le monde. En fin de semaine dernière, Internet Archive annonçait avoir cumulé 10 pétaoctets de données soit 10 millions de gigaoctets.
Internet Archive est principalement connu pour sa « machine à remonter le temps ». Il est effectivement possible d'observer l'évolution d'un site web au fil des années en accédant aux pages régulièrement mises en cache sur les serveurs de la fondation. Celle-ci explique qu'elle vient de mettre à disposition auprès des chercheurs 80 téraoctets de données amassées entre le 9 mars et le 23 décembre 2011. Au total plus de 2,2 milliards d'URL ont été passées au crible sur 29 millions de domaines.
Rappelons qu'Internet Archive dispose de 200 salariés et d'un budget annuel de 10 millions de dollars obtenus au travers de ses divers partenariats et grâce aux dons. A l'heure où nous écrivons ces lignes, Internet Archives compte 1 026 213 vidéos, 108 360 extraits de concerts, 1 416 774 fichiers audio et 3 680 770 textes.