IBM vient de définir une nouvelle frontière dans l'exploration des larges volumes de données, connus sous le nom générique Big Data. Le géant affirme qu'il a été capable de scanner 10 milliards de documents sur un système unique en seulement 43 minutes. Le record précédent - 1 milliard en trois heures - est explosé.
Les larges volumes de données, ou Big Data, ne posent pas des problèmes qu'en terme de stockage, mais aussi d'exploration. Scanner des milliards de documents relève de la prouesse technique, et les gestionnaires de bases de données ont beau avoir à disposition des espaces de plus en plus grands, des systèmes d'analyse de plus en plus performant, l'étape du passage en revue reste primordiale. Et était jusqu'à présent limité par un chiffre : le record de 1 milliard de documents en près de trois heures.
IBM affirme avoir fait voler en éclat ce précédent, en scannant 10 milliards de documents en 43 minutes environ. L'avancée majeure, selon IBM, c'est la capacité à unifier l'environnement de données sur un seul système, au lieu de le répartir sur plusieurs systèmes qu'il faut gérer séparément. L'expérience a été réalisée avec la technologie de gestion parallèle du système de fichiers GPFS (General Parallel File System), lancé par IBM en 1998. Matériel utilisé : un cluster de 10 systèmes à huit coeurs et du stockage sur SSD.
La performance d'IBM ne restera pas une démonstration technique sans suite, si on en croit Big Blue, qui annonce qu'elle « ouvre la voie à de nouveaux produits qui résolvent les problèmes d'un monde multi-zettaoctet en forte croissance. » Pour Doug Balog, vice-président chargé du stockage, « il y a le potentiel pour permettre à des environnements beaucoup plus grands d'être unifiés sur une plateforme unique et pour réduire et simplifier conséquemment la gestion des données. » Avec les bénéfices qu'on peut en attendre : amélioration des performances, des temps de traitement, de la capacité de stockage, sans augmentation significative des coûts de gestion.