Mercredi 14 novembre, était lancé Inriality. À l'initiative de l'institut de recherche en mathématiques et informatique, Inria, cette plateforme veut devenir un lieu d'échanges entre professionnels, mais pas que. Pour inaugurer ce cycle de rendez-vous à thèmes, l'Inria a réuni cinq intervenants pour embrasser la question de l'explosion du volume des données, et pour répondre à quelque 'unes des nombreuses problématiques que pose cette tendance. « L'objectif est qu'Inriality soit un lieu ouvert tant aux chercheurs qu'aux entreprises ainsi qu'aux médiateurs », peut-on lire sur le site dédié.
« Hier, les données numériques étaient peu nombreuses et enfermées dans des banques sécurisées. En surfant, échangeant sur le Net, envoyant des photos, les internautes produisent chaque jour des millions de données. Les modes de création se diversifient avec la multiplication de capteurs, objets connectés, puces RFID... Résultat, aujourd'hui, ces données augmentent de manière exponentielle : 90% d'entre elles n'existaient pas il y a deux ans ! », introduit l'organisateur, qui qualifie ces datas de « nouvel or noir ».
Pour porter ce changement, des acteurs ont émergé, comme Data Publica. Invité à l'événement, François Bancilhon, son fondateur et p-dg, explique que sa société a pour mission d'identifier les sources de données, d'extraire ces données, de les structurer puis de les livrer en mode DaaS, pour Data as a Service, moyennant un abonnement. Pour illustrer ses services, il prend l'exemple d'un parking de magasin Walmart.
« Avec des photos prises du ciel, on relève plusieurs fois par jour le nombre de voitures. Cela permet de déduire le nombre de clients et les horaires, jours et périodes où ils se rendent au magasin. Ces informations sont ensuite structurées pour être facilement lisibles, et sont livrées aux financiers et actionnaires pour aiguiller leurs décisions plus finement. Ce service est facturé environ 200 000 dollars », explique ainsi François Bancilhon, pour donner corps à l'exploitation des données.
Autre application fournie par le patron de Data Publica, concernant cette fois les chiffres du chômage. Rendus publics à un instant T par Pôle Emploi, ils peuvent être connus trois semaines à l'avance, et par un moyen bien différent. « Google a scanné les requêtes des internautes qui demandaient des informations sur leurs allocations chômage. Il s'avère que la courbe de ces recherches est parfaitement corrélée à celle des chiffres du chômage, sauf qu'elle est connue trois semaines avant », décrit le spécialiste de la question.
Des freins techniques à l'exploitation d'un grand volume de données
Mais qui dit prolifération des données, dit besoin de traitement conséquent. Sur ce point, François-Xavier Lévy, de la société de conseil en systèmes d'informations, Arkama, rappelle que les Data Centers ont souvent des limitations techniques. « Pour analyser ces informations massives, on a besoin d'une source d'information, caractérisée par le disque dur, d'un espace de travail, ce qui est le rôle de la mémoire RAM, et d'une équipe de travail, incarnée par le processeur », image l'intervenant. Problème : l'accès aux données reste limité par la lenteur relative des disques durs, comparé à la vitesse d'exécution des deux autres composants.
« Pour pallier ce problème, on stocke les données dans la mémoire RAM, beaucoup plus véloce », préconise-t-il, selon le principe du In-Memory Computing. De même, modifier la manière dont sont stockées les données, comme le fait SAP HANA, permettrait d'améliorer significativement les performances, « jusqu'à 3 600 fois, et sans changer de matériel ». Mais dans les deux cas, François-Xavier Lévy déplore que ces deux solutions se heurtent à un frein non négligeable : leur coût.
Finalement, l'enjeu n'est peut-être pas tant la quantité de données, mais également la façon dont on les organise, tient à souligner Serge Abiteboul, directeur de recherche à l'Inria. « Google est capable d'indexer des milliards de pages, mais ça, ce n'est pas très difficile. Ce qui fait son succès, c'est son algorithme, capable de faire remonter les bonnes données au bon moment, et le plus en adéquation possible avec les demandes des internautes », commente-t-il.
Dans la même veine, les algorithmes ont un grand rôle à jouer avant même la requête, estime-t-il, par le biais de la recommandation. Selon le chercheur, que ce soit sur Netflix, Meetic ou Amazon, des logiciels savent rapprocher des données relatives à l'utilisateur pour faire émerger des choix possibles, « et avec des résultats parfois surprenants, mais pertinents ».
Pour continuer la réflexion, Inriality a publié sur son site une liste de pistes à explorer sur ce thème des données telles que l'extraction des données du cerveau, la mesure de la qualité des données ou encore la gestion de leur propriété d'un point de vue juridique,.