Big data, des « grosses données » ou plutôt des « données en gros »: cette expression est reprise à l'envi par les industriels nippons du secteur de l'informatique, comme Hitachi: « big data est un mot-clef qui suscite une forte attention depuis 2011 », explique l'entreprise. Et de poursuivre: « ces derniers temps, avec l'exploitation grandissante de l'informatique mutualisée en nuage (cloud computing), l'usage croissant des smartphones, l'installation de nombreux capteurs et autres avancées techniques, les quantités de données issues des institutions publiques et privées augmentent considérablement. Aux informations rassemblées par les entreprises pour leurs affaires, s'ajoutent celles générées par les particuliers sur les sites web et réseaux sociaux, ou bien encore toutes celles issues des appareils divers et des capteurs. Or, pour utiliser ces données, dont la quantité explose, de façon utile et rationnelle, il est nécessaire de concevoir des plateformes de traitement et analyse. Car l'essentiel est de puiser dans cette masse pour en tirer des enseignements de valeur et créer de nouvelles activités et services ».
Pour Hitachi, NEC, Toshiba, Fujitsu et autres géants nippons de l'informatique (serveurs, progiciels et services divers), « big data » ne veut pas seulement dire « plein de données en vrac » mais surtout « données d'importance car d'une nouvelle nature », l'idée étant d'extraire une information inédite du croisement et de l'analyse d'éléments épars. Les meilleurs exemples et les plus faciles à comprendre sont ceux de la publicité sur internet qui se présente aux yeux de l'utilisateur de façon plus réfléchie qu'il ne l'imagine. Le ciblage publicitaire de plus en plus fin est en effet le résultat de l'analyse des sites visités, des recherches effectuées, des produits achetés, du lieu où l'on se trouve, du terminal à partir duquel sont consultés les sites ou lancées des requêtes, du passage au crible des contributions en ligne (Twitter et autres) ainsi que des horaires d'activité sur internet. La liste n'est pas exhaustive.
Nolens volens, tous les utilisateurs sont concernés. De fait on en vient vite à penser que « big data » tire son appellation de « Big brother ». D'un autre côté, on peut aussi trouver plutôt bien de bénéficier d'offres promotionnelles relativement pertinentes qui correspondent à peu près à nos attentes réelles. Imaginez que tout le monde reçoive des pubs qui ne se basent sur aucune donnée concernant l'utilisateur, si ce n'est son lieu de connexion, l'heure et le temps qu'il fait, sans aucun autre élément individuel (ce qui ne signifie pas nominatif). Eh bien la publicité en question aurait 99,99% de risques d'être sans aucun intérêt potentiel pour celui qui la reçoit et donc tout autant inutile pour l'annonceur. La galerie marchande nippone Rakuten, Amazon Japon et autres sites marchands sont parmi ceux qui utilisent visiblement à bon escient (pour eux du moins) les avantage des « big data ».
Là où le concept « big data » trouvera cependant davantage grâce aux yeux du grand public japonais, c'est dans l'utilité qu'il peut avoir en cas de catastrophe naturelle. En effet, par l'exploitation des données issues par exemple des réseaux de télécommunications mobiles, des sites internet communautaires, des moteurs de recherche, des portiques des gares, des caisses enregistreuses des magasins, des cameras de surveillance, des capteurs de température et d'humidité, des feux rouges... etc, il est possible en temps réel de connaître le nombre de personnes se trouvant dans un espace donné, de savoir ce qu'elles font, comment elles bougent, quels moyens de transports elles emploient, quelles informations elles recherches, quels messages elles transmettent, etc. A partir du traitement de ces masses incommensurables de données, il est a priori possible d'échafauder des services plus appropriés et plans de secours plus efficaces.
Ainsi y-a-t'il eu au Japon un « Projet 311 » (311 signifiant 11 mars) de collecte et analyse des données informatiques générées dans les 7 jours suivant le séisme, le tsunami et l'accident nucléaire survenus le 11 mars 2011 dans le nord-est de l'archipel. Ces informations sont notamment celles procurées par les divers médias de masse, mais aussi les contributions des citoyens par le biais de Twitter, Facebook et autres moyens. De l'analyse fine de ces informations, rapportées à la situation, les participants à ce projet (Google, Twitter, Facebook, NHK, le journal Asahi, la société de cartographie Zenrin, etc.) espèrent comprendre mieux ce qu'il s'est passé, quelles informations n'étaient justement pas disponibles au moment où elles étaient requises, quels services auraient été utiles, bref comme mieux utiliser ces « big data » dans ce genre de contexte susceptible hélas de se répéter.
Autre exemple, fourni par Yahoo ! Japon. A l'occasion des élections législatives anticipées qui ont ue lieu le 16 décembre au Japon, le groupe (premier moteur de recherche des Nippons devant Google) a analysé les requêtes effectuées et les contributions sur réseaux sociaux. Il en a sorti un rapport de 58 pages sur l'intérêt des hommes et femmes de différents âges pour la chose politique. Les conclusions de cette vaste étude montrent par exemple que le faible taux de participation au scrutin (inférieur à 60%) ne reflète pas nécessairement un désintérêt pour la politique mais plutôt l'absence de soutien à quelconque parti. Cette analyse révèle aussi que les jeunes ne sont pas aussi indifférents à la vie politique qu'on a tendance à le penser.
Dans tous les cas, le problème que pose le concept « big data » est celui de l'admissibilité ou non de l'usage simultané par des institutions privées ou publiques de multiples données collectées par divers biais, dont des informations générées volontairement ou non par chacun au cours de ses multiples activités dans un espace réel ou virtuel. Or, cette admissibilité ne dépend pas seulement de la finalité de l'usage, mais aussi du fait que les données soient traitées en masse et/ou de façon anonyme, ou bien individuelle et/ou adossées à une identité. Dans ce dernier cas, le champ d'exploitation admissible se réduit considérablement et exige l'autorisation de chacun au cas par cas.
C'est ce à quoi est censée veiller en France la CNIL, mais au Japon une telle autorité indépendante n'existe pour le moment pas, ce qui soulève aussi la question de la partialité d'un ministère de la Communication susceptible de se trouver dans le cas de figure d'être juge et partie, avec tous les risques que cela comporte (comme ce fut le cas de la précédente l'Agence de sûreté nucléaire avant l'accident de Fukushima).
Sur ces propos hautement philosophiques, excellentes fêtes de fin d'année à tous.