Associée au Web, la notion de « Big Data » vise à indexer puis à traiter un flux d'informations grandissant et comme le souligne Mohand Boughanem chercheur au Laboratoire Irit de l'université Paul Sabatier de Toulouse : « une information non trouvée est une information morte ». De simples pages HTML statiques, la Toile compte désormais un nombre de données toujours plus important avec la publication de contenus sociaux, la multiplication des partages et les divers moyens de communication.
Pour souligner l'énorme quantité de données à traiter, M. Boughanem revient sur les chiffres-clés du Web social avec 400 millions de messages publiés sur Twitter chaque jour et 600 000 publications et 510 000 commentaires sur Facebook chaque minute. Twitter enregistrerait quotidiennement 2 milliards de requêtes tandis que Google traiterait 23 pétaoctets de données en 24 heures.
Si les moteurs de recherche disposent d'éléments plus ou moins maitrisés par les spécialistes pour l'indexation des pages HTML classiques, comme le contenu de ces dernières ou le nombre de liens pointés vers celles-ci... le chercheur souligne que les moteurs ont dû concevoir de nouvelles méthodes pour faciliter l'indexation en temps réel des publications - parfois éphémères - créées par les internautes. Au travers de ses recherches, M. Boughanem explique ainsi que l'importance d'un tweet peut être mesurée par le texte-même du message, la présence d'un lien, ou d'un hashtag (#mot-clé). En revanche, le nombre d'abonnés au compte Twitter de l'auteur - et donc son influence potentielle - ou le nombre de republications (retweets) n'auraient aucun impact sur l'indexation et ne seraient donc pas des critères de choix pour les moteurs de recherche.
Pour l'exploitation des signaux sociaux, les travaux des moteurs de recherche s'articulent autour de deux axes : connaitre davantage l'internaute et déterminer la pertinence du contenu d'une donnée en fonction d'une requête.
Le profilage de l'internaute est effectué en fonction de ses relations sur divers sites Internet communautaires, les commentaires laissées sur les pages Web et les diverses activités comme les annotations de contenus. M. Boughamen souligne que le processus est relativement difficile dans la mesure où 60% des internautes eux-mêmes ne souhaiteraient pas obtenir des recherches personnalisées mais des résultats davantage objectifs.
Plusieurs éléments permettent de juger la nature du contenu et sa pertinence face à une requête spécifique. Outre la présence d'un terme spécifique, les moteurs analysent la quantité des commentaires, l'autorité de l'auteur ou le nombre de fois que celle-ci a été partagée. En outre, une page peut-être remontée au sein des résultats si celle-ci a été publiée par l'un de ses amis. Outre le nombre de liens retours, les signaux sociaux prennent de plus en plus de poids au sein de l'index de Google et la priorité est naturellement donnée au réseau social de la firme californienne.
En plus de l'indexation du contenu, les moteurs de recherche ont d'autres défis à l'horizon. Selon M. Boughamen, 60% des recherches comporteraient trois requêtes. Ces dernières permettent ainsi à l'internaute de raffiner ses mots-clés afin de faciliter la visibilité du résultat souhaité. Plutôt que de retourner plusieurs milliers liens, il revient donc au moteur de recherche d'agréger ces données puis de les condenser avant de les retourner à l'internaute. C'est notamment la thématique choisi par les ingénieurs de Microsoft tentant de transformer Bing en tant que moteur de décision ou permettant d'effectuer d'emblée un tâche précise.
A lire également :
BLEND Web Mix : quand les designers se mélangent aux développeurs…
BLEND Web Mix : Machine Learning, aux frontières de l'IA
BLEND Web Mix : le fondateur d'OverBlog ouvre le bal