Chercheur de l'équipe Edelweiss à l'Inria Sophia Antipolis, Fabien Gandon revient sur le décollage du Web sémantique et le développement du moteur de recherche open source Corese.
MD - Fabien Gandon, bonjour. Pouvez-vous revenir sur le concept du Web sémantique ?
FG - À l'heure où la profusion des données est une problématique à part entière, il devient nécessaire d'organiser plus efficacement les connaissances. Il faut permettre aux moteurs de recherche de mieux comprendre les ressources qu'ils traitent. Quelles que soient les méthodes utilisées pour caractériser les ressources du web (approche statistique, langage naturel, approches manuelles, social tagging...), il faut représenter ces caractéristiques. Le Web sémantique vise à capturer puis retranscrire des données du Web, notamment celles décrivant ses différentes ressources (pointeurs). On appelle ces « étiquettes » des métadonnées qui vont permettre à des programmes de traiter automatiquement le contenu des ressources du World Wide Web. Elles peuvent provenir d'opérations de sauvegarde, de mise en ligne ou être techniques, dans le cas d'images prises par un appareil photo numérique par exemple (heure, date, lieu de la prise de vue..).
MD - En quoi consiste alors votre travail ? Qu'est-ce que Corese ?
FG - Dès lors, notre travail consiste à représenter ces métadonnées, à travers des formats et des langages. Le langage RDF standardisé en 2004 va servir à décrire la ressource. Le langage Sparql, normalisé par le World Wide Web Consortium (W3C), il y a peu, servira ensuite à interroger ces descriptions (requête). D'un point de vue technique, ces deux langages sont donc complémentaires et fournissent la « plomberie interne » pour un Web de données accessible aux applications. Dans le cas de Corese, les métadonnées sont ensuite représentées sous forme d'un graphe ou chaque arc représente un morceau de connaissance élémentaire en RDF appelé triplet car il est en trois morceaux (sujet, prédicat, objet); par exemple (Tim Berners-Lee, dirige, le W3C). RDF structure ainsi la représentation des connaissances dans un graphe et Tim Berners-Lee parle même d'un GGG (Giant Global Graph), un graphe mondial géant. Ensuite, reste aux entreprises à développer serveurs et clients de ce graphe mondial. TopQuadrant, Jena de HP, Oracle, Virtuoso, ou encore Sparqler sont des outils qui utilisent les langages RDF et Sparql. En plus de développer le moteur Corese pour la manipulation de RDF et SPARQL, l'Inria a, aussi, développé via ses chercheurs en psychologie et ergonomie, des dizaines d'interfaces pour des secteurs aussi divers que l'automobile, la médecine, l'éducation ou encore la biologie.
Concernant Corese, c'est une plateforme d'expérimentation née en 1999. Ce moteur de recherche, libre de droit et gratuit en ligne, nous a permis de participer au travail entrepris par le W3C pour la normalisation du langage Sparql. Il existe différentes approches pour raisonner (logiques de description, logiques temporelles ou spatiales...). Corese utilise des représentations et raisonnement à base de graphes. In fine, le choix de telle ou telle méthode dépend des usages ou des scénarios traités. Les approches à base de graphes sont connues pour leur efficacité dans les algorithmes de parcours et de comparaison de graphes notamment pour rechercher un petit graphe (une requête) dans un gros graphe (une base de données RDF). Les graphes permettent aussi d'autres types de raisonnements par exemple une recherche approximative via la définition de distances. Corese compte, entre autres, comme partenaire, le département R&D de France Telecom Orange labs et la spin-off Peegrim.
MD- Pouvez-vous citer quelques projets pilotes ou concurrents dans le domaine du Web sémantique ?
FG - Parmi les entreprises pilotes dans la valorisation des recherches sur le Web sémantique, on compte par exemple, le constructeur Nokia avec son Nokia RDF Gateway, un système de gestion des connaissances et de réseaux d'experts. Mais aussi le moteur de recherche Sindice, qui revendique déjà près de dix milliards de triplets (pointeurs). Le projet de l'Agence France Presse (AFP), qui permet de représenter les dépêches afin de les « router » vers différentes cibles, l'américain TopQuadrant, ou encore le futur moteur de recherche de Yahoo, SearchMonkey. En test pour le moment, ce dernier a une structure ouverte, ce qui signifie que l'utilisateur pourra lui même y ajouter des connaissances.
MD - La profusion des projets de moteurs de recherche ne vous inquiète-elle pas en terme d'intérêt industriel (Theseus, Semedia, Tripod, Rushes, Vidi-Video, Sapir, Victory, Divas, Pharos, Vitalas, Infom@gic...) ?
FG - Non, tout d'abord « la seule façon de lutter contre la diversité c'est de lui opposer une autre diversité ». Le terme « recherche » est très vague, il comprend d'innombrables activités, et donc de nombreuses familles de recherche. Ce n'est pas pareil de rechercher un tutoriel parce que l'on ne connait pas du tout un sujet, ou seulement pour valider une connaissance, ou bien encore pour retrouver une information. De plus, on ne peut absolument pas comparer une plateforme comme Corese avec Google qui cherche à indexer tout le Web. Depuis 14 ans avec Accacia, et depuis deux ans avec Edelweiss, nous travaillons essentiellement avec des entreprises, des organisations des communautés, sur des problèmes de gestion de connaissances focalisés, au travers de contrats industriels, de projets de l'Agence nationale recherche (ANR), de l'Union européenne ou encore via des thèses. Il y existe aussi des synergies au sein de l'Inria avec l'équipe « Exmo » ou l'équipe « Orpailleur » à Nancy, et en dehors avec par exemple l'équipe RCR du Lirmm à Montpellier, afin de mettre en commun nos connaissances, comparer nos approches, couvrir tout le spectre des usages et peut être même construire une plateforme commune.
Désormais nous nous orientons plus largement vers l'aide à la gestion des communautés de pratique ou d'intérêt, de préférence en ligne, pour assister l'extraction d'annotations RDF, les représenter et les traiter sous forme de graphes, et concevoir les interfaces et interactions des utilisateurs de ces communautés.
MD - Fabien Gandon, je vous remercie.