Retour sur les enjeux du web sémantique

Ces dernières années, l'enrichissement des technologies web a replacé au centre des discussions la notion de « web sémantique ». L'idée est de pouvoir proposer aux internautes un « web intelligent » grâce à la manipulation de données. Mais qu'est-ce que véritablement le web sémantique ? Et quels sont les outils nécessaires aux développeurs ? Clubic s'est arrêté sur le sujet lors de la conférence SemWeb Pro qui se déroule actuellement à Paris.

Qu'est-ce que le web sémantique ?

Bien que l'internaute ne perçoive principalement le web qu'au travers des pages HTML générées par le navigateur, une multitude de données sont véritablement stockées dans des bases et invisibles aux utilisateurs. L'objectif est donc de pouvoir manipuler ces dernières et les rendre accessibles aux internautes.

Ivan Herman, l'un des responsables du groupe Semantic Web Activity au sein du W3C, explique alors : « l'intégration des données sur le web est un problème majeur. Le web sémantique est une approche basée sur les technologies du web pour pouvoir intégrer, de manière uniforme avec l'utilisation de standards, les données en vue de développer des applications qui les utilisent ».

Il peut s'agir d'applications publiques ou privées par exemple dans le cas d'une utilisation sur l'intranet d'une entreprise. A l'heure actuelle, pour permettre aux développeurs de manipuler leurs données, les services web publient leurs propres interfaces de programmation, la plupart d'entre elles étant fermées et propriétaires. Les avancées dans le domaine du web sémantique devraient pouvoir proposer un standard permettant de faciliter les interactions. Aussi, typiquement, un site e-commerce possédant quelques milliers d'éléments au sein de sa base souhaitera bénéficier des outils nécessaires pour décrire précisément chacun des articles afin qu'ils soient mieux référencés au travers des moteurs de recherche.

« Quand on commence à analyser ce concept, il y a des demandes qui apparaissent », explique M. Herman. Il ajoute : « Nous devons avoir un moyen d'intégrer les données de manière standard, donc il y a des technologies développées à cet effet. On doit ajouter des vocabulaires et des langages de requête. Il y a beaucoup de choses à faire. ».

Quels sont les outils du web sémantique ?

Lorsqu'il est strictement réservé au HTML, et donc aux pages web, la notion de web sémantique se présente sous la forme des microformats. Il s'agit de formatter le code existant pour générer des méta-données, lesquelles pourront ensuite être interprétées par le navigateur. Si le navigateur est déjà capable lire les balises du code HTML, ces dernières ne font pas véritablement de sens. Ce problème sera donc palié par l'ajout de méta-données décrivant la nature du contenu.

Il existe plusieurs types de microformats permettant de décrire un événement (hCalendar), une carte de visite (hCard), une position géographique (geo), une adresse postale (adr), l'opinion d'un internaute (hReview) ou encore le contenu d'un CV (hResume).

L'utilisation des microfromats spécifie l'utilisation de certaines classes pré-définies au sein du code HTML. Celles-ci pourront ensuite être référencées au sein de la feuille de style pour le choix la mise en forme. Ainsi une carte de visite en HTML sera composée, entre autres, des classes org (société), street-address (nom de la rue), photo (avatar) ou encore tel (téléphone).

L'un des problèmes liés aux microformats réside alors dans les nombreux conflits pouvant apparaître au niveau de la feuille de style. En effet, certaines de ces classes peuvent avoir été précédemment utilisées par le développeur avec une mise en forme différente. M. Herman, précise : « Aussi la combinaison de plusieurs microformats est source de conflit ». L'utilisation de ces derniers sera alors principalement réservé à des applications simples.

Par ailleurs, comme le rappelle M. Herman : « Le HTML n'est qu'une représentation au travers du navigateur de données qui sont autre part, dans des bases de données. Ces mêmes données sont représentées différenmment si l'on veut en faire autre chose ».

Pour cette raison le groupe du Semantic Web Activity planche sur un modèle standard d'échange de données sur le web baptisé RDF. La version de RDF proposée par le W3C présente la particularité d'être associée au langage XML mais d'autres variantes sont également en développement.

Un graphe RDF classique présente des triplets décrivant ces données. Ces triplets sont constitués d'un sujet (la ressource devant être décrite), d'un prédicat (stipulant que cette ressource possède une propriété particulière) et d'un objet (la valeur de cette propriété). Parallèlement, le groupe Data Access Working du W3C travaille sur SPARQL, un langage de requête permettant de manipuler les graphes RDF. Ainsi SPARQL est à RDF ce que MySQL est au PHP.

Ivan Herman

L'adoption du Web sémantique

S'il revient au centre des débats, le web sémantique n'est pas pour autant une idée nouvelle. La notion fut premièrement décrite dans les années 1990 et la première spécification de RDF vit le jour en 1999. L'année 2001 est généralement considérée comme le vrai départ de cette technologie avec la concrétisation de certaines visions et le financement de plusieurs projets européens ou français.

Ivan Herman explique que l'adoption des standards a toujours été très lente. « Il a fallu dix ans pour que le CSS soit utilisé en masse et si SVG date de 2001, Microsoft n'embarquera que 60% du standard au sein d'Internet Explorer 9 ». Reste que depuis 2007, les efforts se multiplient. Après avoir migré du Minitel au web, une majorité de sociétés disposent maintenant de sites Internet. Ces dernières souhaitent désormais une meilleure gestion de leurs données. L'engouement autour de ces technologies est devenu tel que les développeurs spécialisés manquent à l'appel aujourd'hui.

Notons que plusieurs problématiques ont vu le jour ces derrnières années. Comme nous le mentionnions plus haut, il s'agit par exemple de pouvoir faire communiquer différentes interfaces de programmation. Aussi, Yahoo! qui fut l'un des pionniers dans le domaine avec sa technologie SearchMonkey, a dû arrêter ses travaux après le partenariat avec Bing. Microsoft a cependant laissé entendre que d'autres réflexions autour du web sémantique devraient voir le jour.

De son côté, Google s'est premièrement montré très réticent à l'idée d'utiliser RDF. La firme de Mountain de View ne voulait axer le référencement des sites que sur le texte des internautes et craignait de voir un phénomène similaire au mauvais usages des balises meta name et meta keyword polluant son index. Google commence cependant à développer pour le web sémantique avec Open Social, basé sur FOAF, un vocabulaire RDF inscrit dans le web social permettant de décrire des personnes et les relations qu'elles entretiennent entre elles. Notons également les résultats avancés du moteur sous la forme des Rich Snipets ou encore le rachat de MetaWeb et du projet Freeweb.

L'adoption massive de ces standards devrait alors pouvoir généraliser de nouveaux usages. L'enrichissement des communications entre les données du web, les applications hébergées et les logiciels locaux devraient amincir davantage les frontières entre l'ordinateur et le web. Par ailleurs l'internaute devraient pouvoir interagir avec des données jusqu'alors inaccessibles, une initiative récemment illustrée par le gouvernement britannique sur data.gov.uk. Tim Berners-Lee, l'inventeur du World Wide Web, expliquait en juin 2006 que les fruits des travaux portés autour du web sémantique formeraient l'un des aspects majeurs du Web 3.0.