Après 25 ans d'existence, les robots.txt pourraient enfin devenir un standard du web

Christelle Perret
Publié le 03 juillet 2019 à 09h24
Google robots.txt

Google souhaite que les robots.txt, ou protocole d'exclusion des robots (REP), deviennent un standard du web. En collaboration avec l'auteur original du protocole de 1994, le géant du web a documenté le fonctionnement du REP et l'a soumis à l'IETF (Internet Engineering Task Force), l'organisme qui élabore et promeut les standards Internet.

Créés en 1994 par Martijn Koster, le fichier robots.txt est largement utilisé par les éditeurs web. Toutefois, il n'est jamais devenu une norme Internet.

Une ébauche des robots.txt soumise à l'IETF

Le fichier robots.txt célèbre son 25ème anniversaire. Placé à la racine d'un site internet par son créateur, il donne des indications aux « spiders », les robots des moteurs de recherche. En somme, c'est un fichier d'instructions, personnalisable par l'éditeur d'un site web.

Les fichiers robots.txt prévalent largement sur la toile, mais ils ne sont jamais devenus une norme internet. Notamment parce que les différents robots ne les interprètent pas de la même façon. Mais aussi parce qu'ils ne s'attaquent pas aux problèmes modernes du web.

Ainsi, Google souhaite standardiser le fichier robots.txt, afin que tous les robots crawlers l'interprètent de la même manière. Pour cela, et en collaboration avec l'auteur original du protocole de 1994, des webmasters et d'autres moteurs de recherche, Google a documenté le fonctionnement du REP avec le web moderne. Et bien-sûr, la demande à été soumise à l'IETF.

« L'ébauche proposée du REP reflète plus de 20 ans d'expérience dans le monde réel en matière de règles robots.txt, utilisées à la fois par Googlebot et d'autres grands robots, ainsi que par environ un demi-milliard de sites Web qui font confiance au REP. [...] Il ne change pas les règles créées en 1994, mais définit tous les scénarios pour l'analyse et l'adaptation de robots.txt, et les étend au web moderne ».

La standardisation des robots.txt est donc en cours d'élaboration. Pour ce faire, Google s'est entouré de développeurs web afin de recueillir leurs commentaires. Ainsi, le protocole sera ajusté au fur et à mesure de leurs retours, notamment en ce qui concerne la quantité d'informations qu'ils sont prêt à transmettre à Googlebot, et donc susceptible d'apparaître dans les résultats de recherche.




Source : 9to5google
Christelle Perret
Par Christelle Perret

Bercée trop près des consoles de jeux vidéo et fortement soumise aux ondes des gadgets High Tech, j'ai développé une passion pour ces domaines qui rendraient violent / distrait / dépressif / cochez l'adjectif adéquat ou ajoutez-en un nouveau. J'aime les chats, Harry Potter et je pense que Le Seigneur des Anneaux, c'est mieux que Star Wars. J'assume, et j'ai même pas peur de le dire !

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !
Commentaires (0)
Rejoignez la communauté Clubic
Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.
Commentaires (1)
jvachez

Ce fichier est une très mauvaise idée. C’est plutôt une faille de sécurité. Il facilite le travail des hackeurs qui auront facilement la liste des répertoires où ils peuvent trouver des données intéressantes.

Abonnez-vous à notre newsletter !

Recevez un résumé quotidien de l'actu technologique.

Désinscrivez-vous via le lien de désinscription présent sur nos newsletters ou écrivez à : [email protected]. en savoir plus sur le traitement de données personnelles