Après 25 ans d'existence, les robots.txt pourraient enfin devenir un standard du web

Google souhaite que les robots.txt, ou protocole d'exclusion des robots (REP), deviennent un standard du web. En collaboration avec l'auteur original du protocole de 1994, le géant du web a documenté le fonctionnement du REP et l'a soumis à l'IETF (Internet Engineering Task Force), l'organisme qui élabore et promeut les standards Internet.

Créés en 1994 par Martijn Koster, le fichier robots.txt est largement utilisé par les éditeurs web. Toutefois, il n'est jamais devenu une norme Internet.

Une ébauche des robots.txt soumise à l'IETF

Le fichier robots.txt célèbre son 25^ème anniversaire. Placé à la racine d'un site internet par son créateur, il donne des indications aux « spiders », les robots des moteurs de recherche. En somme, c'est un fichier d'instructions, personnalisable par l'éditeur d'un site web.

Les fichiers robots.txt prévalent largement sur la toile, mais ils ne sont jamais devenus une norme internet. Notamment parce que les différents robots ne les interprètent pas de la même façon. Mais aussi parce qu'ils ne s'attaquent pas aux problèmes modernes du web.

Ainsi, Google souhaite standardiser le fichier robots.txt, afin que tous les robots crawlers l'interprètent de la même manière. Pour cela, et en collaboration avec l'auteur original du protocole de 1994, des webmasters et d'autres moteurs de recherche, Google a documenté le fonctionnement du REP avec le web moderne. Et bien-sûr, la demande à été soumise à l'IETF.

« L'ébauche proposée du REP reflète plus de 20 ans d'expérience dans le monde réel en matière de règles robots.txt, utilisées à la fois par Googlebot et d'autres grands robots, ainsi que par environ un demi-milliard de sites Web qui font confiance au REP. [...] Il ne change pas les règles créées en 1994, mais définit tous les scénarios pour l'analyse et l'adaptation de robots.txt, et les étend au web moderne ».

La standardisation des robots.txt est donc en cours d'élaboration. Pour ce faire, Google s'est entouré de développeurs web afin de recueillir leurs commentaires. Ainsi, le protocole sera ajusté au fur et à mesure de leurs retours, notamment en ce qui concerne la quantité d'informations qu'ils sont prêt à transmettre à Googlebot, et donc susceptible d'apparaître dans les résultats de recherche.

Happy 25th birthday, robots.txt! You make the Internet a better place. You're the real MVP! pic.twitter.com/vxvZTcHpR3
— Google Webmasters (@googlewmc) 1 juillet 2019

Source : 9to5google