Le géant des algorithmes n'a pas qu'un tour dans son sac. Google, champion des moteurs de recherche, vient d'annoncer le rachat de la société reCaptcha. Cette dernière est à l'origine du système anti-spams, basé sur la reconnaissance, par les humains, de caractères plus ou moins lisibles, numérisés dans des livres anciens.
Et d'une pierre, deux coups. En rachetant cette société fondée à l'université Carnegie Mellon (USA), Google va bénéficier d'une armée d'internautes « bénévoles » pour améliorer son système de reconnaissance optique. ReCaptcha fournit aux sites souscripteurs une image de mot que les outils de reconnaissance otique n'arrivent pas à lire. Les internautes sont ainsi amenés, en validant leur commentaire, inscription ou autres, à recopier les mots qu'ils déchiffrent afin de prouver qu'ils ne sont pas des « robots » (MAJ : l'un des mots est connu du système, l'autre non). ReCaptcha, qui est chargé de numériser, avant 2010, 130 ans d'archives du New York Times, entraine ainsi ses outils de reconnaissance optique à lire comme des humains (reste à bien protéger ces données des spammeurs). Le service fournit ainsi 30 millions d'images par jour à pas moins de 100.000 sites.
Une stratégie qui n'est pas nouvelle, puisqu'avec Google Answers et Image Labeler, Google employait déjà les mêmes méthodes. Le premier service est une base de connaissances où ce sont les internautes eux-mêmes qui proposent des réponses aux requêtes. Tandis qu'Image Labeler, est un jeu où les internautes sont sollicités pour décrire une image et lui associer des mots-clef. Mais, contrairement à Google Answers, où les contributeurs peuvent gagner quelques dollars, Image Labeler ne paye pas. Pas folle l'abeille. Dommage, car, comme le démontraient les initiatives de Nathan Eagle, chercheur au Santa Fe Institute, ce type de « nanojob » pourraient bien devenir légion.