Après avoir obtenu la deuxième place du HackMIT 2013 il y a quelques mois, le plus grand concours de développement de la prestigieuse université américaine, cette solution qu'on doit à un dénommé Kevin Kwok a été peaufinée et rendue publique la semaine dernière.
Le projet Naptha, initialement appelé « Images as Text », se présente dans un premier temps sous la forme d'une extension pour le navigateur Google Chrome. Une fois installée, elle permet de sélectionner et de manipuler du texte dans toutes sortes d'images. Alors qu'habituellement il faut recopier manuellement du texte apparaissant dans une capture d'écran, dans une infographie ou dans un document numérisé, on peut ici le copier-coller, l'effacer ou même le remplacer par une version traduite.
Techniquement, Naptha repose essentiellement sur le portage JavaScript de technologies existantes. L'extension opère principalement sur l'ordinateur de l'utilisateur, des serveurs (le cloud) pouvant participer dans certains cas. Kevin Kwok utilise Stroke Width Transform (SWT) de Microsoft Research pour reconnaître les blocs de texte et permettre leur sélection, puis le moteur de reconnaissance optique de caractères (OCR) Ocrad pour la traduction en texte brut. L'auteur reconnaît que ce dernier, une solution libre, a quelques années de retard.
Mais l'utilisateur peut faire appel, via le cloud, au moteur Tesseract de Google, qui prend en compte la langue et le contexte pour améliorer la reconnaissance (« he1|o » devient ainsi « hello »). L'auteur travaille par ailleurs sur l'amélioration de la détection des blocs de texte dans des scènes naturelles sur des photos, apparaissant en perspective et/ou à la verticale. Sans oublier un algorithme dédié aux memes, c'est-à-dire à la typographie Impact Bold, difficile à reconnaître.
Le projet Naptha est donc disponible dès à présent pour Google Chrome. Une version Firefox est envisagée. Mais sur le site Internet détaillé dédié au projet, Kevin Kwok rappelle à juste titre qu'une telle fonction devrait être intégrée d'origine aux navigateurs. Gageons que les éditeurs feront appel à son savoir faire ou s'en inspireront.