Immersion, traduction... Google continue de révolutionner la recherche

Dounia Berrada, Ingénieure logiciel senior chez Google, a présenté une fonctionnalité de traduction bluffante © Capture d'écran par Clubic du Google Search On

Google a fait de nouvelles annonces mercredi, lors de l'événement Search On, qui vont bien au-delà de la recherche textuelle historique.

Depuis des années, Google développe toujours plus de moyens naturels et intuitifs pour chercher des informations. De la recherche textuelle d'antan, il est désormais possible d'effectuer des recherches à partir d'une photo ou d'une commande vocale. Mercredi, la firme de Mountain View a profité de son événement Google Search On pour montrer toutes les capacités offertes par les progrès de l'intelligence artificielle, au travers de nouvelles fonctionnalités toujours plus immersives.

La fonctionnalité Multisearch, qui permet une recherche à partir d'images et de textes simultanément, va vite arriver en Europe

Elle était pour l'instant uniquement disponible en version bêta aux États-Unis, mais voilà qu'elle va s'élargir à plus de 70 nouvelles langues, dont le français, dans le mois à venir. De quoi parle-t-on ? De la fonctionnalité Multisearch, qui fait elle-même appel à la recherche visuelle Google Lens, inaugurée en 2017 et qui aujourd'hui permet de traiter quelque 8 milliards de requêtes par mois.

Un exemple de la fonctionnalité Multisearch © Google

Multisearch permet d'effectuer des recherches à partir d'images et de texte, le tout simultanément. Cette première fonctionnalité sera bientôt disponible en France, mais Google a déjà promis de lancer, dès cet automne aux États-Unis, la version améliorée. Celle-ci est baptisée Multisearch near me, comprenez « Multisearch près de moi » en français. Ici, l'utilisateur prend une photo d'un objet, d'une plante, d'un plat, et Google lui indique en un instant où le trouver dans un endroit proche. Assez bluffant.

Une nouvelle ère pour la traduction

Google Translate va aussi connaître sa révolution. L'outil de traduction de la firme américaine veut contribuer à faire tomber les barrières linguistiques grâce à la communication visuelle. C'est ainsi que Google, avec l'aide de l'IA, a pu passer de la traduction de texte à la traduction d'images. Un chiffre témoigne de l'utilité de l'outil : chaque mois, l'entreprise enregistre plus d'un milliard d'utilisations pour la traduction d'un texte depuis une photo, le tout dans 100 langues différentes.

Et pour aller plus loin, Google offre désormais à ses utilisateurs la possibilité de réintégrer le texte une fois celui-ci traduit, directement dans l'image originale, par le biais des GAN (Generative Adversarial Networks), que l'on peut traduire par « réseaux antagonistes génératifs », une technologie assez récente particulièrement prometteuse, que l'on peut comparer à la partie créative du machine learning.

À gauche, votre image de départ ; à droite, celle après traduction. On voit que Google a directement remplacé le texte sur l'image © Google

Sur l'aspect pratique, si vous dirigez votre appareil photo vers un magazine dans une langue étrangère, Google traduira le texte automatiquement et le superposera sur les images de la page, comme s'il était imprimé.

La vue immersive vient enrichir Google Maps plus que jamais

Avec les progrès faits en matière de modèles prédictifs et de vision artificielle, Google clame haut et fort avoir réimaginé le concept de la carte, passant ainsi d'une image 2D à une vue multidimensionnelle de notre monde. Tout cela pour que l'utilisateur se représente un lieu presque comme s'il y était physiquement.

On connaissait déjà l'affichage du trafic en temps réel, basé notamment sur l'aspect participatif de Google Maps, mais voilà que l'application va être enrichie par la vue immersive. Cette dernière consiste en une représentation dynamique de renseignements divers et variés, comme l'affluence et la météo. En plus de tous les renseignements déjà fournis… L'utilisateur peut alors se faire une idée assez précise d'un lieu visé avant même d'y avoir mis les pieds.

Si l'on prend l'exemple d'un restaurant, la vue immersive permet de zoomer d'abord sur le quartier, puis sur l'établissement ciblé, en prenant donc connaissance de la fréquentation du lieu à tel ou tel moment de la jounée (l'utilisateur dispose d'un curseur qui l'aide à choisir l'horaire précis), et de la météo.

Évidemment, cette fonctionnalité nécessite de grosses ressources humaines et des images aériennes, donc elle est particulièrement complexe à déployer. C'est notre petit regret. 250 monuments sont ainsi disponibles pour la première version de cette fonctionnalité. La vue immersive sera, elle, définitivement lancée dans cinq villes (San Francisco, Los Angeles, New York, Londres et Tokyo) dans les prochains mois. D'autres métropoles suivront sans doute plus tard.