L’IA de Google gagne la vue : Gemini commence à analyser le monde en direct

Google franchit une nouvelle étape dans l'évolution de son assistant intelligent en introduisant des fonctionnalités de partage d'écran et d'analyse vidéo en temps réel pour Gemini Live.

Gemini ouvre les yeux pour comprendre le monde autour de vous © Shutterstock

Vous souvenez-vous du Projet Astra ? Il y a presque un an, à l'occasion de la Google I/O 2024, le moteur de recherche avait présenté de nombreuses nouveautés liées à son intelligence artificielle, Google Gemini, mais aussi quelques projets de recherche sur lesquels ses équipes travaillaient activement. Parmi ces derniers, le Projet Astra, qui utilisait la caméra du smartphone pour offrir des yeux à l'assistant Gemini et lui permettre d'analyser ce que voit l'utilisateur. Désormais cette capacité est une réalité comme l'ont remarqué quelques utilisateurs du chatbot de Google.

Google Gemini (Bard)

Un modèle de génération puissant
Une base de connaissances actualisée en temps réel
Gratuit et intégré à l'écosystème Google

8 / 10

Télécharger

Gemini Live possède désormais des yeux pour comprendre le monde autour de vous

Gemini Live, l'assistant vocal avancé de Google, intègre désormais des capacités de partage d'écran et de diffusion vidéo en direct. Cette mise à jour permet à l'IA d'analyser en temps réel le contenu affiché sur l'écran de l'utilisateur ou capturé par la caméra du smartphone. Ainsi, Gemini peut fournir des réponses précises et contextualisées en fonction de ce qu'il voit, offrant une assistance plus intuitive et adaptée aux besoins spécifiques de chaque situation.

Par exemple, un utilisateur peut pointer la caméra de son smartphone vers un objet inconnu, et Gemini identifiera cet objet et fournira des informations pertinentes. De même, en partageant l'écran, l'utilisateur peut obtenir des explications ou des conseils sur une application ou une page web spécifique, rendant l'interaction avec l'IA plus fluide et naturelle.

Un possesseur d'un smartphone Xiaomi a eu la surprise de voir apparaitre cette nouvelle capacité lors d'une utilisation de Gemini, et s'est empressé de partager la bonne nouvelle sur Reddit, captures d'écran et vidéo à l'appui. On peut voir ainsi l'assistant Gemini analyser le contenu de l'écran d'accueil de l'utilisateur, et lui donner des informations sur les notifications reçues ou sur les widgets affichés.

Google rattrape son retard face à ChatGPT

Les nouvelles fonctionnalités de Gemini Live sont progressivement déployées auprès des abonnés au plan Google One AI Premium, qui payent une somme de 21,99 euros par mois chaque mois pour bénéficier des dernières capacités d'intelligence artificielle de la marque américaine.

En offrant une assistance plus contextuelle et interactive, Google renforce la position de Gemini sur le marché des IA, et suit les pas de ChatGPT, qui propose ce mode depuis quelques mois avec Live Camera, ou d'Alexa+, le nouvel assistant d'Amazon qui arrivera dans les tous prochains jours et utilisera les caméras des écrans connectés pour voir ce qu'il se passe autour de lui.

Cette nouvelle technologie offre une meilleure accessibilité pour les assistants IA, désormais toujours disponibles et capables de comprendre le monde qui les entoure, sans avoir besoin de taper une requête dans un champ de texte. Reste dorénavant à intégrer ce dispositif dans un accessoire que l'on porte en permanence sur soi pour une utilisation totalement transparente, comme au hasard, des lunettes connectées.

Source : The Verge

À découvrir

Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2025

04 février 2025 à 14h11

Comparatifs services