Si les précédentes éditions de la Google I/O avaient déjà mis l'accent sur l'IA, cette année, Google a franchi un cap supplémentaire en dévoilant des innovations et des mises à jour autour de son modèle Gemini, soulignant une fois de plus son engagement envers une technologie désormais omniprésente.
La conférence de cette année n'était pas seulement une vitrine technologique, elle a également révélé la profondeur stratégique de Google dans l'exploitation de l'IA pour renforcer et diversifier ses produits. En intégrant Gemini à des plateformes variées telles que Android, Google Workspace et même Google Search, l'entreprise démontre que l'IA n'est plus juste un projet parallèle, mais un pivot central de son écosystème de produits.
Gemini 1.5 : jusqu'à 2 millions de tokens pour la version Pro
Dans l'arsenal technologique de Google, les modèles Gemini 1.5 Flash et Pro tiennent désormais une place de choix et c'est sur ce dernier que se basent toutes les démos les plus impressionnantes de cette keynote. Présentée pour la première fois en début d'année, cette nouvelle itération de Gemini s'appuie sur une architecture MoE (Mixture of Experts) pour proposer des performances proches de ses concurrents en raisonnement, mais surtout une mémoire d'un million (!) de tokens, bien loin devant les 128k de GPT-4o et de Claude. Gemini 1.5 Flash, quant à lui, se présente comme une version quantisée de son grand frère, optimisée pour des tâches de faible latence et de haute fréquence.
Son compère, Gemini 1.5 Pro, double quant à lui la fenêtre de contexte de traitement des données pour atteindre les 2 millions de tokens de mémoire, offrant une capacité d’analyse et de compréhension nettement accrue, cruciale pour des applications telles que la traduction en temps réel ou l'assistance personnelle approfondie. D'abord réservée à une petite caste de partenaires, Gemini 1.5 est disponible pour tous les développeurs, mais surtout pour l'ensemble des utilisateurs de Gemini Advanced, le tout dans 35 langues (dont le français).
Mais tout cela est-il assez pour nourrir les ambitions d'intelligence artificielle multimodale de Google ? La firme de Mountain View y croit fort, et c'est ce qu'elle a voulu démontrer tout au long de sa keynote. Par multimodale, Google entend bien proposer une IA capable d'ingérer son, image et vidéo, le tout avec une compression de la temporalité.
Adieu Search Generative Experience, dites bonjour aux AI Overviews
Google Search, le produit phare de l'entreprise, n'est pas resté à l'écart des innovations. Avec l'introduction des AI Overviews, Google repense l'expérience de la recherche en ligne. En exploitant les capacités de Gemini pour générer des résumés contextuels de l'information disponible sur le Web, Google augmente la valeur de chaque recherche, transformant les résultats en réponses enrichies et immédiatement utiles. Ne parlons pas de révolution, mais plutôt d'évolution puisque le concept existait auparavant sous le nom de projet Search Generative Experience.
Google Photos bénéficie également des avancées de Gemini. La fonction Ask Photos, par exemple, est un brillant exemple de la manière dont l'intelligence artificielle peut servir à organiser et accéder à nos souvenirs numériques de façon intuitive. En demandant simplement à Google Photos des informations sur des événements ou des objets spécifiques capturés dans nos images, les utilisateurs peuvent naviguer à travers des années de souvenirs avec une facilité déconcertante.
Chrome et Workspace se dotent eux aussi d'outils supplémentaires
Fers de lance de Google sur les ordinateurs, Chrome et Workspace ne sont pas en reste. Dans Workspace, Gemini est désormais accessible directement depuis un panneau latéral dans des applications comme Gmail et Google Docs. Cette intégration permet une automatisation poussée des tâches grâce à une meilleure compréhension contextuelle du contenu des utilisateurs.
Gemini 1.5 Pro, avec sa fenêtre de contexte élargie, offre des workflows intelligents et automatisés à travers différentes applications, permettant par exemple de comparer des pièces jointes de reçus, de résumer de longs échanges d'e-mails ou, encore, de mettre en évidence des points clés lors d'enregistrements de réunions.
Sur Chrome, Google déploie Gemini Nano avec une fonction appelée Help Me Write. Disponible à partir de la version 126 du navigateur, cette fonction exploite l'intelligence artificielle pour assister les utilisateurs dans diverses tâches d'écriture, allant de la rédaction de commentaires sur des sites de consommateurs à la création de publications sur les réseaux sociaux.
Grâce à Gemini Nano, cette assistance est non seulement rapide, mais aussi respectueuse de la vie privée, car le traitement se fait directement sur l'appareil de l'utilisateur. Cette approche garantit que les données personnelles restent sécurisées et sous le contrôle total de l'utilisateur.
NotebookLM fait un pas de plus hors du stade de simple expérience
Loin d'être juste un outil expérimental, NotebookLM s'affirme désormais comme une plateforme mature avec l'introduction de ses audio overviews, transformant la manière dont les utilisateurs interagissent avec le contenu éducatif et informatif. Audio overviews veut révolutionner l'apprentissage numérique en générant des discussions de type podcast entre deux interlocuteurs virtuels. Cette approche vise à faciliter la compréhension pour ceux qui apprennent mieux à l'écoute plutôt qu'à la lecture, rendant l'information plus accessible et engageante.
L'interaction avec NotebookLM ne se limite pas à une transmission passive des connaissances ; elle est profondément interactive. Dans un exemple partagé lors de la présentation, une requête pour contextualiser une leçon de physique à l'aide d'un exemple de basketball a été immédiatement prise en compte, illustrant comment les principes physiques s'appliquent dans des scénarios sportifs réels.
Pourquoi ce parallèle avec le sport ? Car l'IA sait que son auditeur est un fan de basket grâce à différentes données issues de son notebook. Les audio overviews de NotebookLM ouvrent également de nouvelles possibilités pour les utilisateurs ayant des besoins d'apprentissage spécifiques, tels que les personnes ayant des difficultés de lecture ou ceux qui préfèrent l'apprentissage auditif. En offrant une alternative aux méthodes traditionnelles, Google démocratise l'accès à l'éducation et à l'information, reconnaissant et adaptant ses outils aux diverses préférences et capacités de ses utilisateurs.
Vers une intégration plus profonde de Gemini dans Android 15
Avec l'arrivée imminente d'Android 15, Google s'apprête à révolutionner son système d'exploitation avec une intégration poussée de l'intelligence artificielle via Gemini Nano. L'une des améliorations majeures concerne la manière dont Gemini interagit avec les utilisateurs d'Android. Au lieu de basculer vers une interface en plein écran après chaque commande, Gemini propose désormais un panneau flottant qui se superpose sur l'interface de l'appli utilisée.
Cette nouveauté permet non seulement de préserver le contexte des applications ouvertes, mais offre également la possibilité de glisser-déposer directement des images générées par Gemini dans les conversations en cours, enrichissant ainsi l'expérience multitâche.
Une IA capable de chercher des infos dans des vidéos YouTube
Gemini pour Android intègre des fonctions avancées dans des applications comme YouTube, où le bouton Ask this video permet aux utilisateurs de poser des questions directement liées à la vidéo en cours de visionnage.
Cette fonction exploite les sous-titres et d'autres métadonnées pour fournir des réponses pertinentes, améliorant significativement l'interaction avec le contenu multimédia. De plus, les utilisateurs de Gemini Advanced auront accès à la fonction Ask this PDF, facilitant l'interaction avec des documents complexes.
Gemini vous protègerait même des arnaques téléphoniques
Une autre innovation notable est l'introduction des Suggestions Dynamiques de Gemini, qui utilisent l'intelligence artificielle pour proposer des actions basées sur le contenu affiché à l'écran. Par exemple, si un utilisateur lit un article sur le pickleball, Gemini pourrait suggérer des clubs de pickleball à proximité ou des règles pour les débutants, rendant l'assistance offerte par l'IA non seulement réactive, mais également proactive.
La sécurité est également au cœur des préoccupations d'Android 15 avec l'implémentation de Gemini Nano pour détecter les schémas de conversation typiques des escroqueries durant les appels téléphoniques. Cette fonction, qui s'exécutera localement sur le smartphone, alertera les utilisateurs en temps réel si des motifs suspects sont détectés, comme lorsqu'un faux représentant bancaire demande un transfert urgent de fonds ou des informations personnelles sensibles.
Projet Astra : Google veut faire de Gemini l'AGI qui agît
Un autre moment fort de la conférence fut la présentation du Project Astra, déjà teasé la veille de la conférence. Une plus grosse fenêtre de contexte et une fondation multimodale font de Gemini une IA disposée à devenir un assistant capable de répondre en temps réel aux demandes de l'utilisateur ayant rapport à son environnement proche.
Project Astra représente non seulement une avancée technique, mais aussi une promesse d'intégration plus poussée de l'IA dans notre vie de tous les jours, facilitant des tâches aussi diverses que la gestion domestique ou la planification personnelle. Plus que tout, Astra sonne comme un mea culpa suite au scandale de la démo de Gemini trompeuse qui avait causé un tollé à la fin de l'année dernière. Google a également profité de cette petite démo pour nous teaser une nouvelle fois les Google Glass, un concept qui prendrait désormais tout son sens avec Astra.
Image, vidéo, musique : du nouveau pour l'IA générative
Lors de sa conférence I/O 2024, Google a aussi introduit Veo, un modèle d'intelligence artificielle dédié à la création de vidéos. Grâce à lui, les utilisateurs peuvent désormais générer des vidéos en 1080p à partir de simples commandes textuelles, visuelles ou vocales. Cette capacité à ajuster le style vidéo en fonction des indications fournies, telles que les time-lapses ou les plans aériens, montre comment Google veut concurrencer et, surtout, couper l'herbe sous le pied, d'OpenAI et son projet Sora.
Le module Imagen 3, quant à lui, repousse les frontières de la création d'images à partir de textes. Avec une meilleure compréhension du langage naturel et une capacité accrue à intégrer des détails précis à partir de descriptions plus longues, Imagen 3 produit des images plus réalistes et détaillées que jamais.
Enfin, le domaine de la musique n'est pas en reste avec les évolutions de Music AI Sandbox de Google. Cette plateforme permet désormais aux musiciens de créer de la musique assistée par IA, enrichissant leurs œuvres avec des additions instrumentales et des styles créatifs variés.
Avec les Gems, Google veut ses propres GPTs
Avec ses Gems, l'entreprise de Mountain View entre directement en compétition avec le GPT Store d'OpenAI, proposant une plateforme où les utilisateurs peuvent non seulement utiliser l'IA, mais la modeler selon leurs désirs. Que ce soit pour des tâches domestiques, professionnelles ou des hobbies, les Gems de Google promettent une adaptabilité et une intégration qui pourraient transformer la façon dont nous interagissons avec les outils numériques.
Initialement disponibles pour les abonnés de Gemini Advanced, les Gems promettent d'étendre considérablement la portée de l'IA personnalisable. En rendant ces outils accessibles à une base d'utilisateurs plus large, Google envisage un futur où chacun pourrait avoir son propre assistant virtuel sur mesure, capable de comprendre et d'agir en parfaite harmonie avec les préférences et les besoins individuels.
11 décembre 2024 à 17h08