Il est arrivé : Gemini 2.0 ! Cette nouvelle mouture, dévoilée par Demis Hassabis, l'homme à la tête de Google DeepMind, est enfin capable de traiter simultanément différents types d'informations. Quoi de neuf à se mettre sous la dent ? Gemini rattrape-t-il la concurrence ?

 © JLStock / Shutterstock
© JLStock / Shutterstock

Gemini continue sa mue, comme certains indices le laissaient présumer il y a un moins d'un mois. Après être arrivé sur mobile cet été, s'être doté du mode Live pour converser (plus ou moins) naturellement, le chatbot phare de Google vient d'arriver en version 2.0, 10 mois après le déploiement de la version 1.5. Sa principale nouveauté : son architecture supporte nativement le traitement multimodal.

Outre cet aspect, Gemini 2.0 est meilleur pour comprendre le langage (avec quelques limites, vous le verrez), de génération de texte, de performance sur diverses tâches (traduction, résumé, etc.) et de réduction des erreurs et des biais.

Une IA plus puissante et plus polyvalente

La force de Gemini 2.0 réside dans son approche holistique du traitement de l'information. Là où son prédécesseur juxtaposait différents modules spécialisés, cette nouvelle version adopte une architecture unifiée permettant l'analyse simultanée du texte, des images et du son. La version Flash, première déclinaison accessible, atteint déjà les performances du modèle Pro précédent tout en optimisant ses ressources computationnelles.

Vous pouvez d'ores et déjà explorer ces capacités via l'interface web de Gemini, en sélectionnant en haut à gauche de la fenêtre le modèle Flash 2.0 Experimental. L'option Deep Research, si vous êtes abonnés à Gemini Advanced, permet de traiter des requêtes plus complexes, d'analyser des ensembles de données plus vastes, et de fournir des réponses plus détaillées et plus pertinentes.

Toutefois, Gemini 2.0 est bien meilleur dans sa langue de programmation, c'est à dire l'anglais, pour lequel les fonctionnalités principales ont été optimisées. Dans la langue de Molière, il fonctionne tout de même, mais il ne sera pas aussi à l'aise.

Enfin, à l'instar d'un certain ChatGPT-4, qui profite de l'intégration de DALL·E 2, il est possible de générer des images. Le résultat, comme vous pouvez le voir ci-dessous sur les deux essais réalisés, restent encore largement en deçà de ce qu'est capable l'agent d'OpenAI.

 La génération d'image est très rapide, mais le résultat est plus que moyen si le prompt est trop court. © Capture d'écran / Gemini
La génération d'image est très rapide, mais le résultat est plus que moyen si le prompt est trop court. © Capture d'écran / Gemini
Cela s'améliore un peu si on allonge le prompt, mais ce n'est pas encore spectaculaire. © Capture d'écran / Gemini

Les agents autonomes : L'IA en route vers l'indépendance

Au-delà de ces progrès, Gemini 2.0 a bénéficié du travail des ingénieurs de chez Google pour gagner plus d'autonomie, avec l'implémentation d'agents tous spécialisés dans des tâches différentes. Dans le domaine de l'intelligence artificielle, et plus particulièrement dans le contexte des grands modèles de langage (LLM) comme Gemini, un « agent spécialisé » fait référence à une instance ou une composante du modèle qui a été spécifiquement entraînée ou configurée pour exceller dans un type de tâche particulier. Plutôt qu'un modèle unique essayant de tout faire (parfois mal), on préfère utiliser une architecture plus modulaire où chaque agent se concentre sur un domaine d'expertise.

Le Project Astra, par exemple, est un système qui ne se contente pas de reconnaître des objets, mais comprend véritablement leur contexte spatial et leur utilité. Cette technologie permet, entre autres, de retrouver une paire de lunettes égarée en analysant l'environnement et en reconstituant leur dernier emplacement connu, tout en guidant l'utilisateur à travers l'espace.

Pour l'humour, on repassera plus tard, on frôle la catastrophe. © Capture d'écran / Gemini
Quelles sont les meilleures IA pour générer vos contenus ? Comparatifs 2024
L'émergence de l'intelligence artificielle comme outil grand public a ouvert de nombreuses possibilités pour tous les producteurs de contenus. Texte, image, son… Cette nouvelle technologie à la mode peut maintenant apporter son assistance dans de très nombreux domaines, et faciliter le travail dans les étapes les plus ingrates de la création. Et avec une offre qui ne cesse de s'accroître, il est important de distinguer quels outils apportent une véritable valeur ajoutée. Histoire de ne pas perdre des heures à essayer tout ce que proposent les pages de résultats de Google !

Project Mariner, quant à lui, est une extension de Google Chrome qui agit comme un copilote numérique averti, capable de décrypter la structure des pages web et d'interagir avec leurs éléments. Il peut, par exemple, remplir automatiquement des formulaires complexes ou extraire des informations pertinentes de multiples sources en comprenant le contexte de la recherche.

L'agent Jules se positionne, lui, comme un partenaire de programmation. Il peut détecter des erreurs, analyser la logique du code, propose des optimisations architecturales et suggère des améliorations en tenant compte des bonnes pratiques du secteur.

Selon Hassabis, Gemini 2.0, « offre au moins les mêmes performances que le modèle Pro actuel, voire mieux. On peut donc considérer qu'il le surpasse d'une bonne marge, tout en conservant la même rentabilité, la même efficacité et la même rapidité. Nous en sommes ravis ».


Le modèle reste encore à un stade expérimental (d'où certainement le surnom 2.0 Flash) et il faudra encore patienter pour le voir déployer toute sa puissance. « Nous considérons vraiment 2025 comme le véritable point de départ de l'ère des agents intelligents » a expliqué Hassabis à The Verge. Une déclaration qui sonne peut-être comme un indice de la date de disponibilité du vrai Gemini 2.0.

  • Un modèle de génération puissant
  • Une base de connaissances actualisée en temps réel
  • Gratuit et intégré à l'écosystème Google
8 / 10

Source : The Verge