Sundar Pichai présente Gemini © Google
Sundar Pichai présente Gemini © Google

Google frappe un grand coup dans l'industrie de l'IA et du machine learning avec Gemini, un modèle de langage multimodal qui promet de surpasser GPT-4.

En mai dernier, lors de sa conférence I/O, Google présentait Gemini, un modèle de langage aux capacités encore bien supérieures à celles de PaLM, le modèle sur lequel reposaient ses produits, dont Bard, jusqu'ici. Le lancement officiel de Gemini a lieu aujourd'hui, et Google semble extrêmement confiant quant à ses performances.

Gemini plus performant que GPT-4 ?

Pour Demis Hassabis, P.-D.G. de Google DeepMind, Gemini constitue un énorme pas en avant en matière d'intelligence artificielle. L'un des défis pour ses équipes était de mettre au point un modèle de langage qui surpasse la référence GPT-4, conçue par OpenAI et exploitée par Microsoft dans ses produits.

Google ne s'est bien sûr pas privé de se livrer au petit jeu des comparaisons avec GPT-4 pour mettre en avant Gemini. D'après les dires de Demis Hassabis, les deux modèles de langage ont été soumis à 32 tests de référence, quasiment tous remportés par celui de Google.

« Je pense que nous sommes nettement en avance sur 30 de ces 32 critères », fait savoir le patron de DeepMind, cité par The Verge. La publication précise toutefois que les benchmarks sont pour la plupart très proches. Gemini jouit d'un avantage conséquent sur un élément en particulier : la compréhension et l'interaction avec les contenus audio et vidéo.

Avec Gemini, Google avait pour ambition de créer un modèle de langage véritablement multimodal. Il s'agit d'une approche différente à celle d'OpenAI, qui compte sur DALL-E pour les images et sur Whisper pour l'audio. De ce fait, OpenAI doit créer des interactions entre ses différentes plateformes pour obtenir une expérience vraiment complète, ce qui est forcément plus dur à optimiser.

Un modèle qui intègre nativement l'image et l'audio

Et puisque l'on parle d'efficacité, Google n'est pas peu fier d'annoncer que Gemini se montre particulièrement efficient. Il n'est pas seulement plus rapide que PaLM, il coûte aussi moins cher à exécuter. Un argument de poids lorsque l'on sait que le bon fonctionnement de ce type de technologies basées sur le machine learning repose sur une infrastructure lourde et très coûteuse.

Pour en arriver là, Google a mis à jour son système TPU vers la version v5p. Celui-ci sert à la formation et à l'exécution de modèles à grande échelle par les centres de données. Gemini a aussi été formé grâce à des unités de traitement Tensor maison, permettant de réduire les coûts par rapport à de l'équipement NVIDIA, par exemple.

Sundar Pichai assure que Gemini apporte des améliorations pour presque tous les cas de figure d'utilisation d'un modèle de langage à grande échelle. Il se satisfait notamment des progrès réalisés en matière de génération de code. Avec AlphaCode 2, Gemini surpasse 85 % des développeurs participant lors dans le cadre d'une épreuve de codage, contre 50 % pour la première mouture d'AlphaCode.

Gemini sur Bard et Pixel 8 Pro dès maintenant

En développant Gemini, Google avait une idée fixe en tête : être en mesure de l'intégrer facilement à ses produits, qui pourront ainsi être mis à jour rapidement pour bénéficier des dernières améliorations apportées au modèle. Celui-ci se décline en trois versions :

  • Gemini Nano : plus léger, il est conçu pour une exécution native, en local et en hors-ligne sur les appareils Android.
  • Gemini Pro : pensé pour être embarqué au sein de nombreux services Google, dont le chatbot Bard.
  • Gemini Ultra : plus puissant, il doit alimenter les centres de données et répondre aux besoins massifs des entreprises.

En ce qui concerne le calendrier de disponibilité, Google annonce que Bard profite de Gemini dès à présent. Les possesseurs d'un Pixel 8 Pro vont accéder à quelques nouvelles fonctionnalités grâce à Gemini Nano très vite également.

Le Pixel 8 Pro © Nicolas Lafarge-Debeaupuis pour Clubic
Le Pixel 8 Pro © Nicolas Lafarge-Debeaupuis pour Clubic

À partir du 13 décembre 2023, les développeurs et les entreprises pourront accéder à Gemini Pro par le biais de Google Generative AI Studio et Vertex AI, au sein de Google Cloud. Gemini Ultra sera accessible l'année prochaine, la firme de Mountain View préférant prendre son temps pour s'assurer de la sécurité de la version de son modèle offrant le plus de possibilités.

Les autres services et produits de Google, comme son moteur de recherche, son navigateur Chrome et bien d'autres, seront alimentés par Gemini un peu plus tard. Pour l'instant, Gemini ne prend en charge que l'anglais, mais d'autres langues suivront bientôt.

Quelles sont les meilleures IA pour générer vos contenus ? Comparatifs 2025
L'émergence de l'intelligence artificielle comme outil grand public a ouvert de nombreuses possibilités pour tous les producteurs de contenus. Texte, image, son… Cette nouvelle technologie à la mode peut maintenant apporter son assistance dans de très nombreux domaines, et faciliter le travail dans les étapes les plus ingrates de la création. Et avec une offre qui ne cesse de s'accroître, il est important de distinguer quels outils apportent une véritable valeur ajoutée. Histoire de ne pas perdre des heures à essayer tout ce que proposent les pages de résultats de Google !

Source : The Verge