Sundar Pichaï dévoile Gemini lors de la conférence Google I/O de 2023 © Google
Sundar Pichaï dévoile Gemini lors de la conférence Google I/O de 2023 © Google

Les rumeurs courraient depuis presque un an, Gemini est enfin là ! Annoncé comme le tueur de GPT-4 et d'OpenAI, le nouveau modèle de Bard a encore du pain sur la planche.

Sans prévenir, Google a annoncé et sorti cette semaine son nouveau modèle, Gemini. Les performances de Gemini dans les benchmarks sont particulièrement impressionnantes. Selon Google, Gemini Pro a surpassé GPT-3.5 dans la majorité des tests, tandis que Gemini Ultra a devancé GPT-4, le modèle le plus avancé d'OpenAI, dans presque tous les domaines évalués. Ces résultats suggèrent que Gemini pourrait bientôt devenir un acteur dominant dans le domaine des LLM, mais qu'en est-il réellement ?

Une démo fabriquée et un lancement rushé ?

La récente présentation de Google Gemini a suscité un mélange d'étonnement et de scepticisme. Google, désireux de se positionner comme un leader dans ce domaine, a récemment révélé Gemini, son modèle d'intelligence artificielle le plus avancé. Cependant, les révélations concernant la manipulation de sa démo ont soulevé des questions cruciales sur l'intégrité et la transparence de Google dans la course à l'IA.

L'annonce de Gemini par Google a été un moment de triomphe apparent. Ce modèle, présenté comme une avancée majeure, est conçu pour comprendre et combiner divers types d'informations, y compris le texte, les images et les vidéos. Sa capacité à traiter simultanément des données multimodales le positionnait comme une innovation majeure, potentiellement supérieure à des modèles concurrents tels que GPT-4 d'OpenAI.

Le soufflé est cependant rapidement retombé lorsque des critiques et analyses ont révélé que la démo impressionnante de Gemini était en grande partie fabriquée. Selon les rapports, Google a admis avoir raccourci les réponses de Gemini et réduit la latence dans sa vidéo de démonstration pour la rendre plus attrayante. Ces manipulations ont soulevé des inquiétudes quant à la fidélité de la représentation des capacités réelles de Gemini.

L'impact de ces révélations est significatif. Elles remettent en question non seulement la capacité de Gemini à effectuer les tâches démontrées, mais aussi la crédibilité de Google dans la présentation de ses avancées technologiques. Dans un domaine où la confiance et la fiabilité sont primordiales, ces actes pourraient affecter la réputation de l'entreprise.

Ces développements surviennent à un moment où la compétition dans le domaine de l'IA est plus féroce que jamais. Des entreprises comme OpenAI ont pris une longueur d'avance avec des modèles tels que GPT-4, qui ont gagné la confiance et l'admiration du public ainsi que de la communauté scientifique. Google, avec Gemini, semblait prêt à rejoindre cette course en tant que concurrent sérieux.

Il est crucial de noter que, malgré ces déboires, Gemini représente toujours un pas en avant potentiel dans le monde de l'IA. Ses capacités multimodales et son approche innovante méritent une reconnaissance et une exploration plus approfondies. Toutefois, pour que Gemini réalise pleinement son potentiel et gagne la confiance du marché, Google doit s'engager dans une communication plus transparente et authentique.

Quid des benchmarks présentés par Google ?

La performance de Gemini dans le test MMLU, un indicateur clé de la performance des modèles de langage à grande échelle, a été mise en doute. Selon les critiques, Gemini aurait surpassé GPT-4 dans ce benchmark spécifiquement en utilisant une méthodologie nommée CoT@32. Or, cette méthode diffère de l'approche standard 5-shot, où GPT-4 maintient une avance avec un score de 86,4% contre 83,7% pour Gemini.

La méthodologie 5-shot, largement reconnue comme la norme pour évaluer ce type de benchmark, implique de préparer l'invite avec cinq exemples. Google, cependant, aurait inventé une approche différente autour de CoT@32 pour revendiquer la supériorité de Gemini. Cette méthode, axée sur un seuil de consensus pour déterminer l'utilisation de la majorité versus le recours à la probabilité maximale, semble optimisée pour des résultats spécifiques plutôt que pour une application réelle.

Les benchmarks publiés par Google dans leur livre blanc couvrent plusieurs domaines @ Google
Les benchmarks publiés par Google dans leur livre blanc couvrent plusieurs domaines @ Google

L'utilisation de LLMs dans le monde réel ne correspond pas à la méthodologie CoT@32, soulevant ainsi des doutes sur l'applicabilité pratique de Gemini par rapport à GPT-4. Des critiques ont émergé sur les plateformes de médias sociaux, avec des utilisateurs exprimant leur déception face à ce qu'ils perçoivent comme une promotion « trompeuse » de Gemini. Ces critiques soulignent l'importance d'une transparence et d'une méthodologie standardisée dans la présentation des benchmarks d'IA. Autre chose importante à noter, les benchmarks ont été fait sur la version de juin 2023 de GPT-4. Entre temps, un certain GPT-4 Turbo bien plus performant a été publié…

Bard avec Gemini, un énième avant-goût de l'intelligence artificielle promise par Google

Pour résumer : la révolution IA promise par Google à la fondation de DeepMind n'est toujours pas là. Bard avait déjà des allures de projet sorti à la va-vite à son lancement plus tôt cette année. Beaucoup attendaient Gemini comme le GPT killer qui offrirait enfin une concurrence crédible à OpenAI, mais force est de constater que Google n'y est pas encore, même s'il s'en rapproche ! En 2024, aucun doute que la firme de Sundar Pichai dépassera son rival, surtout vu le contexte actuel chez OpenAI.

Dans les faits, le Gemini Pro que nous propose Google dans Bard se rapproche de GPT-3.5 dans ses performances. Ajoutez-y l'intégration des services Google et sa connexion persistante au web, et on obtient un package alléchant pour les utilisateurs gratuits de ChatGPT (et quelques services basés sur GPT-3.5 comme Perplexity ou ChatSonic).

  • Un modèle de génération puissant
  • Une base de connaissances actualisée en temps réel
  • Gratuit et intégré à l'écosystème Google
8 / 10