Google vient tout juste de dévoiler Gemini, sa réponse à ChatGPT, et le moins qu’on puisse dire, c’est que les démos faites par Google sont bluffantes… Un peu trop bluffantes même.
La guerre des IA est déclarée et dans ce conflit Google est venue armée avec Gemini, son grand modèle de langage « nettement en avance » sur la concurrence. Le géant de la recherche a notamment mis en avant la compréhension poussée de Gemini par rapport aux contenus audio et vidéo. Et si le cerveau numérique de Google n’est pas encore disponible en langue française pour le moment, il faut avouer que la démonstration faite en anglais par Google avait de quoi couper le souffle.
Une démo trop belle pour être vrai
Pendant 6 petites minutes, on voit l’IA analyser et réagir quasiment en temps réel à ce que la caméra montre. La machine semble comprendre immédiatement quand une main se met à jouer à pierre-feuille-ciseau, reconnaître des imitations ratées de Matrix et même jouer des morceaux de musique adaptés aux instruments gribouillés sur un post-it. Malheureusement, tout n’est pas aussi fluide et efficace que Google a pu nous faire croire.
Comme le détaille un billet de blog de Google, les réponses données par Gemini dans la vidéo sont en fait beaucoup plus fractionnées que ça et les « prompts » donnés à la machine beaucoup plus précis que ce que peut faire croire la voix off. Ainsi la vidéo donne l’impression d’une discussion presque à bâton rompu avec l’IA alors que la réalité est beaucoup plus fastidieuse que ça.
Une IA douée, mais pas autonome
Aucune des réponses données par Gemini n’a été inventée, mais certaines ont été fusionnées ou raccourcies pour donner l’impression que l’IA sait tenir une discussion et enchaîner des éléments de réponses connexes sans avoir à être relancée. Ce qui n’est pas le cas. Par exemple sur la reconnaissance des dessins d’instruments, la vidéo fait croire que Gemini est capables, sans intervention aucune, de reconnaître le dessin et d’automatiquement jouer un morceau adapté, alors que le prompt a en fait été séparé en deux étapes et détaille précisément toutes les actions que doit effectuer Gemini.
Pour sa défense, Google a bien précisé dans la description de la vidéo que « pour les besoins de cette démo, la latence a été réduite et les messages de Gemini ont été raccourcis ». Oriol Vinyals, responsable de la recherche en IA chez Google, a même expliqué que « la vidéo illustre ce à quoi pourraient ressembler les expériences multimodales […] avec Gemini ».
Mais entre une vidéo nommée « Prise en main de Gemini » et une illustration, partiellement vraies, de ce que serait potentiellement capable de faire l’IA de Google, il y a tout de même un monde.
- Chat dans différentes langues, dont le français
- Générer, traduire et obtenir un résumé de texte
- Générer, optimiser et corriger du code
Source : Google for Developers