L'IA Gemini 1.5 Pro se dote de nouvelles fonctionnalités © Igor Omilaev / Unsplash
L'IA Gemini 1.5 Pro se dote de nouvelles fonctionnalités © Igor Omilaev / Unsplash

Gemini, l'intelligence artificielle de Google, n'a pas fini de nous étonner. Sa version 1.5 Pro peut désormais travailler sur des fichiers audio et en extraire toutes sortes d'informations.

Alors que GPT-5 devrait sortir cet été et permettre de générer des vidéos, la concurrence dévoile, elle aussi, des nouveautés enthousiasmantes. Annoncée en février dernier, la technologie Gemini 1.5 Pro est capable d'entendre. Une fonctionnalité qui est, pour l'heure, disponible uniquement sur la plateforme Vertex AI.

Une fonctionnalité très attendue

Google a lancé en décembre dernier le modèle multimodal Gemini. L'objectif ? Damer le pion au très populaire ChatGPT d'OpenAI. Déclinée en trois versions, Nano, Pro et Ultra, la technologie avait notamment pour ambition d'investir le terrain de l'audio et de la vidéo. C'est chose faite avec la dernière mise à jour de la firme de Mountain View, qui vient de doter son intelligence artificielle d'oreilles (virtuelles, bien sûr).

L'IA Gemini peut désormais écouter les fichiers audio © Franco Antonio Giovanella / Unsplash
L'IA Gemini peut désormais écouter les fichiers audio © Franco Antonio Giovanella / Unsplash

Disponible sur la plateforme de développement Vertex AI, la version 1.5 Pro de Gemini peut analyser un enregistrement audio (appel, réunion, etc.) et générer des informations sans avoir à passer par une transcription. Pour l'utiliser, il suffit de télécharger un fichier au sein de l'outil. Ce dernier peut alors générer des statistiques, synthétiser un discours et même fournir une analyse à ses utilisateurs.

De nombreuses autres annonces concernant l'IA

Avec cette nouvelle fonctionnalité, la version Pro de Gemini devient plus performante et rapide que le modèle Ultra. Google indique également qu'elle est capable de « comprendre des instructions complexes et élimine le besoin d'affiner les modèles ».

Comme une bonne nouvelle n'arrive jamais seule, la firme de Mountain View a fait plusieurs autres annonces dans la foulée :

  • Imagen 2, la technologie qui transforme le texte en image et qui est notamment utilisée par Gemini, est désormais capable d'ajouter ou de supprimer des éléments au sein d'un visuel sur simple demande de l'utilisateur. Cette fonctionnalité est déjà intégrée à d'autres modèles, tels que Stable Cascade de Stability AI, ou encore Generative AI de Getty Images.
  • SynthID, qui ajoute aux images un filigrane numérique invisible, a également été intégrée au sein d'Imagen 2.

Le marché de l'IA étant en plein boom, les géants de la tech ne cessent d'améliorer leurs technologies. On gage que les prochains mois devraient regorger d'annonces intéressantes.

A découvrir
Quelles sont les meilleures IA pour générer vos contenus ? Comparatifs 2024

10 novembre 2024 à 19h08

Comparatifs services

Sources : Vertex AI, The Verge