OpenAI GPT-4o

Texte, audio et vision, le nouveau modèle phare d'OpenAI, baptisé « GPT-4o », possède d'étonnantes capacités. Elles vont, à coup sûr, porter plus loin encore l'intelligence artificielle pour nous assister dans certaines de nos tâches du quotidien.

GPT-4o a à peine été présenté qu'il pourrait presque s'affirmer comme la nouvelle référence des outils d'interaction homme-machine. À la découverte de ce que le modèle de la firme californienne OpenAI peut faire, on pourrait aisément lâcher un « amazing » dont les Américains ont le secret. De toutes les – folles – capacités de GPT-4o, annoncé le lundi 13 mai 2024, nous avons décidé d'en sélectionner six. Préparez-vous à être étonné(e).

GPT-4o est un traducteur hors pair

GPT-4o possède d'incroyables capacités. S'il peut vous lire et réagir à la voix pour lui-même répondre à vos requêtes à voix haute, le modèle voit aussi ce que vous lui montrez, avec la caméra avant de votre smartphone par exemple, pour interagir avec vous, décrire une situation et adapter sa réponse. Imaginez les possibilités…

Le nouveau GPT-4o peut-il envoyer Google Traduction aux oubliettes ? Si l'on se fie à la démonstration d'OpenAI, vous avez déjà la réponse. Le modèle peut donc opérer une traduction en temps réel entre deux personnes qui ne parlent pas la même langue. Dans la vidéo que vous verrez juste un peu plus bas, vous remarquerez le temps de réaction de l'intelligence artificielle et sa précision. L'outil est plus que prometteur.

Une IA qui chante et vous souhaite un joyeux anniversaire

Vous l'avez vu, GPT-4o peut chanter, par exemple pour vous souhaiter un heureux anniversaire. Et en vous munissant de deux smartphones et donc d'autant de « GPT-4o » actifs, vous pouvez carrément faire interagir les deux intelligences artificielles entre elles, et les faire chanter, en guidant leur rythme et leur intonation.

Et si vous rêvez d'une berceuse, GPT-4o pourrait aussi vous en murmurer une. Comme pour ses autres capacités, vous pouvez évidemment interagir avec le modèle, en temps réel, pour par notamment lui demander de baisser le volume, d'aller plus ou moins vite, ou d'adapter la version entonnée.

GPT-4o anime des réunions avec talent

Ce n'est peut-être pas, sur le papier, la plus impressionnante de ses capacités, mais rendez-vous compte. GPT-4o serait ici capable d'animer une réunion en vidéoconférence, comme un véritable modérateur humain qui distribue la parole et réagit à ce que disent les participants.

GPT-4o peut aussi réagir à vos « blagues de papa » et vous féliciter pour votre paternité lorsque vous lui dites, en guise d'introduction, que vous allez bientôt être père.

Avant de poursuivre, précisons une chose : il s'agit ici de vidéos d'annonce, fournies par OpenAI. GPT-4o ne sera pas accessible au grand public avant plusieurs semaines ou mois, et sera d'abord largement éprouvé par des « testeurs de confiance ». Mais si la version finale se rapproche de ce que nous voyons ici, oui, nous pourrons alors dire que nous sommes à l'aube d'une révolution. Mais continuons avec une dernière capacité improbable de GPT-4o.

Le modèle explore la vidéo pour servir de guide audio

Le modèle GPT-4o pourrait s'avérer être un formidable outil d'accessibilité, pour les personnes souffrant d'un handicap visuel, par exemple.

Encore une fois, grâce à la vidéo, on peut voir un homme, aveugle, se tenant devant le Palais de Buckingham (Londres), demander à l'application de lui expliquer ce qui se trouve devant ses yeux. Grâce à la caméra du smartphone, le visiteur se laisse guider. La caméra du téléphone peut d'ailleurs être utilisée pour d'autres fonctionnalités, comme celle qui consiste à demander comment se dit dans telle ou telle langue le ou les objets captées par la caméra.

GPT-4o, qui promet un temps de réponse en millisecondes similaire au temps de réponse humain durant une conversation, a tout d'un modèle impressionnant qui pourrait ouvrir le champ des possibles.

ChatGPT
ChatGPT
  • Chat dans différentes langues, dont le français
  • Générer, traduire et obtenir un résumé de texte
  • Générer, optimiser et corriger du code
Midjourney
  • Droits commerciaux inclus dans tous les forfaits payants
  • Pertinence dans la compréhension des prompts
  • Tarifs accessibles
Google Gemini (Bard)
  • Un modèle de génération puissant
  • Une base de connaissances actualisée en temps réel
  • Gratuit et intégré à l'écosystème Google