OpenAI emboîte le pas à Google : ChatGPT s'enrichit lui aussi de la vision en temps réel

La course à l'innovation dans le domaine de l'IA s'intensifie. Au lendemain du lancement de Gemini 2.0 par Google, OpenAI riposte en dotant ChatGPT de capacités de vision en temps réel et de partage d'écran, des fonctionnalités promises depuis plus de sept mois.

La fonction d'appel vidéo permet une communication fluide entre l'utilisateur et ChatGPT. © OpenAI

L'intelligence artificielle d'OpenAI franchit une nouvelle étape majeure dans son évolution. Après avoir révolutionné le dialogue homme-machine, ChatGPT acquiert désormais la capacité d'analyser et d'interagir avec le monde visuel en temps réel, une fonctionnalité qui s'inscrit dans le cadre des « 12 jours d'OpenAI », leur calendrier de l'avent numérique.

Une vision augmentée pour plus d'interactions

Cette nouvelle fonctionnalité, intégrée à l'Advanced Voice Mode, dévoilée initialement lors de la Spring Update il y a quelques mois, transforme radicalement l'expérience utilisateur en permettant une analyse visuelle instantanée de l'environnement. Les utilisateurs peuvent désormais pointer leur smartphone vers n'importe quel objet pour obtenir une analyse détaillée et contextuelle, tandis que le partage d'écran facilite l'assistance numérique, de la navigation dans les interfaces jusqu'à la résolution de problèmes complexes.

Démonstration de l'analyse visuelle en temps réel, où ChatGPT observe et commente les actions d'un utilisateur préparant du café, illustrant la capacité du système à interpréter des activités en direct. © OpenAI

OpenAI réserve ces nouvelles fonctionnalités aux abonnés ChatGPT Plus, Team et Pro (un abonnement à 200 euros annoncé la semaine dernière). L'activation s'effectue de manière intuitive via l'icône vocale située près de la barre de chat, suivie d'une simple pression sur l'icône vidéo. Le partage d'écran, quant à lui, s'active via un menu dédié à trois points, offrant une flexibilité d'utilisation accrue.

L'interface de partage d'écran de ChatGPT intégré à iOS. © OpenAI

Une architecture technique sophistiquée

OpenAI a minutieusement élaboré l'architecture de ces nouvelles fonctionnalités en privilégiant la sécurité des utilisateurs. Les données sont prioritairement traitées en local, tandis que les informations nécessitant un traitement cloud bénéficient d'un cryptage robuste avant d'être systématiquement effacées à la fin de chaque session.

ChatGPT analyse une photo d'un utilisateur portant un costume de Père Noël, démontrant sa capacité à interpréter des images et à fournir des retours contextuels. © OpenAI

Les démonstrations réalisées mettent en lumière les capacités impressionnantes de ChatGPT dans l'analyse de projets de design graphique. L'assistant démontre une précision remarquable dans l'identification des éléments visuels, qu'il s'agisse de palettes chromatiques, de compositions ou d'éléments textuels. Cette fonctionnalité s'avère particulièrement précieuse pour les créatifs et les professionnels en quête d'un retour d'expérience instantané.

Pour enrichir cette mise à jour substantielle, OpenAI a également intégré une touche saisonnière avec l'introduction d'une voix de Père Noël, disponible temporairement dans le mode vocal. Cette initiative ludique reflète la volonté de l'entreprise de rendre son IA plus accessible et engageante, tout en maintenant son avance technologique.

ChatGPT

Chat dans différentes langues, dont le français
Générer, traduire et obtenir un résumé de texte
Générer, optimiser et corriger du code

9 / 10

Télécharger

Source : OpenAI