Après le Devday, au tour de la Spring Update ! OpenAI a pris une demi-heure pour nous présenter le futur de ChatGPT. ©
Après le Devday, au tour de la Spring Update ! OpenAI a pris une demi-heure pour nous présenter le futur de ChatGPT. ©

Petit à petit, OpenAI prend ses marques et pose ses rendez-vous. Ce 13 mai, la C.T.O. Mira Murati a pris le micro pour annoncer de grosses nouveautés pour ChatGPT et l'API de GPT-4. Curieux timing à la veille de la Google I/O

Dès ses prémices, la problématique de l'interface homme-machine s'est posée en informatique. Comment faciliter notre utilisation des outils informatiques ? L'écran, le clavier, la souris, le tactile ont tous eu un impact significatif sur nos usages. La voix et la vue sont les prochaines étapes logiques selon OpenAI. Allant dans ce sens, l'entreprise a révélé son nouveau modèle multimodal GPT-4o, ainsi qu'une application native pour macOS.

Toujours pas de GPT-5, mais un GPT-4o pour omni

Loin des rumeurs d'un moteur de recherche maison ou du GPT-5 surpuissant, OpenAI a démarré son printemps avec des nouveautés pas moins ambitieuses et tout aussi impressionnantes à bien des égards. En parlant de rumeurs concernant OpenAI, c'est toutefois l'une d'elles qui a été confirmée ce soir, à savoir que le modèle gpt2 ayant fait surface ces derniers jours était bel et bien GPT-4o. À l'instar de GPT-4 Turbo, le nouveau modèle n'améliore pas les capacités de raisonnement, mais étend les possibilités et les modes d'échange tout en coûtant moins cher que son prédécesseur, du moins pour ce qui est de l'API.

OpenAI bouscule aussi le modèle économique de ChatGPT puisque GPT-4o ainsi que de nombreuses fonctionnalités exclusives aux abonnements Plus, Team et Enterprise comme les GPTs ou l'upload d'images sont désormais gratuits bien que limités dans le nombre de requêtes pouvant être soumises sur une période de 3 heures. Les abonnés payants bénéficieront quant à eux de 5 fois plus de requêtes ainsi que d'un accès prioritaire en période de grosse affluence.

Enfin, OpenAI annonce avoir amélioré les capacités de compréhension et de tokenisation (à savoir la capacité de ChatGPT à « compresser » les données pour maximiser sa mémoire dans une conversation) dans des langages autres que l'anglais. Si le français ne bénéficie que peu de ces améliorations, des langues asiatiques comme l'arabe, l'hindi ou l'urdu jouiront d'une compression jusqu'à 4 fois plus efficace !

ChatGPT plus conversationnel que jamais

Le gros de cette Spring Update a concerné une démo en direct du nouveau modèle, d'abord sur iPhone et ensuite sur Mac. D'emblée, GPT-4o est bien plus réactif que l'assistant vocal actuellement disponible. Il répond en temps réel et peut être coupé à tout moment si vous souhaitez rebondir sur ce que l'IA vient de dire. Voix féminine, réaction aux émotions et modulation du timbre de voix en fonction des demandes, clairement cette démo rappellera le film « Her » de Spike Jonze. La première itération du modèle text-to-speech de ChatGPT était déjà assez convaincante, mais ce que nous avons ici est d'un autre calibre.

Ce n'est pas tout puisque GPT-4o pousse également la reconnaissance d'image plus loin et justifie son statut « omni ». Tout en conversant avec l'IA, il sera possible d'ouvrir la caméra de son smartphone et d'interagir avec ce que celle-ci capture en temps réel. Non seulement, GPT-4o peut donc répondre à ce qui est affiché au moment T, mais il peut également revenir sur des choses qu'il a « vu » peu de temps avant. Parmi les différentes illustrations de ses capacités, citons pelle-mêle : de la traduction (en temps réel évidemment), de l'aide aux devoirs, reconnaitre les émotions sur un visage, compter rapidement (oui, oui), chanter. Et, bien que cela n'ait pas été abordé durant la conférence, les possibilités du côté de l'accessibilité pour les malvoyants et les malentendants sont bel et bien là ! On imagine facilement le modèle traduire du langage des signes en voix pour faciliter l'échange entre 2 personnes à l'instar de la traduction en temps réel.

En dépit des investissements de Microsoft… une application native exclusive au Mac

Pour ponctuer sa démonstration, l'équipe d'OpenAI a montré un peu plus en détail son application de bureau native pour macOS. Et oui, malgré les millions de dollars de Microsoft, OpenAI semble toujours avoir sa petite préférence. Précisons que les applications tierces intégrant ChatGPT à macOS sont légion, mais que ces dernières étaient souvent limitées, requierant notamment l'utilisation de l'API plutôt qu'un abonnement à ChatGPT. OpenAI offre ici aussi la possibilité de converser avec GPT-4o vocalement en plus du texte. Pour aller plus loin, l'application propose de capturer votre écran pour vous assister et voir ce que vous voyez en temps réel. L'exemple donné lors du live portait sur un bout de code Python affiché dans un IDE.

Difficile de faire l'impasse sur le code dans une démo d'OpenAI. © OpenAI
Difficile de faire l'impasse sur le code dans une démo d'OpenAI. © OpenAI

Moins originale, la démonstration portant sur un graphique montre tout de même la commodité d'avoir ChatGPT à porter de clique (de voix ?) tout en se passant de copier-coller du texte ou de prendre une capture d'écran pour démarrer l'interaction. Dans tout ça, l'interaction textuelle n'est pas en reste puisqu'il sera possible d'ouvrir ChatGPT à l'aide d'un simple raccourci (option + espace). Ajoutant à cette commodité, ce raccourci montre l'ambition pour OpenAI de faire de ChatGPT un second Spotlight sur Mac. Plus évasif sur la disponibilité, OpenAI précise que l'application, comme le reste des nouveautés annoncées, seront déployées au fur et à mesure dans les semaines à venir pour les abonnés du service.

Avec l'application native, on se passe de l'étape screenshot pour interagir avec ChatGPT ! © OpenAI

Voilà qui rassure sur le futur de l'entreprise après une fin d'année 2023 pleine de turbulence. Avec des rumeurs d'une intégration plus profonde de ChatGPT dans iOS 18 (en alternative à Siri ?) ces annonces sont de bon augure pour la WWDC attendue début juin.

  • Chat dans différentes langues, dont le français
  • Générer, traduire et obtenir un résumé de texte
  • Générer, optimiser et corriger du code
8 / 10