Ce que les ingénieurs d'OpenAI ont laissé échapper pendant leur AMA sur Reddit

Les dirigeants d'OpenAI, dont Sam Altman, ont récemment participé à une session « Ask Me Anything » sur Reddit. Entre confidences sur GPT-5 et utilisation assumée de ChatGPT pour répondre aux questions, cette séance de questions-réponses a levé le voile sur les coulisses de l'entreprise.

Sam Altman et son équipe se sont épanchés sur Reddit, nous livrant des informations exclusives sur le futur de leurs produits. © Shutterstock

Le timing de cet AMA n'est pas anodin, intervenant juste après le lancement de la fonction de recherche dans ChatGPT. Cette session publique, menée par le PDG Sam Altman aux côtés du directeur des produits Kevin Weil et d'autres cadres, visait à éclaircir les orientations futures de l'entreprise. Dans un geste de transparence inhabituel (ou comique ?), Altman a même admis utiliser ChatGPT pour formuler certaines de ses réponses.

ChatGPT

Chat dans différentes langues, dont le français
Générer, traduire et obtenir un résumé de texte
Générer, optimiser et corriger du code

9 / 10

Télécharger

Des modèles en développement et des attentes élevées

Pas de GPT-5 cette année

Question : Quand sortira GPT-5 ?
Réponse de Sam Altman : « Nous avons de très bonnes versions prévues cette année ! Mais rien que nous appellerons GPT-5. »

OpenAI ne sortira pas de modèle GPT-5 en 2024. La firme se concentre sur l'amélioration de sa série de modèles o1, privilégiant la qualité à la quantité. « Tous ces modèles sont devenus très complexes, et nous ne pouvons pas livrer autant de choses en parallèle que nous le souhaiterions », a expliqué Altman.

L'intelligence artificielle générale en ligne de mire

Question : Quels sont vos objectifs avec les nouveaux modèles ?
Réponse de Kevin Weil : « Nous voulons créer des agents capables d'agir de manière autonome. »

Les équipes d'OpenAI croient fermement que l'Artificial General Intelligence (AGI) est atteignable avec le matériel actuel. Kevin Weil a affirmé que 2025 serait l'année des agents capables d'agir de manière autonome. Alors que le principal concurrent d'OpenAI, Anthropic, a dévoilé son propre agent capable de piloter votre PC, et que Google travaille sur une IA similaire, il est vrai que la firme de Sam Altman est attendue au tournant sur ce créneau.

Un nouveau moteur de recherche prometteur, mais avec des questions toujours en suspens

Question : Comment fonctionne votre nouveau moteur de recherche ?
Réponse de Srinivas Narayanan : « Nous utilisons plusieurs services, dont Bing, pour alimenter notre recherche. »

ChatGPT Search fait déjà parler de lui depuis quelques jours. Srinivas Narayanan a confirmé l'utilisation de plusieurs services pour alimenter ce nouveau moteur. L'objectif ? Générer des pages web dynamiques en réponse aux requêtes des utilisateurs, offrant une expérience de recherche plus interactive et personnalisée. Concernant le SEO pour ce nouveau moteur de recherche, l'ingénieur a buté en touche, expliquant que la technologie étant encore dans ses balbutiements, il était difficile d'établir des bonnes pratiques pour être mieux référencé sur ce nouveau concurrent à Google.

Un aperçu des capacités de Sora

Question : Est-ce que Sora peut gérer des vidéos en entrée ?

Réponse de Kevin Weil : « Yep ! »

Cette réponse courte mais affirmative de Kevin Weil confirme que le modèle Sora sera capable de traiter des vidéos existantes en entrée. C'est une fonctionnalité bienvenue qui pourrait permettre d'analyser, de modifier ou même de s'inspirer de contenus vidéo existants.

Sora

Génération vidéo rapide et réaliste
Interface utilisateur intuitive
Intégration avec ChatGPT

Télécharger

Des fonctionnalités qui intriguent et une régulation qui ralentit les différents développements

DALL-E n'est pas mort

Question : Quand aurons-nous un nouveau modèle de génération d'images ?
Réponse de Sam Altman : « La prochaine mise à jour en vaudra la peine ! Mais nous n'avons pas encore de plan de sortie. »

Difficile d'ignorer qu'à côté de Stable Diffusion, Midjourney, ou encore le mystérieux Recraft, DALL-E 3 fait pâle figure. OpenAI n'abandonne pas pour autant son générateur d'image et compte bien le mettre à jour. Reste à voir si l'addition d'autres technologies, tel que le raisonnement d'o1, pourrait changer la donne dans ce nouveau marché en évolution constante.

DALL·E

Ergonomique et intuitif
Comprend le langage naturel
Comprend le français

10 / 10

Télécharger

Bientôt un ChatGPT qui chante ?

Question : Verrons-nous Advanced Voice assouplir ses restrictions concernant les capacités musicales (comme le chant) à un moment donné ?

Réponse de Kevin Weil : « On y travaille ! J'ai aussi envie d'entendre ChatGPT chanter. »

Souvenez-vous, à sa présentation lors de la Spring Update, le mode voix avancé de ChatGPT pouvait chanter ! Toutefois, cette fonctionnalité n'a pas fait son chemin jusqu'à la version finale publiée il y a quelques semaines. On imagine facilement les problématiques de droit d'auteur, dont la polémique autour de la voix Cove imitant Scarlett Johansson, compliquer les choses de ce point de vue. OpenAI n'en démord pas et y travaille toujours, heureusement.

La fenêtre contextuelle en expansion : la véritable mémoire de ChatGPT va s'améliorer.

Question : Quand augmenterez-vous la fenêtre de contexte pour la version Plus ?

Réponse de Kevin Weil : « On y travaille ! Je suis très enthousiaste à l'idée d'avoir un contexte plus long. »

Les utilisateurs de GPT-4o se plaignent actuellement de la limite de 32K tokens, jugée trop restrictive pour les tâches de codage ou d'écriture longue. Kevin Weil reconnaît cette limitation et confirme qu'une amélioration est en cours de développement. Pour rappel, le contexte est la véritable mémoire de ChatGPT, à différencier de la fonctionnalité éponyme. Une longue fenêtre de contexte permet à ChatGPT de traiter et de « se rappeler » de plus de choses au sein d'une même conversation. Certes, une version avec 128K de contexte existe pour GPT-4o, mais celle-ci est restreinte à l'usage de l'API (qui peut vite coûter cher en passant). Un contexte plus long ouvre aussi de nouveaux usages, la preuve chez la concurrence avec le million de token de Gemini 1.5 Pro qui a permis à Google de proposer NotebookLM.

La gestion du contenu sensible

Question : Quels sont vos objectifs à long terme concernant la possibilité pour les utilisateurs adultes d'activer du contenu « NSFW » (dans la limite du raisonnable) ?

Réponse de Sam Altman : « Nous croyons totalement au fait de traiter les utilisateurs adultes comme des adultes. Mais cela demande beaucoup de travail pour bien faire les choses, et pour l'instant nous avons des priorités plus urgentes. Nous aimerions y arriver un jour ! »

OpenAI adopte une approche prudente mais ouverte concernant le contenu sensible. Sam Altman reconnaît l'importance de donner plus de contrôle aux utilisateurs adultes, tout en soulignant que d'autres développements sont prioritaires pour le moment.

Source : Reddit