© Tada Images / Shutterstock
© Tada Images / Shutterstock

OpenAI a dévoilé son dernier modèle de langage boosté à l'IA, GPT-4, sur le papier beaucoup plus puissant que son prédécesseur. Clubic vous propose un tour complet des nouveautés.

Attendu depuis plusieurs semaines et la médiatisation (parfois à outrance) du robot conversationnel ChatGPT, le modèle d'intelligence artificielle GPT-4 est apparu avec un peu d'avance et plusieurs évolutions notables, dont celle qui lui permet d'interpréter des images en plus du texte. Concrètement, quelles sont les nouveautés notables de cette version aux paramètres plus élevés encore que GPT-3 (OpenAI a pris soin de ne pas révéler la taille exacte de son nouveau modèle) ?

GPT-4 traite du texte ET des images

C'est, vous l'aurez compris, la principale fonctionnalité nouvelle apportée par OpenAI pour ce GPT-4, devenu multimodal dans le sens où il peut analyser des images et du texte, quand GPT-3.5 se limitait au seul écrit. Plus précisément, vous pouvez soumettre une image au nouveau modèle, assortie d'une question. Et l'IA est censée vous apporter la bonne réponse.

Dans cet article, nous vous expliquons comment la start-up Be My Eyes pourrait changer la vie des personnes malvoyantes grâce à cette nouvelle fonctionnalité. Plusieurs exemples ont déjà été relayés, focalisons-nous sur celui du frigo, où lors d'essais menés notamment par le New York Times, le modèle a fait un quasi sans-faute :

  • Vous ouvrez votre réfrigérateur et prenez une photo de ce qui se trouve à l'intérieur. Vous soumettez la photo à GPT-4 en lui demandant ce qu'il est possible de manger avec les ingrédients que votre frigo héberge. L'IA est en mesure de vous proposer des recettes contenant spécifiquement les ingrédients disponibles.

D'autres exemples mettent davantage en lumière cette fonctionnalité pas loin d'être révolutionnaire :

  • Une personne malvoyante prend en photo deux chemises de modèle identique, mais de couleurs différentes. Elle les pose sur un lit, les prend en photo et demande à GPT-4 laquelle des deux est rouge. L'IA a donné la bonne réponse, se muant en vrai service pour l'individu.
© OpenAI
© OpenAI

La fonctionnalité n'est pas loin d'être révolutionnaire, car il existe déjà de lointains équivalents. C'est le cas de Magnifier, une application d'Apple qui permet déjà d'opérer une reconnaissance d'objets. Sauf que celle-ci reste limitée et que GPT-4 est capable de « générer le même niveau de contexte et de compréhension qu'un être humain ».

  • Cette fonctionnalité, actuellement testée, devrait être disponible dans les prochaines semaines, promet OpenAI.

GPT-4 : la création et la synthèse poussées à l'extrême

OpenAI vante son GPT-4 comme « plus créatif et collaboratif » que n'importe quel autre système d'IA existant. Qu'est-ce que cela signifie concrètement ? Grâce à sa base de connaissances élargie, le modèle peut résoudre davantage de problèmes de rédaction, de synthèse et autres.

  • Une capacité de gestion de mots revue à la hausse : GPT-4 peut gérer plus de 25 000 mots de texte, contre environ 3 000 pour GPT-3.5. On peut donc aller au-delà de l'analyse d'un petit article de presse et demander à l'IA de travailler sur des documents entiers.

GPT-4 peut ainsi écrire un article de blog grâce à sa fonctionnalité multimodale, à partir d'une image et d'une unique phrase donc. L'IA a aussi la capacité de composer une chanson, de créer une bande dessinée ou autres à partir d'un support, et de comprendre le style d'écriture d'un internaute. GPT-4 peut même réaliser une synthèse de blocs de texte, en utilisant par exemple des mots commençant par la lettre « g » ou toute autre lettre.

GPT-4 surpasse GPT-3.5 sur les examens et tests réalisés par l'être humain

Pour comparer les modèles GPT-4 et GPT-3.5, Open AI leur a fait passer des tests initialement conçus pour l'Homme. Sur le graphique que vous pouvez voir juste en dessous, vous remarquerez que la V4 de GPT (en vert) obtient de bien meilleurs résultats que son prédécesseur. En revanche, sur les tests qui nécessitent un peu plus de capacités créatives (comme la littérature), le modèle ne parvient pas à creuser l'écart d'une façon délirante.

Comparaison de tests identiques réalisés par GPT-4 et GPT-3.5 © OpenAI

Un modèle plus sécurisé

GPT-3.5 s'était vu reprocher certaines défaillances sur le plan de la sécurité. Sur son blog, OpenAI indique avoir réduit la tendance du modèle à répondre aux demandes de contenu non autorisé de 82 % en lançant GPT-4. Le dernier modèle est notamment taillé pour filtrer les contenus liés à l'automutilation.

Mais attention, cela ne signifie pas pour autant qu'il ne servira à rien entre de mauvaises mains, OpenAI est très transparent là-dessus. « GPT-4 présente des risques similaires à ceux des modèles précédents, tels que la génération de conseils nuisibles, de code malveillant ou d'informations inexactes. » En somme : coder un malware et nourrir la désinformation sera toujours possible grâce GPT-4, même si certains garde-fous pourraient réduire la voilure.

  • En raison de ses capacités phénoménales, OpenAI a fait appel à 50 experts de l'IA, de la cyber ou de la biologie pour prévenir certains comportements. GPT-4 devrait ainsi refuser (en théorie) les demandes d'utilisateurs souhaitant s'informer sur la manière de synthétiser des produits chimiques dangereux. Le modèle a été entraîné pour refuser ce type de contenu.

Le taux de mauvais résultats en ce qui concerne le traitement des comportements nuisibles est presque deux fois plus faible (donc deux fois meilleur) avec GPT-4 qu'avec GPT-3.5.

Taux de comportement incorrect sur les contenus non autorisés et sensibles © OpenAI

GPT-4, c'est aussi…

  • Les abonnés payants ChatGPT Plus pourront obtenir un accès à GPT-4 sur chat.openai.com, mais avec un plafond d'utilisation qui sera ajusté en fonction de la demande et des performances du système. OpenAI ne s'interdit pas d'ajouter un niveau d'abonnement supplémentaire pour de plus gros volumes (industriels, imagine-t-on) ainsi que des requêtes gratuites pour que ceux qui n'ont pas les moyens de souscrire un abonnement puissent en profiter.
  • GPT-4 se trompe, et pas qu'un peu. Les journalistes du NY Times en ont fait l'expérience en lui demandant comment prononcer certains mots espagnols. Il paraît utile de rappeler que le modèle de langage n'est pas synonyme de vérité absolue.
  • Un maître de l'apprentissage : GPT-4, comme les modèles précédents, a été formé à partir de données accessibles au public ou sous licence. Certaines sont correctes, d'autres pas. Pour répondre à une question, le modèle peut ainsi répondre d'une manière qui sera loin de l'intention de l'utilisateur. « Pour l'aligner sur l'intention de l'utilisateur dans les garde-corps, nous affinons le comportement du modèle à l'aide de l'apprentissage par renforcement avec rétroaction humaine », explique OpenAI.
  • Chat dans différentes langues, dont le français
  • Générer, traduire et obtenir un résumé de texte
  • Générer, optimiser et corriger du code
10 / 10

Sources : OpenAI, The Verge, Clubic, New York Times