Le logo d'OpenAI affiché à côté du visage du patron de la firme, Sam Altman © Meir Chaimowitz / Shutterstock
Le logo d'OpenAI affiché à côté du visage du patron de la firme, Sam Altman © Meir Chaimowitz / Shutterstock

OpenAI cherche toujours de nouvelles données pour entraîner ses modèles de langage. Et il semble que la firme de Sam Altman se soit, dans cette idée, tournée vers YouTube, où elle se serait largement servie !

Si les systèmes d'intelligence artificielle comme ChatGPT nous semblent si exceptionnels, c'est qu'ils ont durant plusieurs années ingéré des quantités pharaoniques de données, grâce auxquelles ils sont aujourd'hui des machines pouvant générer un nombre exceptionnel de contenus, souvent de qualité. Mais le problème, c'est que le nombre de données à disposition et pouvant être utilisé est fini. Il faut alors pour les sociétés du secteur être créatives afin d'en trouver de nouvelles ailleurs. C'est semble-t-il ce qu'a fait OpenAI en se tournant vers YouTube !

OpenAI s'est tourné vers YouTube

Le New-York Times est depuis de nombreux mois en conflit ouvert avec OpenAI. Alors si le célèbre journal américain peut trouver des informations potentiellement gênantes sur la firme dirigée par Sam Altman, il ne se privera pas de les publier. Et c'est ce qu'il a fait, en dévoilant ces derniers jours qu'OpenAI aurait récupéré près d'1 million d'heures de vidéos YouTube afin de développer son modèle de langage GPT-4.

Pour ce faire, l'entreprise californienne aurait utilisé son outil Whisper, qui permet notamment de transcrire des audios et des vidéos en texte, pour récupérer les contenus sous format écrit, pouvant ensuite être ingérés par GPT-4. Il faut dire que d'après l'autre grande journal américain, le Wall Street Journal, les géants travaillant sur l'IA seraient en ce moment à court de données de qualité pour améliorer leurs systèmes.

YouTube a largement mis été à contribution
YouTube a largement mis été à contribution

Pour Google, les entreprises ne peuvent s'entraîner sur les données issues de YouTube

Le New York Times estime lui qu'OpenAI était arrivé au bout de données de qualité disponibles pour ses IA dès 2021. À cette époque, des discussions auraient déjà vu le jour sur la possibilité de se tourner ver des ressources alternatives telles que les vidéos, les audiobooks ou bien les podcasts. Ce qui finalement aurait bien été fait, en ouvrant la porte de YouTube.

Contacté par The Verge, Google, la maison mère de YouTube, a expliqué avoir eu vent de « rapports non confirmés » indiquant une activité d'OpenAI sur sa plateforme. Le porte-parole Matt Bryant a par ailleurs tenu à rappeler que « nos fichiers robots.txt et nos conditions d'utilisation interdisent le scraping ou le téléchargement non autorisé du contenu de YouTube. » Un nouveau front judiciaire bientôt sur le point de s'ouvrir pour OpenAI ?

Source : Engadget