Elon Musk l'admet à son tour : les données disponibles pour former les intelligences artificielles s'amenuisent considérablement. Pour pallier ce manque, les entreprises se tournent vers une autre méthode d'entraînement moins onéreuse, mais non sans danger.

Les entreprises ont besoin de toujours plus de données pour entraîner leurs grands modèles de langage. © Natakorn Ruangrit / Shutterstock
Les entreprises ont besoin de toujours plus de données pour entraîner leurs grands modèles de langage. © Natakorn Ruangrit / Shutterstock

Le mois dernier, Ilya Sutskveer, éminent chercheur en IA qui a récemment quitté OpenAI pour monter sa propre start-up, a expliqué que l'industrie avait atteint un « pic des données ». Concrètement, il n'y a plus assez de données issues des connaissances humaines pour entraîner les modèles, ces dernières ayant déjà été exploitées par les entreprises qui développent ces technologies.

Elon Musk plébiscite les données synthétiques

Et ce constat est partagé par le patron de xAI, dont la valorisation a récemment atteint les 50 milliards de dollars. Il s'est exprimé ce 8 janvier dans un entretien diffusé sur X.com avec Mark Penn, président du groupe marketing Stagwell. « Nous avons maintenant épuisé la somme cumulative des connaissances humaines dans la formation de l'IA. Cela s'est produit l'année dernière », a-t-il indiqué.

Or, les modèles ont besoin de données supplémentaires pour améliorer leurs performances, ce qui pousse les entreprises à adapter leurs stratégies. Elles exploitent des données synthétiques, elles-mêmes générées par des intelligences artificielles, pour les former. C'est, pour l'heure, l'unique moyen de combler le manque de nouvelles données, estime le milliardaire. « Avec des données synthétiques, l'IA va en quelque sorte s'auto-évaluer et passer par ce processus d'auto-apprentissage », précise-t-il.

Cette pratique est déjà courante dans le monde de l'IA. Ce type de données a été utilisé pour entraîner Gemma de Google, Claude 3.5 Sonnet d'Anthropic ou encore, la dernière série de modèles Llama de Meta. Le cabinet Gartner rapporte que 60 % des données utilisées pour les projets d'IA et d'analyse en 2024 ont été générées synthétiquement.

Exemple d'un datacenter utilisé pour l'IA. © Google
Exemple d'un datacenter utilisé pour l'IA. © Google

Une méthode imparfaite

Cette technique présente un avantage considérable : elle est moins coûteuse. La start-up Writer assure que son modèle Palmyra X 004 model, uniquement formé sur des données synthétiques, a nécessité un investissement de 700 000 dollars. À titre de comparaison, une IA similaire signée OpenAI vaut près de 4,6 millions de dollars.

Mais les données synthétiques sont loin d'être infaillibles. Les modèles qui les exploitent risquent de subir un processus dégénératif appelé effondrement. Ce phénomène se produit lorsque les données générées par les IA polluent l'ensemble d'entraînement des générations suivantes, ce qui entraîne une baisse de la qualité au fil du temps.

De même, ces données ne reflètent pas toujours la complexité et les nuances des scénarios du monde réel, et peuvent accentuer les biais déjà présents dans certains algorithmes. Des risques connus par les acteurs de la filière, mais il est difficile de savoir s'ils sont pris en compte, la course effrénée entre les géants continuant de s'intensifier.

À découvrir
Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2025

30 décembre 2024 à 11h37

Comparatifs services

Source : TechCrunch