DeepSeek R1 aurait été entraînée à l'aide de la meilleure puce IA de Huawei

Publié le 29 janvier 2025 à 12h32

La start-up chinoise DeepSeek a ébloui à sa sortie, interrogeant sur la manière dont l'IA a pu être entraînée. Et il semble qu'il n'y ait pas que des composants NVIDIA qui aient été utilisés.

Un nom est sur toutes les lèvres dans le monde de la tech depuis quelques jours : DeepSeek. L'IA de la start-up chinoise a montré des capacités incroyables, au point que beaucoup se sont demandés comment elle pouvait atteindre ce niveau alors que les entreprises de Chine ne peuvent normalement accéder aux meilleurs GPU de NVIDIA, les H100. Certains pensent qu'elles auraient pu en acquérir en contrebande, alors que DeepSeek affirme avoir simplement utilisé des GPU H800. Mais pas seulement semble-t-il !

Les puces Huawei Ascend 910C utilisées par DeepSeek

Avec quoi l'IA DeepSeek R1 a-t-elle été entraînée ? D'après un papier des chercheurs de la société de Hangzhou, un peu moins de 6 millions de dollars d'investissement dans des GPU H800 auraient suffi. Mais selon le spécialiste des modèles de langage, il y aurait eu aussi du matériel local d'utilisé.

En effet, DeepSeek aurait exécuté les tâches d'inférence à l'aide des dernières puces IA de Huawei, les Ascend 910C. Une information qui, si elle venait à se confirmer, montrerait à quel point la Chine continue de vite se développer, même sous la contrainte américaine.

...

Une nouvelle preuve de la résilience chinoise ?

Pour rappel, la Ascend 910C est une puce développée par Huawei afin d'obtenir un composant qui puisse être aussi puissant que le meilleur GPU de NVIDIA, le H100. Le géant chinois devrait lancer la production de masse de cette puce durant le premier trimestre 2025, même si SMIC affiche pour le moment des rendements assez faibles dans la production de cette puce.

À l'heure actuelle, beaucoup de questions sont posées sur la façon dont le modèle de langage DeepSeek R1 a pu venir au monde. Du côté des géants américains, après avoir salué la performance, le ton a changé. OpenAI accuse en effet maintenant l'entreprise chinoise d'avoir utilisé ChatGPT pour automatiser l'entraînement de ses modèles, sur le principe de la distillation. Ce qui est interdit par les conditions générales d'utilisation du chatbot.

Source : Wccftech

DeepSeek

Compréhension avancée du langage naturel
Réponses adaptées à des contextes variés
Disponible en plusieurs langues

9 / 10

Télécharger

Par Samir Rahmoune

Intelligence artificielle

Actualités High-Tech

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (0)

Poster mon commentaire

Commentaires (9)

Bit_Man

Plus de précision ici, en particulier 910C (TSMC) vs 910B(SMIC),
Neanmoins SMIC fait une sorte de 7nm, ce qui est déja fort, vu qu’il y a encore 3 - 4 ans ils étaient bloqué en 28nm.

Loposo

et nous les européens, on a??

trollkien

nous on a Ursula von der Leyen.

fabfue

Demain ça aura été entrainer par une puce de Nokia 3310.

gruiiik

Alors, rien qu’en France, nous avons VSORA (https://vsora.com/) sans parler de Mistral.

De plus, pratiquement tout le monde utilise les machines d’ASML (Pays-Bas) pour produire les puces.

Donc, en réalité, notre mentalité de merde, nous nous rabaissons toujours.

Euronouille

C’est dingue , votre article d’il y a 2H disait qu’ils ont tout volé aux Américains

Loposo

Justement je sais qu’on a un des fleurons de la gravure, mais pourquoi pas un arm, ou gpu depuis temps d’années, l’indépendance il faut aller au bout, on n’est pas plus con. Mais bon pas le choix politiques on préfère acheter, car pas sûre qu UN CPU fait à Taiwan soit moins cher qu’en Europe

MattS32

Pour le CPU, y a l’European Processor Initiative qui travaille dessus. La cible est dans un premier temps le HPC, mais à long terme il n’est pas impossible que les partenaires industriels du projet visent aussi d’autres marchés.

Et c’est une entreprise française (SiPearl) qui est chargée du développement de ce CPU, qui sera une puce à 80 cœurs ARM.

Les premiers exemplaires devraient être produits cette année (par TSMC par contre, mais comme TSMC a des plans pour des usines en Europe, il pourra a terme être fabriqué en Europe).

MHC

Ce serait sympa qu’il ne soit pas encore retardé car c’est de l’ARM Neoverse V1 qui commence à dater… Le Graviton 4 de AWS disponible en masse dans les instances AWS depuis juin/juillet dernier est en Neoverse V2. Et ARM a déjà lancé Neoverse V3…