La start-up chinoise DeepSeek a, depuis la sortie de son chatbot R1, il y a une semaine, semble-t-il déjà complètement changé le visage de l'industrie. Et ce, grâce à une trajectoire assez originale !

© Shutterstock
© Shutterstock

On se souvient quand, en décembre 2022, le monde faisait connaissance avec la petite start-up OpenAI, à l'origine de l'incroyable chatbot ChatGPT. Très vite, OpenAI est devenue une firme connue mondialement, puis a enchaîné les levées de fonds, au point d'obtenir au bout de deux ans une valorisation fabuleuse. Et l'histoire a ici tendance à se répéter, avec l'émergence cette fois de la start-up chinoise DeepSeek, qui a une histoire assez originale.

À l'origine, un fonds d'investissement

Vous savez ce qu'il y a à l'origine de DeepSeek, la société qui a provoqué un tremblement de terre dans le monde de l'intelligence artificielle ? Un hedge fund ! Car la start-up IA a d'abord eu comme nom Fire-Flyer, branche de la recherche en deep learning du fonds quantitatif High-Flyer, fondé en 2015 par Lian Wenfeng. Un hedge fund très connu en Chine, qui a notamment été le premier fonds quantitatif à lever 100 milliards de yuans (environ 13,2 milliards d'euros). Durant des années, High-Flyer a accumulé les GPU, et construit des supercalculateurs pour sa branche Fire-Flyer, afin que celle-ci analyse des données financières.

Le basculement vers l'intelligence artificielle n'a eu lieu qu'en 2023, quand Liang Wenfeng a décidé d'utiliser les ressources de l'entreprise dans une nouvelle entité, baptisée DeepSeek. Celle-ci s'est alors fixée comme ambition de développer des modèles de langage avancés, avec pour visée ultime l'intelligence artificielle générale. DeepSeek a ainsi pour particularité d'être un des rares acteurs IA de la Chine à ne pas dépendre des financements des géants du numérique locaux comme Alibaba, Baidu ou bien ByteDance.

DeepSeek cherche les jeunes esprits brillants à peine sortis de l'université

Et pour réussir, DeepSeek a une recette qui lui est propre. D'abord, dans sa philosophie de recrutement. La société cherche en effet moins des ingénieurs expérimentés capables de développer des produits pouvant être commercialisés que des chercheurs extrêmement brillants sortant à peine des grandes universités du pays, comme Tsinghua ou l'université de Pékin. Et contrairement à ce qui se fait au sein des géants du numérique chinois, ces chercheurs ont toute latitude pour mener des recherches peu orthodoxes.

Enfin, les restrictions américaines sur les GPU imposées aux entreprises chinoises ont obligé DeepSeek à innover pour trouver des façons plus efficaces d'entraîner ses modèles de langage, avec moins de matériel de pointe. « Ils ont optimisé l'architecture de leurs modèles à l'aide d'une batterie d'astuces techniques : schémas de communication personnalisés entre les puces, réduction de la taille des champs pour économiser de la mémoire et utilisation innovante de l'approche "mix-of models" (mélange de modèles) » a ainsi résumé l'analyste chez Mercator Institute for China Studies, Wendy Chang.

Le fait de développer un modèle open source aide par ailleurs l'entreprise à attirer plus d'utilisateurs et de contributeurs, et en conséquence de rattraper une partie de son retard sur les rivaux occidentaux. Une méthode gagnante ?

Source : Wired

DeepSeek
  • Compréhension avancée du langage naturel
  • Réponses adaptées à des contextes variés
  • Disponible en plusieurs langues
10 / 10