Le "BitTorrent de l'IA" est arrivé: Exo permet à votre Raspberry Pi de rivaliser avec les supercalculateurs

Par Naïm Bada, Spécialiste logiciel.

Publié le 27 février 2025 à 09h51

La démocratisation de l'intelligence artificielle franchit un cap décisif avec Exo, un logiciel qui permet d'exécuter des modèles de langage avancés sur des appareils ordinaires connectés en réseau. Cette solution distribue la charge de calcul entre plusieurs machines, rendant accessible ce qui était jusqu'alors réservé aux infrastructures haut de gamme.

Un cluster de Mac Mini, le sésame pour faire tourner DeepSeek R1 en local ? © ExoLabs

L'IA générative nécessite habituellement des ressources informatiques considérables, tant en mémoire qu'en puissance de traitement. Exo bouleverse cette équation en permettant à des ordinateurs, smartphones et même des cartes Raspberry Pi de fonctionner ensemble pour faire tourner des modèles complexes.

Une approche décentralisée inspirée du peer-to-peer

Le fonctionnement d'Exo rappelle celui du protocole BitTorrent, non pour ses usages controversés, mais pour son architecture technique distribuée. Tout comme BitTorrent partage des fichiers entre plusieurs ordinateurs, Exo répartit les couches d'un modèle d'IA entre différents appareils.

Cette méthode, baptisée « pipeline parallel inference », découpe les grands modèles de langage (LLM) en plusieurs fragments qui sont ensuite distribués sur les appareils disponibles. Chaque appareil traite une partie du modèle proportionnellement à sa mémoire disponible, selon une stratégie appelée « ring memory weighted partitioning ».

L'approche décentralisée d'Exo s'inspire également du projet SETI@home, qui utilisait les ordinateurs de volontaires pour analyser des données astronomiques. Grâce à son réseau pair-à-pair (P2P), Exo élimine le besoin d'un système central puissant, rendant l'inférence d'IA plus accessible.

Des capacités techniques impressionnantes

Exo prend en charge plusieurs modèles populaires comme LLaMA, Mistral, LlaVA, Qwen et DeepSeek. Le logiciel fonctionne sur Linux, macOS, Android et iOS, bien que Windows ne soit pas encore supporté. L'outil fait collaborer des configurations matérielles hétérogènes. Par exemple, un modèle nécessitant 16 Go de RAM peut fonctionner sur deux ordinateurs portables de 8 Go travaillant ensemble. Plus impressionnant encore, un modèle exigeant comme DeepSeek R1, qui requiert environ 1,3 To de RAM, pourrait théoriquement fonctionner sur un cluster de 170 Raspberry Pi 5 équipés chacun de 8 Go de RAM.

Aperçu d'une instance Exo Linux - © ExoLabs

L'utilisation d'Exo a été conçue pour être aussi simple que possible. Une fois le dépôt GitHub cloné et l'environnement virtuel configuré, il suffit d'exécuter la commande « exo ». Le système découvre automatiquement les autres appareils sur le réseau sans configuration manuelle.

Source : Tech Radar

Par Naïm Bada

Spécialiste logiciel

Intelligence artificielle

Actualités High-Tech

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (0)

Poster mon commentaire

Commentaires (10)

Binbin

Comme on le voit sur l’image de l’article, cela permettrait de faire travailler plusieurs mac mini sur un même modèle d’IA, ça va pas plaire à Nvidia mais ça me plait déjà !

blosk

1)En prenant des raspberry pi " 2w" on pourrait les utiliser comme des neurones ?
2) avec les raspberry pi " 2w" on pourrait les utiliser comme des fourmis et créer une i.a basée sur le fonctionnement d’une fourmilière ?

MattS32

Y a pas de raison que ça ne plaise pas à nVidia : au prix du Mac Mini, pour avoir la même capacité de traitement ça coûtera pas vraiment moins cher en Mac Mini qu’en cartes nVidia, à part pour faire tourner des modèles très gourmands en RAM mais pas en puissance de calcul…

Un mini de base avec 16 Go de RAM (partiellement utilisable pour le modèle, puisque partagée avec l’OS) et une capacité de calcul de 19 TOPS FP16 c’est 630€, une 4060 Ti avec 16 Go de VRAM (quasiment intégralement utilisable pour le modèle) et une capacité de calcul de 88 TOPS FP16, c’est 600€… Et tu peux en mettre 4 dans une machine, dont le reste coûtera certes plus de 240€, mais pour au final de bien meilleures performances.

Donc en gros à quantité de RAM utilisable pour les modèles équivalente, ça sera un peu plus cher avec des cartes nVidia que des Mac Mini, mais en offrant 4 fois plus de capacité de calcul…

Et le Mac Mini est battu à plate couture si on regarde du côté des Jetson : là on a 17 TOPS FP16 et 16 Go de RAM pour la moitié du prix du Mac Mini…

Le seul avantage du Mac Mini, c’est la disponibilité… Mais du coup ça ça change rien pour nVidia : un Mac Mini acheté pour faire de l’IA par quelqu’un qui n’a pas réussi à trouver une GeForce ou un Jetson, c’est pas une vente perdue pour nVidia…

xryl

Comme pour SETI@home, c’est une belle performance technologique, mais clairement très loin de la panacée. La liaison de donnée (entre les « couches » implémentée sur différents hôtes), est hyper lente (au mieux, 100Mbit/s, pour une liaison fibre), alors qu’il faut passer des gigabits. Au final, je doute que ça aille plus vite qu’un Llama.cpp qui tournerait avec un swap NVME (la liaison PCIe, c’est des Go/s de bande passante). C’est rarement le nombre de TOPS qui limite, c’est plutôt la taille de la mémoire pour un LLM et donc les transferts de données. Il vaut mieux acheter de la RAM supplémentaire que des (petites) machines supplémentaires.

promeneur001

The only requirement to run exo is to have enough memory across all your devices to fit the entire model into memory. For example, if you are running llama 3.1 8B (fp16), you need 16GB of memory across all devices. Any of the following configurations would work since they each have more than 16GB of memory in total:

2 x 8GB M3 MacBook Airs
1 x 16GB NVIDIA RTX 4070 Ti Laptop
2 x Raspberry Pi 400 with 4GB of RAM each (running on CPU) + 1 x 8GB Mac Mini

Mimi9

Network Chuck en a fait une demo également sur sa chaîne Youtube, ça vaut le détour

promeneur001

EXO began with a simple goal: to speed up AI research experiments using whatever devices a few university students had on hand. We wanted to run and train larger models but faced limitations from single-device memory and FLOPS. After months of development, we built the software infrastructure to make this possible.

promeneur001

La page de benchmark

Binbin

Tu as tout a fait raison concernant le Mac Mini, mais ce qui ne va pas plaire a Nvidia c’est de pouvoir cumuler la VRAM de ses propres cartes…

MattS32

Rien de nouveau, ça ça se fait déjà, Ollama peut tourner avec plusieurs cartes graphiques.

À la limite ça pourrait détourner vers des clusters des gens qui utilisaient des Hxxx pour avoir beaucoup de RAM. Mais j’en doute : ceux là ont des besoins et des moyens qui vont au delà du bricolage avec des composants grand public…