Vue normale

Reçu aujourd’hui — 21 décembre 2025

1,5 To de VRAM sur un Mac Studio - Le RDMA Thunderbolt 5 qui change la donne

Par :Korben
21 décembre 2025 à 08:04

Vous rêvez de faire tourner des modèles d'IA de 600 milliards de paramètres sur votre bureau sans avoir à vendre vos enfants ? Hé bien Jeff Geerling vient de tester un truc qui va vous faire baver, je pense. En tout cas, moi ça m'énerve (dans le bon sens du terme hein...) !

Apple lui a prêté 4 Mac Studios M3 Ultra pour tester une nouvelle fonctionnalité qui débarque avec macOS 26.2 et qui s'appelle le RDMA over Thunderbolt 5. En gros, c'est une techno qui permet à plusieurs Macs de partager leur mémoire unifiée comme si c'était un seul gros pool de RAM et du coup, au lieu d'avoir 4 machines séparées avec chacune leur mémoire, vous vous retrouvez avec 1,5 To de VRAM partagée accessible par toutes les machines.

Le setup de Jeff c'est deux Mac Studios avec 512 Go de RAM chacun à environ 11 700 dollars pièce, plus deux autres avec 256 Go à 8 100 dollars. Total de la douloureuse : environ 40 000 dollars. Ça pique, c'est clair, mais attendez de voir ce que ça fait.

Le truc qui change vraiment la donne avec le RDMA c'est la latence. Avant, quand un Mac devait accéder à la mémoire d'un autre Mac via le réseau, ça prenait environ 300 microsecondes. Avec cette nouvelle implémentation Thunderbolt 5, on tombe à moins de 50 microsecondes. Ça paraît rien comme ça, mais pour faire tourner ce genre de modèles, c'est énorme.

Jeff a fait tourner des benchmarks classiques et les résultats sont plutôt impressionnants. Sur Geekbench 6, le M3 Ultra explose le Dell Pro Max et l'AMD Ryzen AI Max+ 395 en mono et multi-coeur. Mais le plus fou c'est sur le benchmark HPL en virgule flottante 64 bits où c'est le seul système desktop testé à dépasser 1 Téraflop, avec presque le double des performances du Nvidia GB10.

Côté modèles IA massifs, le cluster fait tourner Qwen3 235B à 32 tokens par seconde avec Exo, DeepSeek V3.1 et ses 671 milliards de paramètres scale correctement sur les 4 machines, et même Kimi K2 Thinking avec ses 1000 milliards de paramètres tourne à environ 30 tokens par seconde. Tout ça en consommant environ 250 watts max et en faisant quasi aucun bruit.

Par contre, c'est encore du logiciel en beta et ça se sent. Par exemple, Jeff a eu pas mal de crashs pendant ses tests HPL sur Thunderbolt avec des instabilités qui ont nécessité des redémarrages fréquents, ou encore le fait que seulement 4 Macs sont supportés pour l'instant malgré les 5 ports Thunderbolt 5 disponibles. Ensuite y'a le problème de l'administration à distance qui est inexistante, car impossible de mettre à jour macOS via SSH, donc faut se taper l'interface graphique à la main sur chaque machine.

Bref, c'est hyper prometteur comme techno, surtout pour ceux qui veulent faire tourner des LLM monstrueux sur leur bureau sans monter une salle serveur mais faudra attendre que le logiciel murisse un peu avant de claquer vos 40 000 balles de PEL dedans.

Source

❌