Dans l’expectative, Meta lâche une roadmap pour ses puces IA
Certes, il y a le contrat avec NVIDIA. Avec AMD aussi. Et peut-être avec Google. Mais il y a encore de la place pour des puces IA maison.
Si Meta n’avance pas les choses ainsi, difficile d’oublier le contexte dans lequel il annonce une feuille de route pour les puces en question.
L’annonce avec NVIDIA était tombée mi-février. Objet : un « partenariat pluriannuel ». Qui impliquerait, dans les grandes lignes, le déploiement de CPU Grace (potentiellement Vera à l’horizon 2027)… et surtout de « millions de GPU » Blackwell et Rubin.
Une semaine plus tard, Meta déclarait avoir signé avec AMD pour déployer l’équivalent de 6 GW en GPU Instinct. La tranche initiale (1 GW) doit être mise en place au deuxième semestre 2026, sur la base d’un MI450 custom. Le deal s’assortit, pour Meta, d’une option d’achat de 160 millions d’actions AMD – environ 10 % du capital – à une valeur unitaire de 1 centime.
Quelques jours après l’annonce avec AMD, on apprenait – sans confirmation de la part de Meta – la possible signature d’un accord avec Google pour lui louer voire lui acheter des TPU. On apprenait surtout, en parallèle, que Meta aurait abandonné sa puce maison la plus avancée (Olympus) à cause de problèmes de conception.
Pour concevoir ses puces, Meta s’est rapproché de Broadcom. Ce dernier présentait, la semaine dernière, ses résultats trimestriels. Son patron Hock Tan s’est employé à rassurer les investisseurs : « à rebours de récents rapports d’analystes », la roadmap de Meta est « bien en vie » (« well alive ») et des livraisons sont en cours.
Deux puces « spécial GenAI » prévues pour 2027
Meta vient appuyer ces propos en communiquant des perspectives de déploiement pour quatre générations de ses puces MTIA (Meta Training and Inference Accelrator).
La plus ancienne (MTIA 300) est déjà en production, pour l’entraînement des modèles de recommandation.

La MTIA 400, à usage « général », est en voie de déploiement (tests en laboratoire bouclés).
Pour les MTIA 450 et MTIA 500, axées inférence GenAI, ce sera en 2027 (début d’année pour la première).

Meta avait officialisé son premier accélérateur IA en 2023. Il s’agissait du MTIA 100, doté en cœurs RISC-V Andes Technology AX25-V100. Il insistait alors sur les performances « presque » au niveau des GPU pour ses workloads. Et sur le moindre coût par rapport aux CPU, qui constituaient alors son principal véhicule d’inférence (modèles de deep learning).
Deux ans plus tard, il y eut le MTIA 200 (devenu depuis MTIA 2i). Ces deux générations confondues, Meta a déployé des « centaines de milliers » de puces.
| MTIA 100 | MTIA 200 | |
| Gravure | 7 nm | 5 nm |
| Surface | 373 mm² | 420 mm² |
| TDP | 25 W | 85 W |
| SRAM | 128 Mo 800 Go/s |
256 Mo 2,7 To/s |
| DRAM | 32-64 Go LPDDR5 176 Go/s |
64-128 Go LPDDR5 204,8 Go/s |
| Mémoire par unité de traitement | 128 ko 400 Go/s |
384 ko 1 To/s |
| Bande passante PCIe | 16 Go/s | 32 Go/s |
| INT8 | 102,4 Tflops | 354 Tflops |
| FP16 | 51,2 Tflops | 177 Tflops |
HBM généralisée et conception modulaire
Meta met en avant la « multiplication par 25 » de la puissance de calcul entre MTIA 300 et MTIA 500. Il s’agit en fait de la différence entre le premier en MX8 et le second en MX4. Une comparaison destinée à mettre en lumière l’importance de ce format faible précision pour l’inférence GenAI. Elle s’accompagne d’ailleurs d’autres chiffres : + 75 % en MX4 entre MTIA 400 et MTIA 450, puis + 43 % avec le MTIA 500.
Autre élément mis en relief pour l’inférence GenAI : l’augmentation de la capacité DRAM (doublée entre MTIA 400 et MTIA 450, puis encore accrue de moitié avec le MTIA 500).
Avec les MTIA 100 et 200, Meta avait misé sur une grande quantité de SRAM associée à de la LPDDR. À partir des MTIA 300, il bascule sur de la HBM.
Au-delà des améliorations architecturales entre générations (réseau sur puce, calcul near-memory, moteurs de messagerie spécifiques…) est restée la modularité. Chaque puce s’appuie sur la précédente, avec des chiplets amovibles (calcul, I/O, réseau) censés permettre de « livrer une puce tous les 6 mois environ ». Et de mieux s’adapter à l’évolution des workloads (architectures des modèles, types de données, techniques d’inférence…) tout en intégrant plus vite les nouveaux processus de gravure
Les MTIA 400, 450 et 500 utilisent aussi le même châssis, les mêmes racks et la même infra réseau.
| MTIA 300 | MTIA 400 | MTIA 450 | MTIA 500 | |
| TDP | 800 W | 1200 W | 1400 W | 1700 W |
| HBM | 216 Go (6,1 To/s) |
288 Go (9,2 To/s) |
288 Go (18,4 To/s) |
384-512 Go (27,6 To/s) |
| MX4 | 12 Pflops | 21 Pflops | 30Pflops | |
| FP8/MX8 | 1,2 Pflops | 6 Pflops | 7 Pflops | 10 Pflops |
| BF16 | 0,6 Pflops | 3 Pflops | 3,5 Pflops | 5 Pflops |
| Bande passante scale-up | 2 To/s | 2,4 To/s | 2,4 To/s | 2,4 To/s |
| Bande passante scale-out | 400 Go/s | 200 Go/s | 200 Go/s | 200 Go/s |
Face à Ironwood, MAIA et Inferentia
Chez AWS, la plus récente des puces maison orientées inférence est Inferentia2,commercialisée depuis 2023. Le TDP n’est pas communiqué (des estimations autour de 100 W circulent). Elle embarque 32 Go de mémoire HBM (820 Gio/s). Performances annoncées : 380 Tops en INT8, 190 Tflops en FP16/BF16/FP32 et 47,5 Tflops en FP32.
Chez Google, la dernière en date exploitée pour l’inférence est la 7e génération des TPU Ironwood, lancée en 2025. Pas non plus de TDP communiqué, mais des estimations autour de 600 W. La puce embarque 192 Go de HBM (7,4 To/s), pour une bande passante scale-up de 2,4 To/s. Performances annoncées : 4614 Tops en FP8 et 2307 Tflops en BF16.
Chez Microsoft, la petite dernière est la puce MAIA 200. Officialisée début 2026, elle est pour le moment réservée à des services internes. Gravée à 3 nm pour une surface de 836 mm² et un TDP de 750 W, elle embarque 216 Go de HBM3e (7 To/s). La bande passante scale-up atteint 2,8 To/s. Les performances, 10 145 Tops en FP4, 5072 Tops en FP8 et 1268 Tflops en BF16.
Illustrations © Meta
The post Dans l’expectative, Meta lâche une roadmap pour ses puces IA appeared first on Silicon.fr.

























