Vue lecture

Course à l’IA : la bulle controversée, la pénurie avérée

La croissance du parc mondial de datacenters hyperscale ne montre pas de signes de ralentissement. Les dépenses d’infrastructure associées, non plus.

Depuis deux ans, les pointages trimestriels de Synergy Research Group en ont témoigné quasi systématiquement. Le dernier en date n’y déroge pas.

Ruée sur les GPU… et sur la RAM

Le parc en question avoisine désormais les 1300 datacenters, pour une puissance informatique plus que quadruplée en 7 ans. Au T3 2025, les dépenses d’exploitation des hyperscalers – Synergy en recense une vingtaine, acteurs du IaaS, du PaaS, du SaaS, de la recherche, des réseaux sociaux, du e-commerce et du gaming – ont atteint 142 Md$. Elles étaient d’environ 80 Md$ un an plus tôt (et 50 Md$ au T3 2023).

capex capacité hyperscalers

Ces investissements vont pour l’essentiel dans les serveurs. La plupart d’entre eux (91 %) sont maintenant équipés d’accélérateurs. À commencer par des GPU… qui ont besoin d’autant plus de RAM qu’on y fait tourner des modèles d’IA.

La course engagée par les hyperscalers a contribué à engendrer une pénurie de mémoire. Et par là même une augmentation remarquable des prix. On en est par exemple arrivé, il y a quelques semaines, à ce qu’un kit de 64 Go de DDR5 coûte plus cher qu’une PlayStation.

Le phénomène est amplifié par une réorientation de la fabrication vers des types de mémoires adaptés aux accélérateurs IA. En tête de liste, la HBM (DRAM à large bande passante). Les modules mémoire génériques se raréfient d’autant plus.

Des conséquences en 2026 sur PC et smartphones

Il se dit que la situation pourrait persister au moins jusqu’en 2027. Elle a en tout cas commencé à se répercuter en bout de chaîne, sur le prix des équipements informatiques. Chez Dell, il semble falloir se préparer à des augmentations de 10 à 30 % dans les gammes de PC B2B. Chez ASUS, il est question de 15 à 20 % de hausse sur des notebooks. Les prévisions sont similaires chez Acer, qui songerait aussi à livrer des modèles avec moins de RAM… potentiellement à rebours de la promesse des « PC IA ».

On surveillera particulièrement les plus petits fournisseurs, qui ont globalement moins d’inventaire, de trésorerie et de marge de négociation. Même chose avec les smartphones. Sur ce segment, la mémoire peut traditionnellement représenter jusqu’à 20 % du coût de revient matériel. Il est probable que, si hausses de prix il y a, elle seront plus nettes sur l’entrée et le milieu de gamme, où les marges sont faibles. À l’autre bout du spectre, on pourrait voir les flagships plafonner à 12 Go de RAM en 2026.

IDC estime que cette année, le marché des smartphones pourrait se contracter d’environ 5 % en volume, tandis que le prix de vente moyen augmenterait de quelque 8 %. Ses prévisions sont comparables pour les PC, dont les fabricants ne se verront sans doute pas livrer toute la capacité de mémoire commandée (potentiellement, autour de 70 % pour les principaux OEM et de 40 % pour les plus petits). D’autant plus que les hyperscalers se battent, de plus en plus agressivement, pour les stocks restants. Une tendance accentuée par le marché chinois, où les USA ont finalement autorisé la vente des GPU H200. Sur place, plus de 2 millions d’unités auraient été commandées à NVIDIA, qui en aurait à peine la moitié en réserve. AMD est aussi concerné, dans une moindre mesure, avec ses accélérateurs Instinct. Alibaba, entre autres, lui en aurait acheté jusqu’à 50 000.

Les hyperscalers en éléments perturbateurs

En parallèle à leurs ventes sur le marché du datacenter, AMD et NVIDIA prépareraient tous deux des hausses de prix sur leurs cartes graphiques « grand public ». Ce mois-ci pour le premier ; en février pour le second. Avec la pénurie, la GDDR en est venue à constituer plus de 80 % de leur coût de revient.

AMD envisagerait par ailleurs de réintroduire des puces sur socket AM4 (potentiellement des CPU Ryzen 5000 et des APU Zen 3), ce qui éviterait d’avoir à racheter des cartes mères… et de la DDR5.

Du côté des fabricants de semi-conducteurs, on s’en tient dorénavant à des contrats au trimestre. Et on donne, comme sus-évoqué, la priorité à la mémoire HBM. Actuellement en mesure de produire 160 000 à 170 000 wafers par mois, Samsung Electronics prévoirait d’augmenter cette capacité de 50 %. Micron a quant à lui annoncé que son carnet de commandes HBM était rempli pour l’année 2026.

Dans ce contexte, le marché IT dans son ensemble a potentiellement connu, en 2025, une croissance sans égale depuis 30 ans. Tout du moins à en croire IDC, qui communiquait, début décembre, une estimation à + 14 % (4250 Md$), hors dépenses télécoms. En première ligne, les dépenses des fournisseurs de services d’infrastructure, pas majoritaires (environ 500 Md$), mais en nette croissance (+ 86 %, contre environ + 10 % pour les dépenses des entreprises).

IDC prévisions dépenses IT mondiales

IDC croissance des dépenses IT mondiales par client

Le capex d’Amazon, Google et Microsoft atteint celui des telcos

Si on s’en tient à ce qu’IDC qualifie d’infrastructures IA (dans les grandes lignes, tout ce qui porte des applications au minimum « augmentées » par de l’IA), les Ètats-Unis concentrent les trois quarts des dépenses, contre environ 5 % pour l’EMEA.
Sur place se trouve environ 55 % de la capacité hyperscale mondiale, selon Synergy Research Group. La Virginie en concentre à elle seule 14 %. Mais la demande croissante en énergie favorise les implantations dans des Ètats moins densément peuplés comme l’Oregon (22 habitants au km² ; actuellement 5 % de la capacité mondiale), l’Iowa (17 hab/km² ; 4 %) et le Nebraska (10 hab/km²). On ne peut pas en dire autant d’emplacements tels que Londres et Francfort. Ce dernier est d’ailleurs sorti du top 20 des hubs mondiaux, comme Amsterdam. Ne reste, côté européen, que Dublin, qui accueille environ 4 % de la capacité hyperscale.

capacité par région géographique

De cette capacité, le trio Amazon-Microsoft-Google détient une part (58 %) du même ordre que son poids sur le marché mondial du cloud d’infrastructure (63 %). Leur ratio capex est aujourd’hui au niveau de celui des telcos, approchant de 20 % du chiffre d’affaires – la majorité allant dans les datacenters.

Sur un marché du cloud d’infrastructure estimé à 107 Md$ au T3 2025, les néo-clouds (plates-formes spécialisées, le plus souvent sur les workloads IA à base de GPU) montent doucement en puissance. Ils ont passé les 5 Md$ de revenus trimestriels. Les principaux acteurs se nomment CoreWeave, Crusoe, Lambda, Nebius… et OpenAI (que Synergy inclut au titre de ses abonnements à ChatGPT).

En parallèle, les fusions-acquisitions(-investissements) « orienté(e)s datacenter » ont atteint en 2024 une valeur globale sans précédent : 73 Md$. Principal contributeur : l’acquisition d’AirTrunk, emmenée par le fonds Blackstone et bouclée en décembre pour 16 Md$. Suivent deux investissements dans Vantage Data Centers totalisant 9,2 Md$.

Illustration principale générée par IA

The post Course à l’IA : la bulle controversée, la pénurie avérée appeared first on Silicon.fr.

  •  

LinkedIn associe Kafka et gRPC pour la découverte de services

Urgence pour le système de découverte de services : la capacité actuelle du plan de contrôle pourrait être épuisée à l’horizon 2025.

LinkedIn avait fait ce constat à l’été 2022. En conséquence, il avait lancé un chantier de modernisation.

Élasticité, compatibilité… Le plan de contrôle ZooKeeper arrivait à ses limites

Le plan de contrôle reposait alors sur ZooKeeper. Il avait une structure plate. Les applications serveur y enregistraient leurs points de terminaison en tant que nœuds éphémères, sous forme d’URI D2 (Dynamic Discovery). Les applications clientes lui adressaient des requêtes en lecture pour suivre les clusters qui les intéressaient.

Cette approche présentait des limites en termes d’élasticité. ZooKeeper étant un système à cohérence forte, toutes les lectures et les écritures, ainsi que les vérifications d’intégrité des nœuds, passaient par la même file d’attente. Les requêtes étaient donc susceptibles de s’accumuler jusqu’au moment où certaines ne pourraient plus être traitées. En parallèle, des sessions pourraient être fermées en cas de timeout sur la vérification d’intégrité. S’ensuivraient une perte de capacité côté serveur et, in fine, des indisponibilités d’applications.

Autre limite : les entités D2 étant liées à des schémas spécifiques à LinkedIn, elles étaient incompatibles avec des data planes modernes comme gRPC et Envoy. De plus, l’implémentation de la logique de lecture/écriture dans les conteneurs applicatifs était focalisée sur Java. Par ailleurs, l’absence d’une couche intermédiaire entre le registre de services et les instances applicatives empêchait de développer des techniques de gestion RPC centralisées, par exemple pour le load balancing.

Kafka côté serveur, gRPC côté client

Le nouveau plan de contrôle introduit des composantes Kafka et Observer.

Kafka réceptionne les requêtes en écriture des serveurs et les informations d’intégrité sous forme d’événements, appelés URI de découverte de services.

La brique Observer consomme ces URI et les conserve en mémoire. Les applications clientes s’y abonnent en ouvrant un flux gRPC. Elles envoient leurs requêtes via le protocole xDS.

Les configurations D2 restent stockées dans ZooKeeper. Elles sont converties en entités xDS par les propriétaires d’applications puis distribuées à l’« observateur » de la même manière que les URI.

Les readiness probes de Kubernetes en ligne de mire

Dans cette architecture, l’élasticité et la disponibilité ont la priorité sur la cohérence. L’observateur, écrit en Go avec une concurrence forte, peut gérer 40 000 flux clients et 10 000 mises à jour par seconde tout en consommant 11 000 événements Kafka par seconde, selon LinkedIn.

Pour gagner encore en élasticité, il serait possible, au-delà d’augmenter le nombre d’observateurs, d’en créer deux types. D’un côté, des instances consommant les événements Kafka. De l’autre, des instances répondant aux requêtes des clients.

Comme il utilise xDS, le plan de contrôle est compatible avec Envoy ; ce qui ouvre la porte à un support multilangage. Et avec l’introduction de cette couche intermédiaire, il devient possible d’intégrer des fonctionnalités autour des maillages de services. Voire d’exploiter les readiness probes de Kubernetes pour faire passer les serveurs en mode passif et ainsi fiabiliser le système.

La latence P50 amenée sous la seconde

Le déploiement a été compliqué par la variété des clients (dépendances, accès réseau, SSL…). Pour beaucoup, il était difficile de prévoir le niveau de compatibilité.

Il a de surcroît fallu mener le chantier parallèlement sur les lectures et sur les écritures. Dans les grandes lignes, sans les unes, la migration des autres était bloquée. L’infrastructure d’origine a donc été conservée, dans une approche dual mode, Kafka étant la source primaire et ZooKeeper le backup (utilisé en cas d’absence de données Kafka). Une tâche cron a permis de jauger le niveau de dépendance des applications à ZooKeeper et de prioriser les migrations en conséquence.

Pour les lectures, les principaux éléments évalués côté client furent le délai entre l’envoi d’une requête d’abonnement et la réception des données, les erreurs de résolution de ces requêtes, ainsi que la cohérence entre la data de ZooKeeper et celle de Kafka. Côté observateur, LinkedIn a examiné le type, le nombre et la capacité des connexions clients, le délai entre la réception des requêtes et l’envoi des données vers la file d’attente, ainsi que les taux d’utilisation de ressources.

Pour les écritures, ont principalement été mesurés :

  • Latence et pertes de connexion sur ZooKeeper et kafka
  • Score de similarité des URI entre ZooKeeper et Kafka
  • Délai de propagation du cache (temps entre réception des données et mise à jour du cache)

LinkedIn affirme que 50 % des clients obtiennent désormais les données en moins de 1 seconde et 99 % en moins de 5 secondes. Sur le plan de contrôle ZooKeeper, les latences P50 et P99 étaient respectivement à 10 et 30 secondes.

À consulter en complément, d’autres retex impliquant Kafka et/ou ZooKeeper :

Unification des déploiements de configuration chez Uber
Optimisation des coûts Kafka sur AWS chez Grab
Mise à l’échelle de Kafka chez PayPal
Passage à l’architecture cellulaire chez Slack

Illustration © Danloe – Adobe Stock

The post LinkedIn associe Kafka et gRPC pour la découverte de services appeared first on Silicon.fr.

  •  
❌