Kubernetes : les 17 premières plates-formes « certifiées IA »
Istio et Kueue pour certains, Traefik et Volcano pour d’autres ; parfois Kubeflow, parfois KubeRay, ou les deux… Les fournisseurs de plates-formes Kubernetes ont emprunté divers chemins pour démontrer leur conformité à la « spécification IA » élaborée par la CNCF.
Cette spec définit un ensemble de capacités, d’API et de configurations qu’un cluster certifié « conforme Kubernetes » doit proposer pour exécuter de façon fiable des workloads IA/ML. Principal objectif : éviter une fragmentation qui compromettrait la portabilité.
Un premier tour d’autocertification avec 9 éléments obligatoires
Les travaux avaient officiellement démarré cet été. Une v1 a été publiée depuis et un premier round de certification a été lancé. Plus précisément d’autocertification : le processus est pour le moment déclaratif. Une suite de tests automatisés est censée prendre le relais, mais pas avant 2026.
Beaucoup d’éléments inscrits dans la spécification ne sont, en tout cas pour le moment, pas obligatoires. Parmi eux :
- Assurer que des pilotes compatibles et les configs runtime correspondantes sont correctement installés et maintenus sur les nœuds dotés d’accélérateurs
- Faciliter le tirage de grosses images de conteneurs (par exemple à travers une réplication ou une mise en cache près des nœuds d’exécution)
- Permettre la gestion unifiée de jobs indépendants via un mécanisme gérant les API JobSet
- Autoriser le déploiement de conteneurs confidentiels dans des environnements d’exécution sécurisés (enclaves matérielles)
- Fournir un mécanisme de détection des accélérateurs en erreur, avec éventuellement une remédiation automatisée
9 éléments sont actuellement obligatoires. Dans les grandes lignes :
- Prendre en charge l’allocation dynamique des ressources (DRA)
- Gérer la Gateway API de Kubernetes, dans une implémentation permettant une « gestion avancée » pour les services d’inférence (distribution pondérée du trafic, routage sur la base des en-têtes, intégration avec les maillages de services…)
- Permettre d’installer et d’exploiter au moins une solution de planification des gangs
- Gérer la mise à l’échelle verticale des groupes de nœuds contenant des types d’accélérateurs spécifiques
- Si présent, assurer un fonctionnement correct de l’HorizontalPodAutoscaler pour les pods qui exploitent des accélérateurs
- Exposer, pour les types d’accélérateurs pris en charge, des métriques granulaires, via un endpoint standardisé, et dans un format lisible par la machine (au minimum, taux d’utilisation par accélérateur + occupation mémoire)
- Découverte et collecte de métriques de workloads dans un format standard
- Isolation des accès aux accélérateurs depuis les conteneurs
- Possibilité d’installer et d’exécuter de façon fiable au moins un opérateur IA complexe disposant d’un CRD
Chaque certification vaut pour un an et s’applique à une version spécifique de Kubernetes. En l’état, soit la 1.33 (8 solutions certifiées), soit la 1.34 (11 solutions certifiées).
Les 8 solutions (auto)certifiées sur Kubernetes 1.33
Premier dans l'ordre alphabétique, CoreWeave Kubernetes Services (CKS).
Entre autres commentaires insérés dans sa déclaration de conformité, le "néo-cloud" américain - voir notre article à son sujet - rappelle gérer le planificateur SUNK (Slurm on Kubernetes). Il explique aussi que l'isolation des accès est pour l'instant traitée avec des plug-in, en attendant de passer au DRA lorsque le support fournisseur sera plus mature.
DaoCloud Enterprise n'implémente pas le DRA (il faut dire que les API sont désactivées par défaut sur Kubernetes 1.33, de sorte que la spec n'impose pas la fonctionnalité). Destiné à l'exécution sur site, il ne fournit pas non plus d'autoscaler vertical.
Pour sa plate-forme Gardener, la NeoNephos Foundation (projet de la Fondation Linux Europe) livre une preuve d'implémentation de la Gateway API via Traefik. Et de la planification des gangs via Kueue. L'autoscaling horizontal est géré avec une stack associant Prometheus et DCGM (NVIDIA Datacenter GPU Manager). Comme "opérateur IA complexe", KubeRay a été choisi.
L'entreprise allemande Giant Swarm fournit la plate-forme du même nom. Elle n'a pas ajouté de commentaires à son autocertification. Les renvois vers sa documentation montrent toutefois que Kueue a été sélectionné pour démontrer la conformité sur la partie planification des gangs, et KubeRay en guise d'opérateur IA.
Red Hat est également au rendez-vous, avec la dernière version d'OpenShift (4.20). Lui aussi a opté pour Kueue. Comme opérateur IA, la filiale d'IBM a utilisé Kubeflow Trainer, avec plusieurs CRD (TrainJob, TrainingRuntime, ClusterTrainingRuntime). Elle précise, concernant les métriques d'accélérateurs, propose des opérateurs dédiés pour les GPU AMD en plus des GPU NVIDIA.
SUSE a autocertifié RKE2 (deuxième itération de Rancher Kubernetes Engine). Là aussi sans commentaires supplémentaires, mais avec un renvoi vers une nouvelle section de sa doc consacrée à la conformité vis-à-vis de la spec CNCF. On y découvre que Volcano a été privilégié pour la planification des gangs. Et que pour la collecte de métriques, la solution SUSE AI est mise en avant.
Red Hat a autocertifié un deuxième produit : ROSA (Red Hat OpenShift Service on AWS), dans sa dernière version. Avec, la même base que pour OpenShift, mais des validations spécifiques.
Talos Linux, OS immuable pour Kubernetes, a également été certifié, par son éditeur Sidero Labs. Lequel signale qu'aucun autoscaler vertical spécifique n'est fourni et que le produit n'embarque pas, en standard, d'outils d'observabilité.
Les 11 solutions (auto)certifiées sur Kubernetes 1.34
Premier dans l'ordre alphabétique, ACK (Alibaba Cloud Container Service for Kubernetes). Sa conformité a été démontrée en utilisant à la fois Spark et Ray. Sur la partie métriques, Alibaba a exploité son Prometheus managé.
AKS (Azure Kubernetes Service) a aussi été autocertifié. Microsoft a utilisé Istio, Kueue et DCGM, entre autres. Pour les opérateurs IA, il a fait un choix particulier au-delà de Ray : KAITO (Kubernetes AI Toolchain Operator), projet en sandbox à la CNCF et qui repose sur vLLM.
Baidu a autocertifié sa solution CCE (Cloud Container Engine). Avec Volcano pour l'implémentation Gateway API, du Prometheus managé pour l'autoscaling horizontal... et un déploiement SGLang pour la partie contrôleur IA.
Autocertifié sur Kubernetes 1.33, CKS (CoreWeave Kubernetes Service) l'est aussi sur la version 1.34.
Amazon a essentiellement recouru à ses propres services pour démontrer la conformité d'EKS (Elastic Kubernetes Service). Entre autres, son contrôleur AWS Load Balancer, son planificateur AWS Batch, son outil de supervision CloudWatch et son collecteur de métriques Neuron Monitor.
GKE (Google Kubernetes Engine) est également autocertifié. Comme Amazon, Google met en avant ses propres services... et un tuto, destiné à construire une plate-forme ML associant Ray et Kubeflow.
KKP (Kubermatic Kubernetes Platform) a sa propre stack MLA ("Monitoring Logging & Alerting"), exploitée dans le cadre de son autocertification. Il a aussi son propre contrôleur de passerelle (KubeLB).
Avec LKE (Linode Kubernetes Engine), Akamai a son propre autoscaler vertical. Pour les pods, il passe par l'adaptateur Prometheus. La collecte de métriques relatives aux accélérateurs passe par DCGM. Istio est utilisé comme implémentation référente de la Gateway API.
Istio a aussi été le choix d'Oracle pour démontrer la conformité d'OKE (OCI Kubernetes Engine). On aura noté que pour les métriques de workloads, le groupe américain a son propre projet OCI GPU Scanner, mis à disposition sous licence libre (UPL) et installable soit via Terraform, soit via Helm, soit comme add-on depuis la console OCI.
Autocertifié sur Kubernetes 1.33, Talos Linux l'est aussi sur la version 1.34.
Le dernier dans l'ordre alphabétique est VKS (VMware Kubernetes Service). VMware l'a autocertifié en s'appuyant notamment sur Istio, Kueue, Prometheus, DCGM et KubeRay.
Illustration
The post Kubernetes : les 17 premières plates-formes « certifiées IA » appeared first on Silicon.fr.




