Réalisation d’un corridor de l’hydrogène, réforme du mécanisme d’ajustement carbone aux frontières, élaboration d’une feuille de route commune sur l’espace… Autant d’éléments inscrits dans le programme d’action économique franco-allemand adopté fin août.
On y trouve aussi un engagement à coopérer sur les environnements de travail numériques, les infrastructures et les biens numériques publics.
Sur le premier point, les deux pays expriment essentiellement le vœu d’aligner La Suite Numérique et openDesk pour aller vers un « écosystème commun incluant le secteur privé ». Sur le deuxième, il s’agit notamment de lancer des pilotes autour du portefeuille numérique européen. Le troisième implique, en particulier, des travaux conjoints sur la mise en œuvre d’un consortium pour les communs numériques : DC-EDIC.
La Commission européenne vient d’approuver la création de cette structure dont la France et l’Allemagne sont fondatrices aux côtés des Pays-Bas et de l’Italie. Belgique, Luxembourg, Pologne et Slovénie participent en tant qu’observateurs. Le lancement officiel est prévu le 11 décembre 2025, avec un siège statutaire à Paris.
Un deuxième EDIC basé en France
Le mécanisme de l’EDIC (European Digital Infrastructure Consortium) a été institué parallèlement au programme politique 2030 pour la décennie numérique. Il est censé « fournir un cadre juridique pour investir dans des projets multinationaux qui, compte tenu de leur ampleur, ne peuvent être mis en place efficacement par un seul État membre ». Dit autrement, permettre la mise en commun de ressources pour développer des infrastructures numériques.
Trois EDIC sont pour le moment établis : CitiVERSE, EUROPEUM-EDIC et ALT-EDIC.
CitiVERSE, basé à Valence (Espagne), se focalise sur les jumeaux numériques pour la planification urbaine. Il réunit 14 pays dont la France. Son objectif : fédérer 100 villes à l’horizon 2026.
EUROPEUM-EDIC est censé poursuivre les activités du Partenariat blockchain européen en étendant l’écosystème et les cas d’usage de l’EBSI (European Blockchain Services Infrastructure).
ALT-EDIC (Alliance for Language Technologies) est basé en France, à Villers-Cotterêts, dans le château qui abrite la Cité internationale de la langue française. Nous avions évoqué son cas en début d’année, lorsque débutait le projet OpenEuroLLM, qu’il coordonne.
La promesse du guichet unique
Les jalons de DC-EDIC avaient été posés mi-2024 avec la soumission d’une prénotification à la Commission européenne. L’Italie n’était pas encore dans la boucle – l’Estonie l’était, en revanche. Les principaux objectifs étaient alors déjà définis. En l’occurrence :
Construire une communauté européenne pour les communs numériques
Création d’un partenariat « public-civique », organisation d’événements et de réseautage, promotion des communs numériques.
Faciliter le financement de projets
Constituer un guichet unique, accompagner les levées de fonds, coordonner les appels à propositions.
Soutien au développement, à la maintenance et à la mise à l’échelle
Aide technique et juridique, fourniture de ressources (hébergement, forge, installations de test/expérimentation).
Participation à des projets de communs numériques
Les documents fondateurs de DC-EDIC furent signés en juillet 2025.
À consulter en complément, un récent point d’étape sur quelques projets lauréats, en France, de l’appel à projets « Communs numériques pour l’IA générative ».
Un an après l’annonce de son lancement, Amazon Web Services (AWS) a annoncé la mis en service de Rainier, son cluster de calcul haute performance, dont l’infrastructure est répartie sur plusieurs centres de données aux États-Unis.
Le projet s’appuie sur les puces Trainium2, développées en interne par Amazon pour l’apprentissage automatique. Environ 500 000 unités sont intégrées dans la première phase du cluster, interconnectées via un réseau à très faible latence destiné à optimiser les échanges entre nœuds de calcul.
AWS met en avant la scalabilité et la résilience multi-site de l’ensemble. Le cœur du dispositif se situe dans l’État de l’Indiana, où Amazon investit plus de 11 milliards $ dans un centre de données de nouvelle génération. D’autres installations complémentaires sont prévues sur plusieurs sites américains afin d’assurer la continuité de service et la répartition de la charge.
Anthropic, premier utilisateur du cluster
Le principal client identifié est Anthropic, concepteur du LLM Claude, qui exploitera Rainier pour l’entraînement de ses modèles de grande taille, avec un objectif d’utilisation de plus d’un million de puces Trainium2 d’ici fin 2025.
Avec Rainier, Amazon renforce son positionnement dans le cloud haute performance et les infrastructures d’IA. Le groupe entend se placer comme un fournisseur clé d’environnement d’entraînement à grande échelle, aux côtés des autres hyperscalers qui développent également leurs propres architectures dédiées.
Imaginez : votre contrat client démarre le 15 du mois. Mais vos licences VMware débutent le 1er. Vous vous retrouvez donc à payer pour deux semaines où vous ne générez pas de revenus.
Le CISPE regrette que les fournisseurs cloud – dont il défend les intérêts en Europe – soient désormais confrontés à cette situation. Il en fait part dans un rapport à charge contre Broadcom.
La rumeur du kill switch
C’est le troisième rapport du genre. Il est dans la lignée des précédents : voyants au rouge, absence d’avancées concrètes.
Entre résiliations unilatérales de contrats, hausses de prix et changements structurels au sein du programme partenaires, le cahier de doléances était déjà fourni. Il n’a pas désempli et s’est même étoffé.
La rigidité sur les dates de début et de fin des licences VMware fait partie des nouveaux points dénoncés.
Le CISPE craint une autre restriction de flexibilité : la fin du modèle qui permet aux CSP d’exploiter des cœurs supplémentaires ensuite payés en arriérés.
Il va jusqu’à évoquer les rumeurs sur un « kill switch« grâce auquel Broadcom pourrait dégrader les fonctionnalités des solutions VMware si les clients ou les fournisseurs ne lui communiquent pas de données d’utilisation dans les formats et délais requis.
Le nouveau programme VCSP passe mal
Depuis la publication du rapport précédent (fin mai), Broadcom a officialisé la refonte de son programme VCSP (VMware Cloud Service Provider). Sans clarifier si elle s’appliquera en Europe.
Cette refonte prendra effet début novembre. À partir de là, les clients ne pourront pas porter leurs licences existantes vers un autre CSP, assure le CISPE. Les fournisseurs cloud qui ne feront pas partie du programme ne pourront plus héberger de solutions VMware – ils ne pourront que revendre des licences. Pour ceux qui en feront partie, ce sera l’inverse. Bilan : il leur faudra choisir entre les rôles de revendeur et de fournisseur de services, même s’ils ont des contrats sur les deux fronts.
Au fil des rapports, le ton est devenu plus emphatique. Le CISPE déclare désormais que les CSP qui dépendent de VMware pour délivrer leurs services font face à un « choix impossible ». Il leur faut « soit accepter des hausses de prix draconiennes et un verrouillage sur le long terme, soit se lancer dans des transitions longues, chères et potentiellement désastreuses vers d’autres fournisseurs ». Il n’existe, ajoute-t-il, pas d’alternative pour certains workloads, certifiés exclusivement pour VMware.
Pénalités, délais, privacy… Les desiderata du CISPE
En l’état, le CISPE exprime les souhaits suivants :
Restauration de relations commerciales justes et prévisibles
Par exemple, par un préavis de 6 mois minimum pour tout changement contractuel ou tarifaire dans le cadre de renouvellements.
Amélioration du support pour les « petits » CSP
Entre autres, avec au moins 6 mois supplémentaires pour s’engager en marque blanche.
Davantage de flexibilité pour les « plus gros » CSP
Avec des modèles éligibles aux réductions sur volume, un prix juste lors des pics d’utilisation, des plafonds d’usage étendus et la suppression des pénalités en cas de sous-utilisation.
Accès plus simple aux échelons supérieurs du programme partenaires pour les « petits » CSP
Permettre aux CSP de ne pas divulguer certaines données relatives aux clients finaux (usage spécifique des cœurs, données sur les workloads)
Remédier aux augmentations de coûts résultant du regroupement d’offres
Constatant son impuissance, l’association a saisi, en juillet, le Tribunal de l’UE, pour tenter de faire annuler le rachat de VMware.
Nvidia a franchi un nouveau cap historique, ce mercredi 29 octobre, en devenant la première société cotée en bourse à atteindre une capitalisation de 5 000 milliards $. Cette progression reflète son essor spectaculaire depuis l’émergence de l’IA générative et sa transformation d’un fabricant de puces graphiques de niche en acteur central de l’industrie mondiale de l’IA.
Son CEO, Jensen Huang, a révélé des commandes de puces d’une valeur de 500 milliards $ et annoncé la construction de sept supercalculateurs pour le gouvernement américain. Les discussions prévues entre le président américain Donald Trump et le président chinois Xi Jinping incluront également sa puce Blackwell, dont les ventes sont limitées par les contrôles à l’exportation américains.
Nvidia décolle avec le lancement de ChatGPT
Depuis le lancement de ChatGPT en 2022, le cours de l’action Nvidia a été multiplié par douze, accompagnant la progression du S&P 500 vers des niveaux record et suscitant des débats sur la possibilité d’une surévaluation du secteur technologique. La capitalisation actuelle dépasse celle du marché total des cryptomonnaies et représente environ la moitié de la valeur de l’indice européen Stoxx 600.
À la valorisation actuelle, la participation de Jensen Huang serait estimée à environ 179,2 milliards $ ce qui en ferait la huitième personne la plus riche au monde selon Forbes. Né à Taïwan et installé aux États-Unis dès l’âge de neuf ans, Huang dirige Nvidia depuis sa création en 1993.
Les analystes estiment que la hausse reflète la confiance des investisseurs dans la croissance continue des dépenses en IA, tout en mettant en garde contre des valorisations potentiellement élevées. « L’expansion actuelle de l’IA repose sur quelques acteurs dominants qui financent la capacité de chacun. Dès que les investisseurs demanderont des retours sur flux de trésorerie plutôt que des annonces de capacité, certains mécanismes pourraient s’interrompre », souligne Matthew Tuttle, PDG de Tuttle Capital Management, cité par Reuters.
La position dominante de Nvidia a également attiré l’attention des régulateurs mondiaux, les restrictions américaines sur les puces avancées en faisant un outil stratégique pour limiter l’accès de la Chine à certaines technologies IA.
L’association représentative des CSP européens ne mâche pas ses mots au sujet de ce document qui doit servir de référence pour la commande publique de services cloud au niveau de l’UE. Elle y voit une porte grande ouverte aux hyperscalers étrangers.
Le Cigref et Gaia-X comme références
Le Cloud Sovereignty Framework doit fournir une grille de lecture « souveraine », articulée en 8 objectifs. Sa première mise en application est censée se faire dans le cadre d’un appel d’offres à 180 M€. Lequel permettra aux institutions, organes, bureaux et agences de l’UE d’acheter ses services IaaS et PaaS pour 6 ans. Jusqu’à 4 fournisseurs obtiendront un contrat (attribution prévue entre décembre 2025 et février 2026).
La Commisison européenne dit s’être inspirée du référentiel cloud de confiance du Cigref, des règles de Gaia-X et du cadre européen de certification de cybersécurité (NIS 2 et DORA sont cités). Elle évoque aussi les stratégies nationales « comme en France et en Allemagne ». Ainsi que les pratiques internationales en matière de contrôle des exportations, de résilience des chaînes d’approvisionnement et d’audits de sécurité.
Les 8 objectifs du Cloud Sovereignty Framework
Nous reprenons ci-dessous les 8 objectifs du Cloud Sovereignty Framework et les principaux enjeux qui les sous-tendent, tels que formulés.
Souveraineté stratégique
Les organismes ayant la décision finale sur les services sont soumis à une juridiction européenne.
Garanties contre le changement de contrôle
Degré de dépendance du fournisseur à des financements de sources européennes
Niveau d’investissement, de création d’emploi et de valeur dans l’UE
Implication dans des initiatives européennes (cohérence avec les objectifs de souveraineté numérique et industrielle définis par l’UE)
Capacité à maintenir une exploitation sécurisée en cas d’injonction à suspendre ou cesser la fourniture du service
Souveraineté légale et juridictionnelle
Juridiction nationale gouvernant les activités et les contrats du fournisseur
Degré d’exposition à des lois extraterritoriales non européennes à portée transfrontalière
Existence de canaux juridiques, contractuels ou techniques par lesquels des autorités non européennes pourraient obtenir un accès aux données ou aux systèmes
Applicabilité de régimes internationaux qui pourraient restreindre l’usage ou le transfert
Juridiction où la propriété intellectuelle est créée, déposée et développée
Souveraineté des données et de l’IA
Le client seul a un contrôle effectif sur l’accès cryptographique à ses données.
Visibilité sur les accès aux données et sur l’usage des modèles d’IA ; mécanismes garantissant une suppression irréversible, avec preuves vérifiables
Confinement strict du stockage et du traitement dans des juridictions européennes, sans repli vers des pays tiers
Niveau de dépendance à des stacks technologiques non européennes (mesure dans laquelle les modèles d’IA et les pipelines de données sont développés, entraînés et hébergés sous contrôle européen)
Souveraineté opérationnelle
Facilité de migration des workloads ou d’intégration avec des solutions alternatives européennes
Capacité de gestion, maintenance et support sans implication de fournisseurs non européens
Disponibilité de compétences dans l’UE
Support opérationnel depuis l’UE et soumis exclusivement à des cadres juridiques européens
Documentation technique complète, code source et ressources pour permettre une autonomie sur le long terme
Localisation et contrôle juridique des fournisseurs et/ou des sous-traitants critiques
Souveraineté de la chaîne d’approvisionnement
Origine géographique des composants physiques clés, lieu de fabrication
Provenance du code embarqué contrôlant le matériel
Origine du logiciel (où et par qui est-il programmé ? quelle(s) juridiction(s) gouverne(nt) le packaging, la distribution et les mises à jour ?)
Degré de dépendance à des fournisseurs, usines ou technologies propriétaires non européens
Souveraineté technologique
API ou protocoles bien documentés et non propriétaires ; adhésion à des standards de gouvernance largement adoptés
Logiciels accessibles sous des licences ouvertes, avec droits d’audit, de modification et de redistribution
Visibilité sur la conception et le fonctionnement du service (dont documentation de l’architecture, des flux de données et des dépendances)
Souveraineté de la sécurité et de la conformité
Certifications européennes et internationales
Adhérence au RGPD, à la NIS 2, à DORA et à d’autres cadres européens
SOC et équipes de réponse foncitonnant exclusivement sous juridiction européenne ; contrôle direct de la supervision et de la journalisation par des acteurs européens (clients ou autorités)
Signalement transparent et dans des délais raisonnables pour les failles et les vulnérabilités ; capacité à développer, tester et appliquer des correctifs sans dépendance à des fournisseurs non européens
Capacité, pour des entités européennes, d’effectuer des audits indépendants de sécurité et de conformité
Soutenabilité environnementale
Efficacité énergétique des infras (PUE bas) et objectifs d’amélioration mesurables
Divulgation transparente des émissions carbone, de l’usage d’eau et d’autres indicateurs
Approvisionnement en énergies renouvelable ou bas carbone
5 échelons de garantie
Sur chaque objectif, on détermine un niveau d’assurance entre 5 échelons :
0 (pas de souveraineté)
Service, technologie ou activité sous le contrôle exclusif de tiers non européens entièrement soumis à des juridictions non européennes.
1 (« souveraineté juridictionnelle »)
La législation de l’UE s’applique, mais son exécution est limitée en pratique.
Service, technologie ou activité sous le contrôle exclusif de tiers non européens.
2 (« souveraineté des données »)
La législation de l’UE est applicable et exécutoire.
D’importantes dépendances demeurent (service, technologie ou activité sous contrôle indirect de tiers non européens).
3 (« résilience numérique »)
La législation de l’UE est applicable et exécutoire.
Les acteurs européens exercent une influence significative mais pas totale (service, technologie ou activité sous contrôle marginal de tiers non européens).
4 (« souveraineté numérique complète »)
Technologie et activité sous contrôle européen total, sujettes seulement à la législation de l’UE, avec aucune dépendance critique à du non européen.
« On ne peut pas être souverain à 75 %«
En complément au niveau d’assurance, on calcul un « score de souveraineté », avec une pondération par objectif :
Souveraineté stratégique : 15 %
Souveraineté légale et juridictionnelle : 10 %
Souveraineté des données et de l’IA : 10 %
Souveraineté opérationnelle : 15 %
Souveraineté de la supplychain : 20 %
Souveraineté technologique : 15 %
Sécurité/conformité : 10 %
Environnement : 5 %
Cette pondération prend en compte le fait que la procédure de commande contient déjà des garde-fous importants dans certains domaines, comme la souveraineté juridique et la sécurité/conformité, précise Bruxelles.
Le CISPE estime qu’un tel système créant une « moyenne de moyennes » ne favorise pas la transparence. L’association regrette par ailleurs la présence d’objectifs « inatteignables » (contrôle européen complet sur tous les composants matériels) et d’idées « vagues » (garanties sur le changement de contrôle). « On ne peut pas être souverain à 75 %, ajoute-t-elle : on l’est ou on ne l’est pas, comme un aliment est bio ou pas« .
EuroStack avance son propre framework
À l’instar du CISPE, l’initiative industrielle EuroStack se demande dans quelle mesure un fournisseur mal noté sur les deux premiers critères pourait se rattraper sur les autres. Elle rappelle avoir récemment publié sa propre proposition de framework, et souligne les différences avec celui de la Commission européenne. Parmi elles :
Contrôle et juridiction
EuroStack a adopté une approche « séquentielle » : le contrôle juridictionnel est un prérequis non négociable, avec des critères « précis et auditables » (localisation de l’ultime entité mère, seuil de droits de vote…).
Technologie et ouverture
Chez EuroStack, pour gagner des points sur la dimension technique, le service doit être basé sur du logiciel open source. Et il doit permettre, au-delà des API ouvertes, la réversibilité opérationnelle (possibilité de reprise d’exploitation par un tiers).
Contrôle et protection des données
EuroStack revendique des critères plus explicites et rigoureux. Son framework précise notamment que le stockage et le traitement dans l’UE doivent englober les métadonnées, les sauvegardes et les logs.
Contrôle opérationnel
Sur ce volet, les critères sont dits plus spécifiques et quantitatifs. En particulier, ils identifient le plan de contrôle comme un composant critique et en exigent la localisation dans l’UE. Il imposent par ailleurs que 100 % du personnel disposant d’accès à privilèges soit sous juridiction européenne.
Contribution économique et création de valeur
Le framework d’EuroStack précise que la majorité des dépenses et du personnel R&D sur le cœur technologique doit être localisée dans l’UE.
Deloitte, qui a un partenariat avec AWS, avance les choses différemment. Il envisage un framework à 4 couches (opérations, data, logiciel/infra, sécurité)… et affirme que l’offre AWS Sovereign Cloud y répond (isolation physique et logique, exploitation indépendante, support technique par des résidents de l’UE, etc.).
Hexadone a aussi réagi… pour mettre en avant l’intérêt de ses prestations (valorisation des données territoriales). La coentreprise Orange-Banque des territoires juge que le pilier data et IA du Cloud Sovereignty Framework reste focalisé sur les aspects techniques et juridiques. Alors que la souveraineté des territoires repose aussi – « et surtout » – sur la manière dont les données sont produites, partagées et gouvernées. « La vraie souveraineté ne consiste pas seulement à héberger des fichiers en Europe, mais à garder la main sur leur sens, leur usage, leur impact« , explique-t-elle.
En achevant sa transformation en public benefit corporation (PBC), un statut hybride qui combine finalité lucrative et mission d’intérêt général, OpenAI redéfinit la nature du lien avec Microsoft, son principal partenaire depuis 2019.
Après une négociation de près d’un an, l’accord accorde à Microsoft une participation de 27 % du capital, valorisée environ 135 milliards $, dans une entreprise estimée à près de 500 milliards $. Mais contrairement à d’autres prises de participation stratégiques, celle-ci ne confère aucun pouvoir de contrôle.
La création d’un nouvel ensemble, OpenAI Group PBC, permet désormais à l’inventeur de ChatGPT d’attirer des investisseurs tout en restant placée sous la supervision d’une structure à but non lucratif, la OpenAI Foundation, qui conserve 26 % du capital et le droit exclusif de nommer les administrateurs du conseil d’administration.
Fin de l’exclusivité pour Microsoft
Le partenariat entre les deux entreprises reposait jusqu’ici sur un modèle d’exclusivité : OpenAI hébergeait ses modèles sur le cloud Azure de Microsoft, qui disposait en retour d’un droit de premier refus sur toute collaboration future et d’un pouvoir de veto sur certaines opérations financières.
Ces clauses ont été supprimées. OpenAI pourra désormais faire appel à d’autres fournisseurs de cloud, y compris Google Cloud, Amazon Web Services ou Oracle, tout en maintenant un engagement contractuel d’investir 250 milliards $ sur Azure au cours des prochaines années, sans plus de précision.
Pour Microsoft, cette perte d’exclusivité s’accompagne de solides contreparties. Le groupe de Redmond conservera un accès garanti aux modèles et technologies d’OpenAI jusqu’en 2032, y compris à d’éventuels systèmes d’intelligence artificielle générale (AGI), et percevra 20 % des revenus de la société tant qu’un comité d’experts indépendants n’aura pas confirmé l’atteinte de ce seuil.
Public Benefit Corporation, c’est quoi ?
Créé aux États-Unis, le statut de public benefit corporation (PBC) impose aux dirigeants de prendre en compte, en plus de l’intérêt des actionnaires, celui du public et des parties prenantes.
Pour OpenAI, ce modèle permet de lever des capitaux privés tout en maintenant une obligation statutaire de poursuivre un objectif éthique : garantir que l’IA serve l’intérêt général.
Une gouvernance rééquilibrée
L’un des enjeux majeurs de la restructuration concerne la gouvernance. Les procureurs généraux du Delaware et de Californie ont approuvé le montage après avoir obtenu des garanties sur la primauté de la sécurité et de la mission caritative dans les statuts.
La fondation, rebaptisée OpenAI Foundation, est désormais la gardienne de cette mission.
Elle prévoit d’utiliser une partie de sa participation, valorisée environ 130 milliards $ pour financer des projets de recherche médicale et des programmes destinés à renforcer la sûreté des modèles d’IA.
Sam Altman, cofondateur et directeur général, a déclaré vouloir faire de la fondation « la plus grande organisation à but non lucratif au monde ». A titre de comparaison, la Fondation Gates qui figure dans le top 3 mondial disposait d’une dotation estimée à environ 77,2 milliards $ fin 2024 .
Gouvernance : la mission contre le capital
La fondation conserve le droit de nommer le conseil d’administration, mais reste minoritaire au capital.
Sa capacité à imposer des décisions contraires aux intérêts économiques des actionnaires sera l’un des tests-clés du modèle PBC appliqué à une entreprise technologique de cette envergure.
Microsoft, partenaire stratégique mais pas dominant
La nouvelle configuration transforme Microsoft en allié stratégique plutôt qu’en actionnaire dominant.
L’entreprise de Redmond conserve un accès privilégié à la technologie d’OpenAI et reste un investisseur de poids, mais sa capacité d’intervention directe est désormais limitée.
Cette évolution met fin à plusieurs mois de tensions : OpenAI souhaitait plus de souplesse pour diversifier ses partenariats, tandis que Microsoft cherchait à sécuriser l’accès à la technologie qu’elle intègre dans ses produits Copilot et Office 365.
Concurrence : un partenariat sous surveillance
La fin de l’exclusivité Azure pourrait atténuer la pression réglementaire.
Aux États-Unis comme en Europe, les autorités examinent les alliances entre grands groupes du cloud et start-up d’IA pour vérifier qu’elles ne faussent pas la concurrence.
En se repositionnant comme partenaire, Microsoft évite de tomber sous le coup d’un contrôle de type « prise de contrôle déguisée ».
Vers l’autonomie financière et une future IPO
Le passage au statut de PBC ouvre aussi la voie à de nouvelles levées de capitaux. Les investisseurs historiques — SoftBank, Thrive Capital, Andreessen Horowitz ou Sequoia — peuvent désormais détenir de véritables actions.
Cette ouverture permettra à OpenAI de financer la prochaine génération de modèles d’IA, dont les coûts de développement se chiffrent déjà en dizaines de milliards de dollars.
Une introduction en bourse est même désormais envisagée à moyen terme, même si Sam Altman affirme qu’aucune échéance n’est fixée.
La relation entre Microsoft et OpenAI entre ainsi dans une phase de coopétition maîtrisée : les deux entreprises demeurent partenaires sur les modèles et produits, mais poursuivent aussi des stratégies de développement distinctes.
Microsoft continue à investir dans ses propres technologies et à collaborer avec d’autres acteurs de l’IA, notamment Anthropic, pour ses outils Copilot.
OpenAI, de son côté, consolide sa position d’acteur indépendant capable de négocier à égalité avec les géants du numérique.
Avec l’essor des architectures cloud hybrides, jamais la surface d’attaque n’a été aussi grande. Cette évolution pousse les RSSI à adapter les moyens de protection, mais aussi la DSI à revoir la façon dont sont gérées les identités dans l’entreprise, qu’il s’agisse des identités des utilisateurs, des clients, mais aussi des machines.
25 milliards $, c’est la somme record que le généraliste de la cybersécurité Palo Alto Networks va mettre sur la table pour prendre le contrôle de CyberArk, un expert de la gestion des identités. Cette acquisition montre l’importance prise par les identités sans la sécurisation de systèmes d’information de plus en plus hybridés avec le Cloud public. L’identité est la clé de voûte de ces architectures.
« L’offre de CyberArk se distingue par son approche holistique de la gestion des identités, couvrant non seulement la gestion des accès privilégiés mais aussi toutes les facettes de la gestion des identités, humaines et non humaines. Nous sommes un acteur capable de gérer des environnements complexes à grande échelle, contrairement à des concurrents qui peuvent être plus spécialisés ou moins évolutifs. » détaille Jean-Christophe Vitu, vice-president et solutions engineer EMEA de CyberArk.
Le renouvellement des solutions « legacy » est lancé
Ce point d’inflexion va s’accompagner d’un renouvellement des plateformes de gestion d’identité déployées à grand peine dans les années 2010.
« De nombreux systèmes hérités n’ont tout simplement pas été conçus pour la façon dont les gens travaillent aujourd’hui » estime Allan Camps, Senior Enterprise Account Executive chez Keeper Security, éditeur d’une solution de gestion de mots de passe et de PAM : « Les entreprises doivent composer avec des environnements cloud, des équipes hybrides et un nombre croissant de terminaux. Les outils sur site manquent souvent de la flexibilité et de la visibilité dont les organisations modernes ont besoin, sans parler des fonctionnalités de sécurité nécessaires pour faire face au paysage dynamique des menaces actuelles. »
Les anciennes solutions d’IAM (Identity and Access Management) non conçues pour le Cloud vont laisser la place à des solutions SaaS natives, ce qui va booster ce marché dans les années à venir.
Le français Memority s’inscrit dans cette nouvelle génération de plateformes avec ce que l’éditeur appelle une Identity Factory : « Il s’agit d’une solution unifiée permettant d’automatiser et d’orchestrer toutes les typologies d’identités et contrôler les accès de manière sécurisée, fluide et conforme » argumente Gilles Casteran, CEO et cofondateur de Memority.
La plateforme Memority gère les identités et les habilitations et permet d’authentifier et de contrôler l’accès à l’ensemble des services, quels que soient les cas d’usage et le type de population (B2E, B2B, B2C et B2IoT).
La montée en puissance des identités non-humaines
Un autre levier de renouvellement des plateformes IAM historiques consiste à faire face aux NHI, les Non-Human Identity. Jean-Christophe Vitu explique : « Les identités machines sont aujourd’hui 82 fois nombreuses que les identités humaines au sein des entreprises, or ces identités sont encore mal connues et non contrôlées. 42 % d’entre elles disposent d’un accès sensible ou à privilèges et 77 % des entreprises n’ont pas mis en place de contrôles de sécurité de ces identités. »
Ces NHI sont d’ores et déjà critiques de par les privilèges qui leur sont octroyés et l’arrivée des IA agentiques ne fera que rendre leur importance capitale pour le fonctionnement quotidien des entreprises. Frédéric Cluzeau, président de Hermitage Solutions rejoint Jean-Christophe Vitu sur ce point : « Ces NHI, qu’il s’agisse de comptes de services, des clés APIs, d’agents IA et de containers peuvent disposer de droits d’accès et de privilèges très importants sur les données, sans être forcément contrôlées aussi strictement que les identités correspondant à des utilisateurs. » Le distributeur pousse la plateforme Segura une solution de gestion des identités qui a pu démontrer l’efficacité de sa plateforme lors de l’exercice Locked Shields de l’OTAN.
Parmi les grandes tendances qui poussent au remplacement des plateformes de gestion des identités figurent ces identités non humaines, la tendance à la plateformisation et bien entendu l’IA qui a un rôle à jouer, notamment pour détecter les comportements atypiques et aller vers une sécurisation plus proactive des accès et des privilèges.
La plupart des documents sont conçus pour être lus par des humains. Partant, ils peuvent être analysés de façon plus approfondie par des modèles de vision que par des modèles de langage.
Le projet Colette repose sur ce postulat. Cofinancé par Airbus, le CNES et la société toulousaine Jolibrain, il a produit un logiciel open source de déploiement de LLM avec une brique de RAG visuel (tous les documents sont transformés et analysés sous forme d’images).
Colette s’appuie sur une architecture qui a ses racines à CentraleSupélec : ColPali. Présentée début 2025, elle met à profit un VLM entraîné pour indexer des documents purement à partir de leurs caractéristiques visuelles.
ColPali se retrouve aussi, entre autres, chez Morphik. Cette start-up Y Combinator a focalisé son offre sur le RAG. Elle a amélioré les performances en exploitant la méthode MUVERA – qui permet de contourner l’approche multivectorielle de ColPali – et la base de données vectorielle Turbopuffer.
DeepSeek-OCR : la modalité image comme moyen de compression
DeepSeek étudie également cet aspect. Il y a récemment consacré un article scientifique, sous un angle particulier : la modalité vision comme moyen de compresser l’information textuelle.
Ses travaux se matérialisent avec l’architecture DeepSeek-OCR. En son centre, DeepEncoder, qui encode les documents sous forme « tokens image ». Il exploite un modèle SAM (segmentation avec attention locale par fenêtre) et un modèle CLIP (attention globale). Avec, entre les deux, un module de convolutionnel de sous-échantillonnage.
DeepEncoder compte environ 380 millions de paramètres (80 pour le SAM, 300 pour le CLIP). Il gère deux modes d’entrée. D’un côté, la résolution native (4 modes : Tiny et Small, où les images sont directement redimensionnées ; Base et Large, où on utilise du padding pour préserver le ratio d’origine). De l’autre, la résolution dynamique (combinaison de deux résolutions natives ; Gundam, par exemple, associe du 640 x 640 en attention locale et du 1024 x 1024 en attention globale).
Le décodage est dévolu à un modèle DeepSeek MoE 3B à 570 millions de paramètres actifs (6 experts actifs sur 64 + 2 experts partagés).
On a d’abord entraîné DeepEncoder, puis DeepSeek-OCR dans son ensemble, à partir de deux jeux de données. L’un comprenant des PDF dans une centaine de langues avec éventuellement des images intégrées. L’autre axé sur des éléments spécifiques : graphes, formules chimiques, figures géométriques planes…
La perspective d’un mécanisme d’oubli graduel
DeepSeek-OCR a notamment été mis à l’épreuve sur un sous-ensemble du benchmarkFox. En l’occurrence, des documents en anglais comprenant de 600 à 1300 tokens texte. C’est de là que DeepSeek tire les principaux indicateurs de performance qu’il annonce en introduction de son article.
Avec un rapport de compression de 9-10x (1 token image pour 9 ou 10 tokens texte), le décodeur avoisine 97 % de précision OCR. Au-delà, les performances baissent (90 % à 10-12x, 60 % à 20x). DeepSeek y voit deux raisons. D’une part, le rapport entre la longueur des documents et la complexité de leur disposition. De l’autre, le fait qu’aux résolutions les plus basses (Tiny et Small), les textes longs deviennent « flous ».
Le premier élément peut être résolu par un rendu sur une page à disposition unique, estime DeepSeek. Le second peut être mis à profit pour reproduire une forme de mécanisme d’oubli : l’historique « froid » serait converti en images qui seraient ensuite progressivement compressées.
L’approche est, globalement, d’autant plus intéressante qu’elle n’occasionne pas de surcharge (les systèmes multimodaux exigent intrinsèquement un encodeur de vision).
Des diapos aux journaux, la nécessité de plusieurs modes d’encodage
En « conditions réelles » (OmniDocBench), DeepSeek retient que :
Le mode Small (100 tokens) produit de meilleurs résultats que GOT-OCR2.0 avec 2,5 fois moins de tokens.
Le mode Large (400 tokens) est au niveau des modèles OCR à l’état de l’art.
Avec moins de 800 tokens, la méthode Gundam s’en sort mieux que MinerU2.0 avec environ 7000 tokens.
Certaines catégories de documents nécessitent peu de tokens pour un résultat satisfaisant. Les diapositives, par exemple (64 tokens suffisent). Pour les livres et les rapports, 100 tokens est l’idéal. Avec les journaux (4000 à 5000 tokens), le mode Gundam, voire Gundam-master, est nécessaire.
DeepSeek annonce que son architecture est capable de générer 33 millions de pages de données par jour en utilisant 20 nœuds de 8 GPU A100-40G.
Microsoft et OpenAI viennent de conclure un accord majeur dans l’histoire de leur collaboration initiée en 2019 permettant à au créateur de ChatGPT d’adopter le statut de Public Benefit Corporation (PBC), soit une société à but lucratif encadrée par une mission d’intérêt public.
Dans cette nouvelle configuration, Microsoft détiendra une participation d’environ 27 % dans OpenAI Group PBC, valorisée à 135 milliards $, selon les informations fournies par les deux entreprises.
Le nouvel accord prolonge et redéfinit les droits de propriété intellectuelle (PI) entre les deux entreprises. Microsoft conserve son statut de partenaire exclusif pour les modèles de pointe développés par OpenAI, ainsi que l’exclusivité d’hébergement sur la plateforme Azure, jusqu’à la reconnaissance formelle d’une intelligence artificielle générale (AGI).
Restructuration et participation de Microsoft
La déclaration d’atteinte de l’AGI par OpenAI devra désormais être vérifiée par un panel d’experts indépendants. Les droits de Microsoft sur les modèles et produits d’OpenAI sont étendus jusqu’en 2032, contre 2030 précédemment, et continueront de s’appliquer même si l’AGI est validée avant cette date. Ces droits incluent les modèles post-AGI, sous réserve de garde-fous de sécurité.
Les droits de Microsoft sur la recherche (méthodes de développement internes et données confidentielles) expireront à la date de validation de l’AGI ou en 2030, selon la première de ces échéances. Ces droits ne couvrent pas l’architecture des modèles, les poids, le code d’inférence, le code de fine-tuning ni les infrastructures matérielles et logicielles de centres de données.
L’accord ouvre la voie à une coopération plus flexible. OpenAI pourra désormais développer certains produits avec des partenaires tiers. Les produits d’API issus de ces collaborations resteront exclusifs à Azure, tandis que les produits non liés à des API pourront être hébergés sur d’autres clouds.
Microsoft pourra également poursuivre de manière indépendante ses recherches vers l’AGI, seul ou avec d’autres partenaires. Si l’entreprise utilise la propriété intellectuelle d’OpenAI pour ce développement avant la reconnaissance formelle de l’AGI, elle devra respecter des limites de capacité de calcul prédéfinies.
Enfin, l’accord prévoit qu’OpenAI achètera pour 250 milliards $ de services Azure supplémentaires. En contrepartie, Microsoft renonce à son droit de premier refus pour fournir les services de calcul de l’entreprise.
Le partage de revenus entre les deux sociétés demeure en vigueur jusqu’à la validation de l’AGI, avec des paiements étalés sur une période plus longue. OpenAI est désormais autorisée à fournir des services API à des clients du gouvernement américain, y compris pour des usages liés à la sécurité nationale, sans exclusivité d’hébergement.
L’entreprise pourra également publier des modèles « Open Weight » répondant à des critères de sécurité et de capacité déterminés.
ChatGPT poursuit son évolution comme écosystème de commerce agentique intégré avec un nouvel accord passé avec PayPal qui prévoit l’intégration du protocole Agentic Commerce Protocol (ACP), conçu pour permettre des transactions instantanées au sein de ChatGPT. Cette technologie doit relier le réseau mondial de commerçants de PayPal à la plateforme d’OpenAI, rendant leurs produits visibles et achetables via l’assistant conversationnel.
Selon PayPal, cette intégration facilitera la recherche, la comparaison et l’achat de produits directement dans ChatGPT, sans passer par un site marchand tiers. Le portefeuille PayPal offrira plusieurs moyens de paiement — solde, compte bancaire ou carte — ainsi que les protections habituelles pour acheteurs et vendeurs. PayPal gérera également le traitement des paiements par carte via son interface API déléguée.
Aucune information n’est communiquée sur le montant de cet accord.
Extension de l’écosystème de commerce dans ChatGPT
Dès 2026, le protocole ACP permettra à des millions de marchands utilisant PayPal — petites entreprises comme grandes marques — de rendre leurs catalogues accessibles dans ChatGPT. Le système reposera sur un serveur ACP géré par PayPal, garantissant la conformité, la validation des paiements et la gestion du routage vers les commerçants.
Outre PayPal, plusieurs autres solutions de paiement sont déjà intégrées ou en cours de déploiement dans ChatGPT, dont Stripe, partenaire technique central du protocole ACP, ainsi que Apple Pay, Google Pay, Visa, Mastercard et American Express. Certaines plateformes e-commerce, comme Shopify ou Etsy, utilisent leurs propres systèmes de paiement compatibles.
Au-delà du commerce, PayPal prévoit d’élargir l’usage des technologies d’OpenAI pour ses opérations internes : ChatGPT Enterprise auprès de ses plus de 24 000 employés et Codex pour ses équipes d’ingénierie, dans le but d’accélérer le développement de produits et d’améliorer les outils internes.
Des disques durs d’occasion vendus comme s’ils étaient neufs : de là est parti ce qu’on a fini par appeler « l’affaire Seagate« .
Cette pratique frauduleuse n’a rien de nouveau. Mais dans le cas présent, elle a pris une ampleur notable, les témoignages de victimes affluant.
L’affaire était partie d’Allemagne, début 2025. Au fil des semaines, l’éventail des marchés concernés s’est élargi, comme celui des produits touchés… et comme les techniques des fraudeurs*.
Une hypothèse s’est imposée : les disques en question viendraient de Chine. Plus précisément de fermes de minage de Chia (une cryptomonnaie à l’origine de laquelle on trouve le fondateur de BitTorrent).
Un intermédiaire repéré en Malaisie
L’enquête de Seagate n’est, officiellement, pas remontée jusque-là. L’entreprise a néanmoins découvert un intermédiaire. En l’occurrence, un atelier clandestin en Malaisie. Perquisitionné au cours de l’été, il employait, semble-t-il, une demi-douzaine de personnes.
Près de 700 disques durs Seagate ont été trouvés sur place. Il y en avait aussi de marques WD et Toshiba.
Des disques remis en vente sur les « Amazon asiatiques »
Si le dossier ne s’est pas concentré sur ces deux fabricants, c’est notamment parce qu’il est plus compliqué de prouver que leurs disques sont d’occasion. Réinitialiser l’ensemble des valeurs témoignant de l’utilisation est en effet plus facile chez eux que chez Seagate.
L’atelier clandestin ne se contentait pas de réinitialiser ces valeurs. Il se livrait aussi à de la contrefaçon, en rebadgeant certains disques (par exemple, un modèle desktop « transformé » en modèle pour les systèmes de vidéosurveillance). Il se chargeait également de la mise en vente, sur Lazada et Shopee, deux plates-formes e-commerce importantes en Asie du Sud-Est.
Dans son reporting (extra-)financier, Seagate n’évoque pas l’affaire. Il a toutefois fait évoluer son programme partenaires. Ces derniers ont désormais une obligation contractuelle d’acquérir des disques exclusivement auprès de distributeurs Seagate autorisés.
* On a pu constater, entre autres techniques, l’usurpation de numéros de série de disques neufs. De sorte que l’acheteur croyait bénéficier d’une garantie longue durée quand il la contrôlait auprès de Seagate.
IBM Cloud ne signera bientôt plus de nouveaux contrats VMware.
La bascule interviendra le 31 octobre 2025. Il ne pourra alors plus vendre de licences qu’aux clients qui disposaient d’au moins un workload actif avant cette date.
Par workload, il faut entendre au moins 1 VM déployée ou migrée sur du VCFaaS multilocataire. Ou bien au moins 1 hôte sur une des offres suivantes :
VMware on Bare Metal Servers for Classic
VCF for Classic – Automated
VCF for Classic – Flexible
VCF for VPC
VCFaaS monolocataire
Des restrictions sur VCF as a service
Les clients existants – c’est à dire qui ont un compte IBM Cloud ou un compte Entreprise enfant – pourront continuer à utiliser leurs environnements et à les étendre. Ils n’auront cependant pas la possibilité d’aller sur une offre différente de celle contractualisée. Plusieurs restrictions s’appliqueront par ailleurs à l’offre VCFaaS :
Pas d’extension des workloads au-delà des régions et des groupes de ressources actuels
Limité au modèle de consommation existant (à la demande ou réservé)
Pas de sauvegarde des VM avec l’add-on Veeam Backup si celui-ci n’est pas utilisé avant la date butoir
Pas d’extension de Veeam Backup au-delà des régions dans lesquelles il est dpéloyé
Nouveaux dépôts Veeam Scale-Out Backup limités à du stockage objet
Les contrats signés avant la date limite pourront être honorés jusqu’à leur terme.
Programme VCSP : la fin d’une ère
En toile de fond, une décision officialisée en août. Au nom de la portabilité des licences, les abonnements VCF devront être acquis auprès de Broadcom et non plus des hyperscalers. Ce à partir du 3 novembre 2025 (début de son exercice fiscal).
Les relations avec les fournisseurs vont évoluer plus largement. Une nouvelle incarnation du programme VCSP (VMware Cloud Service Provider) prendra effet début novembre. Elle élimine notamment la possibilité de revente en marque blanche pour les plus petits fournisseurs.
Au printemps, l’entreprise taïwanaise avait déclaré son intention de limiter la prise en charge des disques tiers sur certains de ses NAS. Une nouvelle qui n’avait pas laissé sa clientèle indifférente.
Ce n’est désormais plus dans ses plans*. Elle l’a officialisé parallèlement à la sortie de DSM 7.3 (dernière version de son OS DiskStation Manager).
Fin de prise en charge pour les HDD, alertes pour les SSD
Étaient concernés les NAS série DS Plus année 2025. Seuls les disques brandés Synology et les disques tiers certifiés seraient pleinement compatibles et bénéficieraient d’un support complet, avait-on appris en avril par voie de communiqué. L’usage d’autres disques serait, à l’avenir, sujet à des restrictions, notamment sur la création de groupes de stockage (pools).
L’aide en ligne de Synology apportait davantage de précisions. Pour les HDD et les SSD NVMe, seuls ceux répertoriés dans la liste de compatibilité seraient pris en charge (il resterait néanmoins possible de migrer des groupes depuis des systèmes Synology existants). Les SSD SATA ne figurant pas dans cette liste resteraient quant à eux utilisables, mais apparaîtraient comme non vérifiés dans le gestionnaire de stockage.
La politique précédente soumettait les SSD SATA au même régime (et les SSD NVMe avec). Mais elle était plus permissive pour les HDD : l’unique restriction concernait la création de groupes de stockage.
Les limites finalement levées, sauf pour les SSD NVMe
La nouvelle politique actée avec le lancement de DSM 7.3 élimine presque toutes les restrictions.
Il n’y en a pas pour les HDD et les SSD qui sont sur la liste de comptabilité : ils sont pris en charge pour les nouvelles installations, la création de groupes de stockage et la migration depuis des systèmes existants (les SSD NVMe le sont aussi pour la création de cache).
Le niveau de prise en charge est le même pour les disques non répertoriés, à l’exception des SSD NVMe (pas de nouvelles installations ni de création de groupes de stockage).
Davantage de restrictions sur le haut de gamme
La série DS Plus réunit actuellement 9 produits. Elle commence à 2 baies avec le DS225+ (Celeron J4125, max 6 Go DDR4, 1 x 2,5 GbE + 1 x 1 GbE ; illustré ci-contre), qu’on trouve entre 300 et 400 € TTC. Elle termine à 12 baies avec le DS2422+ (Ryzen V1500B, max 32 Go DDR4 ECC, 4 x 1 GbE), trouvable à un peu plus de 2000 € TTC.
Dans le catalogue de Synology, elle se trouve au-dessus des séries Value et J. Avec ces dernières, il n’existe de restrictions ni pour les HDD, ni pour les SSD (SATA uniquement), y compris pour la création de cache.
Globalement, plus on monte en gamme, plus il existe des restrictions.
Ainsi, sur les séries RS Plus et DVA/NVR, les HDD et les SSD NVMe non répertoriés ne sont pris en charge ni pour les nouvelles installations ni pour la création de groupes de stockage.
Sur les séries FS, HD, SA, UC, XS+, XS et DP, les HDD et SSD non listés sont pris en charge uniquement pour la migration.
* En tout cas jusqu’à nouvel ordre. Ce retour en arrière peut effectivement sembler temporaire, vu la façon dont Synology présente les choses. Il dit « collaborer avec les fabricants de disques » pour élargir la gamme de supports de stockage certifiés. « En attendant », les modèles DiskStation Plus […] prendront en charge l’installation et la création de groupes de stockage avec des disques tiers.
Quel point commun entre ecoinvent, GaBi et imec.netzero ? Tout au moins, celui d’alimenter la calculette carbone d’AWS (CCFT, Customer Carbon Footprint Tool). Ou, plus précisément, la méthodologie qui sous-tend l’outil.
Une nouvelle version de cette méthodologie (3.0) vient d’être publiée. Avec elle, AWS vient englober, en partie, le fameux scope 3. C’est-à-dire les émissions indirectes dans sa chaîne de valeur.
Une partie des émissions entrant dans ce périmètre sont liées à l’extraction, à la production et au transport de l’énergie consommée dans les datacenters. Calculées au niveau des clusters, elles sont dites « opérationnelles ». Cela inclut l’électricité achetée, ainsi que les carburants et les fluides frigorigènes utilisés dans les générateurs de secours ou les systèmes de climatisation.
D’autres émissions sont amorties sur la base de la durée de vie des assets auxquels elles se rattachent. En fait partie l’empreinte carbone embarquée :
Du matériel informatique (extraction des matières premières, fabrication des composants, processus d’assemblage, acheminement vers les datacenters)
Des datacenters
Des équipements non informatiques (centrales de traitement d’air, unités de distribution d’énergie…)
4 options de modélisation pour les équipements IT
La méthodologie v3 ne couvre pas l’ensemble du scope 3. Elle fait notamment l’impasse sur la fin de vie de toutes ces composantes (recyclage de matériel, destruction de bâtiments, etc.).
Pour les émissions opérationnelles, AWS propose des estimations basées sur la localisation ou sur le marché. Il prend en compte les pertes qui surviennent lors de la transmission et de la distribution.
Pour les équipements informatiques, l’estimation repose sur une modélisation au niveau des composants. Sont priorisés ceux présents en plus grand nombre dans l’infrastructure et/ou pesant le plus lourd dans l’empreinte carbone globale.
Un modèle « en cascade » est employé pour s’adapter aux éventuels manques de données.
La préférence va à une ACV (analyse de cycle de vie) par processus, autant que possible à partir des données des fabricants. À défaut, on collecte des attributs techniques (types de matériaux, processus de fabrication et masse, principalement) et on exploite éventuellement des estimations moyennes de l’industrie.
Pour certains types de composants à l’empreinte importante et dont les propriétés technologiques peuvent facilement être caractérisées à partir de quelques indicateurs (CPU, GPU, SSD, HDD, RAM, cartes mères…), on peut procéder par extrapolation. En l’occurrence, via une relation paramétrique entre les résultats de l’ACV par processus et les caractéristiques-clés de ces composants.
Autre option : l’analyse entrées-sorties (EIO, Economic Input-Output). Elle lie l’activité économique aux impacts environnementaux grâce à des facteurs d’émission sectoriels (en kg CO2e/$), rapportés au coût unitaire des composants.
Pour les composants qu’on trouve peu fréquemment et pour lesquels l’EIO ne produit pas de résultats précis, il y a l’option RCA-LCA (Representative Category Average Life Cycle Assessment). Elle se fonde sur la masse mesurée ou estimée des composants, combinée à une classification KNN (algorithme des k plus proches voisins) pour les associer à des facteurs d’émissions représentatifs appropriés.
Des sources en Belgique, en Suisse et au Canada
Parmi les sources qu’AWS exploite pour la partie informatique, il y a donc ecoinvent, GaBi et imec.netzero. Le premier – une base de données environnementales – est portée par une entreprise à mission de droit suisse. Le second est un logiciel d’ACV rattaché à la base Sphera. Le troisième donne un aperçu de l’impact environnemental de circuits intégrés. On le doit à l’Imec, institut de recherche universitaire belge en microélectronique et nanotechnologies.
Pour ce qui est des datacenters, AWS suit principalement les lignes directrices du Conseil national de recherches du Canada en matière d’ACV de l’ensemble du bâtiment. Ces guidelines se fondent sur la norme européenne EN 15978:2011.
Les modèles d’ACV pour les carcasses et les salles s’appuient essentiellement sur des EPD (déclarations environnementales de produits) tiers validés et sur la base ecoinvent.
Des données recalculées jusqu’à 2022
Pour passer du niveau du cluster à celui des racks, on se réfère à la puissance absorbée. Et on y ajoute le carbone embarqué amorti sur une durée de vie de 6 ans.
Exemple pour un cluster auquel on a attribué 500 MT CO2e et qui tire 1000 KVA : un rack consommant 600 KVA se verra allouer 60 % de l’empreinte carbone, soit 300 MT CO2e. Le carbone amorti associé à ce rack (par exemple, 100 MT CO2e) est ajouté pour obtenir les émissions totales, sur une base mensuelle.
Pour passer des racks aux services, on fait la différences entre les services « fondateurs » (qui ont des racks dédiés dans des datacenters) et « non fondateurs » (qui reposent sur d’autres services).
Exemple dans un rack dont le modèle identifie qu’il consomme 1000 Go-mois. Un service qui consomme 250 Go-mois se verra attribuer 25 % des émissions du serveur.
Pour les services « fondateurs », l’attribution d’une empreinte à chaque client se fait par allocation « physique » (basée sur les usages). Pour les services « non fondateurs », elle se fait par allocation « économique » (basée sur le revenu).
Pour permettre des analyses rétrospectives de tendances, AWS a recalculé ses données avec la nouvelle méthodo jusqu’à janvier 2022.
Anthropic étend son accord avec Google Cloud afin d’utiliser jusqu’à un million de puces spécialisées en intelligence artificielle (IA), connues sous le nom de Tensor Processing Units (TPU), historiquement réservées à ses propres usages.
Avec cet accord, évalué à plusieurs dizaines de milliards de dollars, l’inventeur de Claude va renforcer significativement la capacité d’entraînement de ses futurs modèles.
Avec quelle puissance ? Google mettra à disposition d’Anthropic, dans laquelle il a déjà par ailleurs investi plus de 3 milliards $, plus d’un gigawatt de puissance de calcul, dont la mise en service est prévue pour 2026.
Anthropic indique avoir retenu les TPU en raison de leur rapport performance-prix et de leur efficacité énergétique, ainsi que de son expérience existante avec cette technologie pour le développement de la famille de modèles Claude.
« Cette expansion nous permettra de répondre à la demande croissante tout en maintenant nos modèles au niveau le plus avancé de l’industrie », a déclaré Krishna Rao, directeur financier d’Anthropic.
A l’instar de ses concurrents qui cherchent à sécuriser des ressources matérielles suffisantes pour soutenir la croissance de leurs modèles, Anthropic adopte une approche multi-fournisseurs pour ses infrastructures. Elle utilise déjà les plateformes de calcul de Nvidia (GPU) et d’Amazon (Trainium) qui demeure son principal fournisseur cloud et un investisseur important avec un engagement financier de 8 milliards $. et la construction d’un centre de données de 2,2 gigawatts dans l’Indiana destiné à l’entraînement de ses modèles d’IA.
En moins de huit mois, Anthropic a vu son chiffre d’affaires annualisé passer d’environ 1 milliard à plus de 5 milliards $. Cette progression accompagne une levée de fonds de 13 milliards, qui la valorise désormais à 183 milliards $.
« Internet des comportements », « multiexpérience », « espaces intelligents »… Autant de concepts qui, au fil des ans, ont émaillé les prévisions technologiques de Gartner.
Les prévisions en question sont, plus précisément, celles que le cabinet émet traditionnellement lors de l’édition américaine de son IT Symposium/Xpo (organisée au mois d’octobre à Orlando, en Floride). Il en publie systématiquement une synthèse. Nous nous référons ici aux dix dernières (2016-2025).
2016 : ne dites pas microservices, mais MASA
En 2016, Gartner estimait que l’une des tendances à venir serait le MASA (mesh app and service architecture). Ce concept était pour le moins englobant. Il était décrit, dans les grandes lignes, comme une « architecture multicanale » exploitant cloud et serverless, conteneurs et microservices, API et événements pour « délivrer des solutions modulaires, flexibles et dynamiques ».
Au-delà de ce « basculement architectural sur le long terme », Gartner évoquait la convergence du NLP, des réseaux de neurones et du deep learning. Il parlait aussi des « applications intelligentes », avec l’idée qu’à terme, tout logiciel embarquerait de l’IA. D’ici à 2018, la plupart des 200 plus grandes entreprises au monde exploiteraient de telles apps, en plus d’utiliser « l’ensemble du toolkit big data/analytics pour affiner leurs offres », expliquait-il.
Aux « applications intelligentes », Gartner ajoutait les « choses intelligentes ». Il en citait trois catégories (robots, drones, véhicules autonomes), avec la perspective d’un « IoT collaboratif ».
La réalité virtuelle et la réalité augmentée étaient aussi mentionnées. Avec un conseil aux décideurs IT : envisagez des applications ciblées pour l’horizon 2020.
Gartner parlait également de blockchain… avec réserve. Il affirmait percevoir beaucoup d’intérêt, mais admettait que la majorité des initiatives étaient « en alpha ou en bêta » au vu des défis techniques.
Les prévisions pour 2017 faisaient aussi la part belle aux « architectures de sécurité adaptatives« . Avec trois caractéristiques principales : sécurité dès la conception, sécurité multicouche et utilisation de l’UEBA (analyse comportementale).
2017 : et vint le « maillage numérique intelligent »
En 2017, Gartner avait structuré ses prévisions en trois sections reprenant les trois termes de l’expression « maillage numérique intelligent ». Il décrivit ce concept comme « l’intrication des personnes, des appareils, des contenus et des services, mêlant mondes virtuels et physique », l’IA trouvant sa place partout.
Le cabinet déclarait que l’IA porterait, d’ici à 2025, le retour sur investissement des initiatives numériques (amélioration de la prise de décision, réinvention des modèles économiques et des écosystèmes, refonte de l’expérience client).
Les « applications intelligentes » et les « choses intelligentes » furent à nouveau citées. Comme les jumeaux numériques. Et la blockchain… avec un commentaire toujours plein de réserve : beaucoup de technologies encore immatures et largement non régulées.
Il n’était plus question de MASA, mais d' »orienté événements« . Avec une prévision chiffrée : d’ici à 2020, « l’intelligence situationnelle en temps réel » basée sur les événements sera requise pour 80 % des solutions numériques d’entreprise.
À l’AR et à la VR, Gartner avait greffé la réalité mixte (MR). Tout en approfondissant son propos : ces technologies, en association avec les plates-formes conversationnelles, entraînent un basculement dans l’UX, entre changement de la perception du monde et de l’interaction avec lui.
Sur le volet sécurité, l’accent était mis, dans la lignée des prévisions de l’année précédente, sur l’évaluation continue du risque et de la confiance. Il s’agissait d’aller « au-delà de la sécurité périmétrique » pour se recentrer sur les identités. Difficile de ne pas y reconnaître la philosophie zero trust, même si le terme n’était pas mentionné – on le doit, il est vrai, à un autre cabinet (Forrester).
2018 : où l’on parlait (déjà) d’IA pour les devs
Les « choses intelligentes » avaient gardé leur place dans les prévisions 2018 de Gartner, avec deux catégories supplémentaires : appliances et… agents.
Les jumeaux numériques étaient aussi restés de la partie. Avec une remarque : le focus est actuellement sur l’IoT, mais des digitaltwins de processus émergent.
Concernant la blockchain, elle demeurait « immature » et « difficile à passer à l’échelle ». Mais elle générerait 3 100 milliards de dollars de valeur d’ici à 2030, voulait croire Gartner.
À échéance plus proche (2020), 40 % des tâches de datascience serait automatisées, clamait le cabinet. En parallèle, la population de « data scientists citoyens » croîtrait 5 fois plus vite que celle des datascientists de métier.
Les développeurs auraient quant à eux de plus en plus de possibilités d’intégrer de l’IA dans les applications sans impliquer les datascientists. Tout en ayant l’opportunité d’en exploiter dans leurs outils de travail (génération, test et analyse de code). L’IA remonterait la stack pour toucher jusqu’au design.
Sur les « technologies immersives » (AR/VR/MR), Gartner se projetait à l’horizon 2022 : 70 % des grandes entreprises auraient lancé des expérimentations en B2B et B2C, et 25 % auraient déployé en prod. Les plates-formes conversationnelles s’intégreraient à la démarche, notamment avec la capacité à détecter les émotions par reconnaissance faciale.
2022 serait, par ailleurs, l’année jusqu’à laquelle la plupart des entreprises pourraient rester en phase d’exploration sur l’informatique quantique. À part quelques-unes auxquelles des algorithmes spécifiques fourniraient un « avantage majeur ».
Gartner avait aussi évoqué l’edge. En en faisant, aux côtés de l’IA, de la blockchain et des jumeaux numériques, une brique fondamentale des « espaces intelligents« . Décrits comme des « environnements physiques ou numériques où humains et systèmes interagissent dans des écosystèmes de plus en plus ouverts, connectés et coordonnés »…
2019 : hyperautomatisation et « multiexpérience »
Dans la synthèse des prévisions 2019, l’hyperautomatisation était le premier élément mentionné. Gartner la présentait comme la combinaison d’outils (ML, logiciels packagés, automatisation type RPA) aux fins de répliquer les tâches dans lesquelles l’humain est impliqué.
La notion de « multiexpérience » était apparue dans le vocabulaire du cabinet. Le terme était appliqué à une tendance déjà évoquée les années précédentes : l’évolution de l’UX à renfort d’AR/VR/MR et de plates-formes conversationnelles.
La blockchain était toujours dans la liste. « Immature à déployer » pour des questions techniques, notamment de scalabilité et d’interopérabilité, mais avec un « grand potentiel de disruption »…
En complément à l’edge, Gartner avait évoqué le cloud distribué. Il avait aussi repris la notion de démocratisation de l’expertise métier, sous 4 angles : data&analytics (les outils de datascience s’étendent aux développeurs), développement (IA pour personnaliser les applications), design (par outils lowcode / nocode) et connaissance (outils permettant à des métiers non IT de mettre en œuvre des compétences informatiques).
2020 : entre « Internet des comportements » et cloud distribué
Dans ses prévisions émises en 2020, Gartner avait à nouveau mentionné le cloud distribué. Avec une perspective : d’ici à 2025, la plupart des plates-formes cloud fourniront au moins quelques services distribués.
Autre perspective à cette échéance : plus de la moitié de la population mondiale sera sujette à au moins un programme IoB, commercial ou gouvernmental.
Par IoB, il faut entendre « Internet des comportements » (Internet of Behaviors). Gartner nommait alors ainsi la combinaison de technologies focalisées sur l’individu (reconnaissance faciale, géolocalisation, big data) et connectant à des événements les données ainsi produites.
En miroir à l’IoB étaient évoquées les « techniques de calcul améliorant la vie privée« . La moitié des grandes organisations en auraient implémenté d’ici à 2025 pour le traitement de données multipartite et/ou hors d’environnements de confiance, estimait Gartner.
Toujours pas de zerotrust au menu, mais il était question des « maillages de sécurité« . Ou comment « permettre à quiconque d’accéder à tout actif numérique de façon sécurisée ». Dans ce cadre, nous expliquait-on, la définition et la mise en œuvre des politiques sont découplées, via un modèle de livraison cloud qui permet à l’identité de devenir le périmètre de sécurité. D’ici à 2025, cette approche porterait plus de la moitié des requêtes de contrôle d’accès numérique, anticipait Gartner.
L’hyperautomatisation demeurait mentionnée. Pas la multiexpérience, réincarnée en « expérience totale« , en connexion avec les disciplines de l’expérience client, employé et utilisateur.
2021 : la grande promesse des NFT
Cette année-là, l’approche terminologique avait laissé place à une liste de prévisions chiffrées. Deux d’entre elles concernaient les NFT. Gartner estimait, d’une part, que d’ici à 2024, 50 % des entreprises cotées auraient une forme de NFT pour accompagner leur marque et/ou leur présence digitale. De l’autre, qu’à l’horizon 2026, la gamification NFT porterait une grande entreprise dans le top 10 des valorisations mondiales.
Pour 2027, un quart du Fortune 20 serait remplacé par des entreprises qui exploitent le neuromining et « influencent le subconscient à l’échelle », ajoutait Gartner.
En miroir le cabinet parlait privacy. Avec deux statistiques principales. D’un côté, d’ici à 2024, 40 % des consommateurs duperaient intentionnellement les mesures de suivi comportemental afin de dévaluer leurs données (partage de fausses informations, clic sur des pubs qui ne les intéressent en fait pas…). De l’autre, à l’horizon 2025, les données synthétiques réduiraient le besoin de collecte de données personnelles, évitant 70 % des sanctions pour violation de la vie privée.
En plein boom du télétravail, Gartner déclarait qu’en 2024, 30 % des équipes corporate basculeraient vers un système de prise de décision entre pairs, sans rôle de manager.
Le cabinet prévoyait qu’à la même échéance, une cyberattaque causerait tant de dommages à une infrastructure critique qu’un membre du G20 répliquerait par une attaque physique déclarée.
En 2025, ajoutait-il, 75 % des entreprises auraient choisi de « rompre » avec les profils de clients non adaptés à leur activité, le coût de rétention finissant par s’avérer plus élevé que le coût d’acquisition d’une nouvelle clientèle.
À l’horizon 2026 était prévue une augmentation de 30 % du pool de développeurs en Afrique. Le continent deviendrait ainsi un écosystème mondial de start-up, rivalisant avec l’Asie en matière de croissance des investissements en capital-risque.
En 2027, les satellites basse orbite auraient étendu la couverture Internet à un milliard de personnes supplémentaires, en « sortant la moitié de la pauvreté »…
2022 : la grande promesse du métavers
Dans les prévisions effectuées en 2022, plus de cloud distribué, mais du cloud souverain. D’ici à 2024, des coentreprises approuvées par les régulateurs accroîtraient la confiance des parties prenantes dans les grands fournisseurs cloud.
Ces derniers seraient appelés à consolider leur domination sur le marché, de l’ordre de 30 % à l’horizon 2026, en éliminant peu à peu leurs dépendances aux ISV.
À cette même échéance, le déni de service « citoyen », fondé sur des assistants virtuels, serait la forme de contestation la plus en croissance, prévoyait Gartner.
En 2027, ajoutait-il, les espaces de travail intégralement virtuels capteraient 30 % de la croissance des investissements des grandes entreprises dans le métavers. En parallèle, les réseaux sociaux auraient adopté les identités décentralisées (Web3).
Avec le phénomène du quietquitting en toile de fond, on nous annonçait que d’ici 2025, la « volatilité du travail » entraînerait une perte d’activité substantielle pour 40 % des organisations, stimulant un basculement d’une stratégie d’acquisition de talents à une stratégie de rétention.
À ce même horizon, des indicateurs centrés sur les travailleurs – comme le bien-être et la satisfaction employeur – auraient pris plus d’importance que le ROI dans 30 % des décisions d’investissement ayant mené à de la croissance, estimait Gartner. Qui prévoyait, de surcroît, une acceptation deux fois plus importante des investissements spéculatifs (moonshot) par les actionnaires.
Dans ce contexte pré-ChatGPT (il allait sortir quelques semaines plus tard), Gartner estimait que sans pratiques soutenables, l’IA consommerait, en 2025, plus d’énergie que les travailleurs humains. L’entraînement de modèles ML pourrait, à lui seul, capter jusqu’à 3,5 % de la consommation électrique mondiale en 2030.
2023 : la GenAI en basculement socio-économique
L’IA générative avait jalonné les prévisions 2023 de Gartner.
Le cabinet s’était toutefois projeté à des échéances plus lointaines. Il estimait notamment qu’en 2027, la productivité tirée de l’IA serait reconnue comme un indicateur économique majeur par les pouvoirs étatiques.
À ce même horizon, la GenAI serait largement utilisée pour expliquer les applications métier legacy et créer des substituts, réduisant de 70 % les coûts de modernisation.
L’adoption de la GenAI motiverait par ailleurs, à l’horizon 2028, une nette croissance (+ 1000 %) du taux de syndicalisation chez les travailleurs de la connaissance. Dans le même temps, le nombre de « robots intelligents » dépasserait celui des fontlineworkers dans l’industrie manufacturière, le retail et la logistique.
Gartner prévoyait aussi que dès 2026, 50 % des pays du G20 auraient expérimenté une forme de rationnement périodique d’électricité dans le contexte de l’essor des IA.
Le cabinet estimait qu’à la même échéance, 30 % des grandes entreprises auraient une BU ou des canaux de vente dédiés aux « clients machines ». Et que dès 2025, un quart des centres de vente et de service traiteraient des appels de tels clients.
2024 : rester pertinent face à l’IA
Les prévisions faites en 2024 touchaient aux neurotechnologies. D’ici à 2030, 30 % des travailleurs de la connaissance seraient « augmentés » par des interfaces de type cerveau-machine pour « rester pertinent face à l’IA ».
Auparavant, en 2028 en l’occurrence, au moins 15 % des décisions quotidiennes au travail seraient prises de façon autonome (à renfort d’IA agentique). Dans le même temps, les organisations ayant implémenté une « gouvernance exhaustive » de l’IA connaîtraient 40 % moins d’incidents d’ordre éthique. En parallèle, 50 % des grandes entreprises auraient commencé à adopter des produits, services ou fonctionnalités face à la désinformation.
À la fin des années 2020, des technologies de calcul plus frugales, comme des accélérateurs optiques et neuromorphiques, auraient émergé pour des tâches spécifiques comme l’IA et l’optimisation. En 2029, les avancées dans l’informatique quantique auraient rendu l’essentiel de la cryptographie asymétrique conventionnelle non sûre. En 2033, l’informatique « spatiale » (AR/VR) représenterait un marché à 1700 Md$ (contre 110 Md$ en 2023).
2025 : la « géopatriation », ou sortie du cloud public
Dans ses dernières prévisions, Gartner parle de « géopatriation ». Le terme décrit la rapatriation de workloads depuis le cloud public vers des infrastructures locales (« souverain », régional, on-prem…) dans une logique de réduction du risque géopolitique. À l’horizon 2030, plus de 75 % des grandes entreprises d’Europe et du Moyen-Orient s’y seraient mises, contre moins de 5 % en 2025.
À cette même échéance, 80 % des organisations auraient segmenté leurs équipes de développement en « petites équipes plus agiles augmentées par l’IA« . Gartner envisage un fonctionnement à effectif égal, mais alimenté par une forme d’équipes tournantes d’ingénieurs « de première ligne » qui accompagneraient les différents projets.
À la notion de « techniques de calcul améliorant la vie privée » s’est aujourd’hui substitué, dans la communication de Gartner, l’expression « informatique confidentielle« . D’ici à 2029, elle concernera plus de 75 % des opérations traitées hors d’environnements de confiance, estime le cabinet.
Dès 2028, plus de la moitié des modèles génératifs utilisés par les grandes entreprises seront des modèles spécialisés, selon Gartner. Qui pense qu’à la même échéance, 40 % des « entreprises leaders » auront adopté, dans des workflows critiques, des architectures suivant le paradigme de l’informatique hybride (combinant essentiellement différents types de puces).
« SIEM : 6 fournisseurs dominent un marché qui se densifie ».
Ainsi avions-nous titré, au printemps 2024, notre synthèse de ce qui était alors le dernier Magic Quadrant consacré à ce marché. Gartner avait effectivement classé 22 offreurs, dépassant le seuil des 20 auquel il se tient généralement.
Ils furent 6 à faire leur entrée à cette occasion. Un directement chez les « visionnaires » (Google). Les autres chez les « acteurs de niche » (Logz.io, NetWitness, Odyssey, QAX, Venustech).
4 entrants pour 9 sortants : un Magic Quadrant à périmètre nettement réduit
Dans le Magic Quadrant du SIEM version 2025, plus de Logz.io, de NetWitness, d’Odyssey ni de Venustech. Ils ne sont pas les seuls à disparaître. Devo Technology, IBM, LogRhythm, Logpoint et OpenText suivent le même chemin.
Pour LogRhythm, c’est dû à sa fusion avec Exabeam (finalisée en juillet 2024). IBM ne remplit quant à lui plus le cahier des charges technique de Gartner depuis qu’il a vendu QRadar SaaS à Palo Alto Networks.
Pour les autres, c’est partagé. Logpoint n’a pas satisfait à tous les critères fonctionnels. Devo Technology, Odyssey et Venustech, aux critères business. Logz.io, Netwitness et OpenText, aux uns et aux autres.
Les critères techniques ont globalement peu évolué par rapport à l’an dernier. Mais quelques seuils ont été relevés, comme le volume miminal de connecteurs pour la capture et le streaming de données en complément à la collecte de logs.
D’une année sur l’autre, les mêmes fonctionnalités sont restées « à la carte ». Il fallait, d’une part, en fournir au moins 2 sur les 4 suivantes :
Recherche fédérée sur environnement SIEM distribué
Recherche hors des dépôts du SIEM
Intégration de data lakes tiers
Disponibilité d’un stockage de long terme (avec capacité de rappel « chaud » sur 365 jours)
D’autre part, fournir au moins 2 des 3 suivantes :
SOAR (automatisation et orchestration de tâches communes)
Threat intelligence
Capacités fondées sur l’analyse comportementale ou la data science/le machine learning
Sur le volet business aussi, des seuils ont été relevés. D’une part, il fallait avoir dégagé, entre mars 2024 et mars 2025, au moins 85 M$ de CA licences + maintenance sur les produits cloud*/SaaS ou bien disposer de 500 clients en production avec des contrats en direct sur ce même type de produits (les seuils précédents étaient à 75 M$ et 200 clients). De l’autre, avoir réalisé au moins 25 % de ce CA auprès de clients localisés hors de la région dans laquelle se trouve le siège social du fournisseur ; ou bien disposer d’au moins 25 % de clients respectant de même périmètre géographique (les seuils précédents étaient à 15 % de CA et 30 clients).
Platform or not platform ? Des divergences qui structurent le marché
Le relèvement des seuils business est aussi, explique Gartner, la conséquence de la présence de « gros » fournisseurs parmi les 4 entrants de cette année (CrowdStrike, Datadog, Graylog et Palo Alto Networks).
CrowdStrike et Palo Alto Networks font partie des fournisseurs qui ont, comme Microsoft entre autres, intégré leur SIEM dans des offres plus larges avec un modèle de licence adapté. Certains, plutôt que de jouer la carte de la plate-forme, axent leur discours sur les capacités d’ingestion à grande échelle.
Une opposition existe aussi entre ceux qui, pour réduire la complexité, poussent la combinaison du SIEM avec d’autres parties de la stack de sécurité. Et ceux qui, en vue de ce même objectif, prônent un usage stratégie de l’augmentation des workflows (IA, automatisation).
Ces divergences contribuent à faire évoluer le paysage concurrentiel. À tel point que Gartner a priorisé, dans son évaluation, la vision que les fournisseurs ont du SIEM et leur capacité à faire adopter cette vision au marché.
17 fournisseurs, toujours 6 « leaders »
Le positionnement au sein du Magic Quadrant résulte de la combinaison d’évaluations sur deux axes. L’un prospectif (« vision »), centré sur les stratégies (sectorielle, géographique, commerciale, marketing, produit…). L’autre censé refléter la capacité à répondre effectivement à la demande (« exécution » : expérience client, performance avant-vente, qualité des produits/services…).
Sur l’axe « exécution », la situation est la suivante :
Rang
Fournisseur
Évolution annuelle
1
Splunk
=
2
Microsoft
=
3
Google
+ 8
4
Rapid7
+ 3
5
Palo Alto Networks
nouvel entrant
6
Securonix
– 2
7
Exabeam
– 1
8
Fortinet
=
9
Gurucul
=
10
Elastic
+ 4
11
CrowdStrike
nouvel entrant
12
Sumo Logic
– 7
13
Huawei
+ 2
14
Datadog
nouvel entrant
15
QAX
+ 6
16
ManageEngine
+ 1
17
Graylog
nouvel entrant
Sur l’axe « vision » :
Rang
Fournisseur
Évolution annuelle
1
Google
+ 4
2
Securonix
+ 4
3
Microsoft
– 1
4
Gurucul
– 3
5
Exabeam
– 1
6
Splunk
– 3
7
Elastic
+ 2
8
CrowdStrike
nouvel entrant
9
Datadog
nouvel entrant
10
Huawei
+ 6
11
Palo Alto Networks
nouvel entrant
12 (ex aequo)
QAX
+ 6
12 (ex aequo)
Fortinet
+ 2
12 (ex aequo)
Rapid7
+ 1
15
Sumo Logic
– 3
16
Graylog
nouvel entrant
17
ManageEngine
+ 5
Six fournissent se trouvent dans le carré des « leaders » : Exabeam, Google, Gurucul, Microsoft, Securonix et Splunk.
Exabeam demeure plus cher que la moyenne
L’an dernier, Gartner avait salué l’UI d’Exabeam, « très en phase » avec les besoins des analystes sécurité. Il avait aussi apprécié le scoring dynamique et les capacités de traitement des flux tiers par recherche fédérée.
Le cabinet américain avait, en revanche, pointé une courbe d’apprentissage plus longue que sur les autres SIEM. Et relevé une tarification plus élevée que la moyenne, en plus d’une tendance à se focaliser sur les grandes entreprises.
Cette année encore, l’UI fait mouche. Comme le scoring et la recherche fédérée. S’y ajoutent l’assistant Exabeam Copilot (qui simplifie le tri et la priorisation des cas) et une marketplace « bien fournie en contenu », notamment sur la menace interne, les règles de corrélation et les dashboards extensibles.
La tarification au-dessus de la moyenne reste d’actualité. La courbe d’apprentissage aussi, mais pour une brique en particulier : Advanced Analytics (moteur legacy de détection comportementale). On surveillera par ailleurs l’effet latent de la fusion avec LogRhythm (annoncée en mai 2024) en matière d’allocation des ressources de développement produit.
Google peut progresser sur l’UEBA
Avec son offre Chronicle, Google Cloud avait fait son entrée au Magic Quadrant du SIEM l’an dernier. Il était classé chez les « visionnaires » (résultat insuffisant sur l’axe « exécution » pour être leader).
Depuis, Chronicle est devenu SecOps. La plate-forme se distingue sur les requêtes « avancées et complexes », selon Gartner. La fédération et le multilocataire la rendent attractive pour les MSSP comme pour les grandes organisations qui ont besoin de plusieurs instances de SIEM. Autre bon point : l’injection d’IA sur un large spectre de workflows, en plus de capacités d’automatisation « bien intégrées ».
On notera qu’il n’existe pas de version on-prem de SecOps. S’y ajoute une UI complexe, au sens où Google favorise une approche CLI (pour la création de requêtes, par exemple) dont l’implémentation et l’exploitation supposent des compétences. Il y a également de la marge de progression sur l’UEBA, qui manque de use cases embarqués qu’on trouve généralement chez les autres « leaders » du SIEM.
Gurucul : un prix potentiellement difficile à justifier
L’an dernier, Gurucul était lui aussi chez les « visionnaires ».
Il est crédité d’un bon point pour son programme marketing, dont l’extension est corrélée à un taux de renouvellements plus élevé que la moyenne. Gartner apprécie aussi ses roadmaps et sa capacité à délivrer des fonctionnalités de façon consistante. Bon point également pour la partie gestion des données, qui apporte de la flexibilité.
Le prix est beaucoup plus élevé que chez les principaux concurrents, si bien qu’il peut être difficile de prouver la valeur de certaines fonctionnalités « avancées ». Globalement, la solution est plutôt adaptée aux acheteurs qui présentent des cas d’usage complexes. Attention aussi sur la partie « augmentation » des workflows (automatisation, orchestration) : sur le plan fonctionnel, Gurucul est en retard sur les autres « leaders ».
Chez Microsoft, les dépendances à Azure perdurent
L’an dernier, Gartner avait salué les passerelles établies entre le SIEM Sentinel et le reste de l’écosystème de Microsoft (SOAR, CASB, protection des identités et des terminaux…). Il avait aussi apprécié la couverture MITRE ATT&CK. Et les capacités de personnalisation, tant au niveau des modèles de détection de menaces que de l’UI de threat intelligence.
Le cabinet américain n’en avait pas dit autant au sujet du reporting de conformité, jugé limité. Il y avait ajouté la dépendance à des services Azure pour certaines fonctionnalités… et pour l’hébergement de la solution.
Cette année, Microsoft conserve son bon point pour le niveau de couverture de la matrice MITRE ATT&CK. Même chose pour les intégrations avec le reste de son écosystème. Gartner y ajoute l’extension de la prise en charge d’outils tiers, l’intégration d’IA en particulier sur la partie corrélation, et les capacités de personnalisation du tableau de bord de renseignement sur les menaces.
Microsoft peut lui aussi se révéler plus cher que la concurrence, surtout lorsqu’on ingère des données depuis des sources externes. Les dépendances à Azure valent toujours (pour l’intégration de sources de télémétrie tierces, par exemple), y compris pour l’hébergement (SaaS uniquement).
Securonix, en retard sur l’augmentation des workflows
L’an dernier, Securonix s’était distingué pour sa gestion des sources de données tierces et des flux de threat intelligence. Gartner avait aussi salué l’aide fournie pour améliorer la configuration du SIEM (identification des sources de données manquantes, des modèles d’analyse pertinents…).
Il avait moins apprécié le modèle économique fondé exclusivement sur les EPS (événements par seconde). Ainsi que la prise en main. Qui, expliquait-il, nécessitait « plus de services professionnels que la moyenne ». En tout cas pour les déploiements cloud.
Cette année, un bon point va à la gestion des data lakes tiers – et à la flexibilité que cela apporte. Securonix se distingue aussi sur l’UEBA (capacité à gérer des use cases avancés), assorti de « capacités exhaustives » de test et de tuning. Il dédie par ailleurs au développement produit une équipe « plus grosse que la moyenne » [de l’ensemble des fournisseurs classés au Magic Quadrant du SIEM].
S’il existe une brique d’augmentation de workflows, elle est en retard sur celles des autres « leaders », tant au niveau des fonctionnalités que des intégrations. Gartner souligne aussi une dépendance au risk scoring susceptible de réduire la capacité à créer manuellement des requêtes. Et note que la croissance de la base client est plus faible que chez d’autres « leaders ».
Splunk traduit sa vision moins vite que la concurrence
L’an dernier, Splunk s’était distingué avec son UI, en particulier pour les capacités de personnalisation. Il avait aussi pour lui une bibliothèque d’intégrations exhaustive, SOAR en tête. Gartner avait aussi salué la composante observabilité, couplée à la recherche fédérée et aux capacités d’analyse sur les data stores tiers.
Bien que flexible, la tarification apparaissait plus élevée que la moyenne. Et la solution, complexe, tout du moins au niveau de l’implémentation. Gartner avait aussi souligné le fait que les effectifs étaient majoritairement localisés en Amérique du Nord… et l’impact potentiel que cela pouvait avoir sur le support client.
Cette année, l’un des bons points va à la marketplace de contenus, doublée de la richesse des ressources développées par la communauté. Un autre va au catalogue d’intégrations avec les produits de sécurité, dont ceux de Cisco. Gartner souligne aussi les possibilités de personnalisation de la solution pour le développement de workflows et de dashboards.
L’augmentation de workflows n’est pas le fort de Splunk, qui affiche lui aussi du retard sur ses principaux concurrents. Du retard face à ces mêmes acteurs, il en a aussi au niveau de la roadmap, reflet d’une stratégie encore centrée sur l’intégration dans l’optique de constituer une plate-forme TDIR unifiée. Quant aux possibilités de personnalisation, elles supposent une certaine complexité qui pourrait rebuter les organisations les moins matures.
* Comprendre « cloud-native« , c’est-à-dire conçu pour exploiter les caractéristiques du cloud.
Doit-on attendre d’un fournisseur de PAM qu’il propose une brique de CIEM (gestion des droits d’accès à l’infrastructure cloud) ?
Gartner considère désormais qu’il s’agit d’une fonctionnalité « commune ». Il la catégorise tout du moins ainsi dans son dernier Magic Quadrant dédié à ce marché.
Dans l’édition précédente, le CIEM était facultatif. Il n’est pas le seul à avoir rejoint le cahier des charges technique cette année. La gestion des secrets pour les workloads a suivi la même trajectoire. Idem pour la gestion du cycle de vie des comptes à privilèges et celle des accès distants à privilèges.
De même, certains critères jugés « communs » l’an dernier sont devenus « obligatoires ». En l’occurrence, la découverte de comptes à privilèges, l’enregistrement des sessions à privilèges et la gestion des privilèges juste-à-temps.
12 fournisseurs, 3 « leaders »
Pour espérer figurer dans le Magic Quadrant du PAM, il y avait 7 critères « obligatoires » à respecter :
Gestion et mise en œuvre centralisées des accès à privilèges, en contrôlant soit l’accès à des comptes et à des authentifiants, soit l’exécution de commandes, soit les deux
Gestion et octroi des accès à privilèges sur base temporaire aux utilisateurs autorisés
Découverte de comptes à privilèges
Conservation et gestion des authentifiants pour les comptes à privilèges
Gestion, supervision, enregistrement et audit des sessions à privilèges
Gestion des privilèges juste-à-temps
Administration à base de rôles, avec gestion centralisée des politiques d’accès aux authentifiants
Il fallait par ailleurs fournir au moins 5 des 8 éléments « communs » suivants :
Contrôle de l’élévation de privilèges par agent sur Windows, UNIX/Linux et macOS
Gestion des secrets pour les workloads
Gestion du cycle de vie des comptes à privilèges
CIEM
Gestion des accès distants à privilèges
Automatisation des tâches routinières liées aux opérations à privilèges orchestrées et/ou exécutées à travers plusieurs systèmes
ZSP (zero standing privileges) : pas d’élévation juste-à-temps vers un compte ou un rôle existant, mais création de rôles et de permissions éphémères
Analyse des patterns de privilèges, des mauvaises configs, des comportements d’accès, des anomalies
Le positionnement au sein du Magic Quadrant résulte d’évaluations sur deux axes. L’un, appelé « vision », est prospectif. Il est centré sur les stratégies (sectorielle, géographique, commerciale, marketing, produit…). L’autre, dit « exécution », reflète la capacité à répondre effectivement à la demande (expérience client, performance avant-vente, qualité des produits/services…).
Sur l’axe « exécution », la situation est la suivante :
Rang
Fournisseur
Évolution annuelle
1
BeyondTrust
+ 3
2
CyberArk
+ 1
3
ARCON
– 2
4
Delinea
– 2
5
Savyint
nouvel entrant
6
ManageEngine
– 1
7
Segura
nouvel entrant
8
One Identity
– 1
9
Keeper Security
nouvel entrant
10
WALLIX
– 4
11
Netwrix
– 2
12
StrongDM
nouvel entrant
Sur l’axe « vision » :
Rang
Fournisseur
Évolution annuelle
1
CyberArk
=
2
BeyondTrust
+ 1
3
Delinea
– 1
4
WALLIX
=
5
One Identity
=
6
ARCON
+ 1
7
ManageEngine
– 1
8
Savyint
nouvel entrant
9
StrongDM
nouvel entrant
10
Segura
nouvel entrant
11
Netwrix
– 3
12
Keeper Security
nouvel entrant
Les trois « leaders » sont les mêmes qu’en 2024. Dans l’ordre alphabétique : BeyondTrust, CyberArk et Delinea. Le français WALLIX reste chez les « visionnaires », à plus forte raison avec son recul sur l’axe « exécution ».
BeyondTrust peut progresser sur les identités machine
BeyondTrust reste, d’après Gartner, parmi les meilleurs sur le remote PAM et le juste-à-temps. Il se distingue aussi sur le CIEM. Si ses prix restent globalement au-dessus de la moyenne du marché, la partie SaaS fait désormais exception sur plusieurs scénarios évalués, en conséquence du lancement des bundles Essentials, Plus et Flex dans la plate-forme Pathfinder. Bons points également pour la stratégie commerciale (réseau de vente, remises sur engagement, cross-selling efficace) et l’accompagnement client (customer advisory boards, notamment, ainsi que plusieurs niveaux de formation, dont du gratuit).
L’offre de BeyondTrust manque encore de maturité sur la gestion des identités de workloads et des secrets (pas de possibilité de gérer les gestionnaires tiers, notamment). Au global, les innovations ont manqué sur l’année écoulée, se limitant à de l’intégration/unification. À cela s’ajoute un retard, par rapport aux autres « leaders », sur l’exploitation de la GenAI dans la gestion des sessions. Attention aussi au support technique, jugé améliorable par certains clients – comme, d’ailleurs, le paramétrage initial (qui peut s’avérer complexe) ainsi que l’UI et la navigation.
CyberArk reste parmi les plus chers du marché
« Mature » sur l’ensemble de son offre, CyberArk se distingue particulièrement sur la gestion des identités de workloads et des secrets, ainsi que sur le PEDM Windows. Il a aussi pour lui son IA CORA, appliquée entre autres au résumé de sessions, à la détection d’anomalies au niveau des secrets et à la recommandation de règles. Autre point positif : le recueil du feedback client, entre sondages et customer advisory board. Gartner apprécie également la stratégie géographique (capacité de delivery local) et l’extension sectorielle de l’offre, en particulier vers les services financiers et le secteur public.
L’élévation de privilèges exige des produits distincts pour UNIX et Linux, et ils ne sont pas à parité fonctionnelle. Au global, les prix restent parmi les plus élevés du marché, et CyberArk ne pratique toujours pas de remises sur engagement multiannuel. Il a de la marge de progression sur le support, comme sur le paramétrage initial (complexe) et les upgrades de son PAM autohébergé. On portera aussi attention à l’évolution de l’activité des suites de l’acquisition par Palo Alto Networks (annoncée en juillet).
Delinea, en retard sur le remote PAM
Delinea reste un des meilleurs sur le PEDM UNIX/Linux. Il se distingue aussi sur la gestion des identités de workloads et des secrets, comme sur le CIEM. Gartner salue autant le support technique que la collecte de feedback. Il souligne aussi la facilité d’utilisation de la solution (moteurs unifiés, console de gestion unique, bonne couverture sur les rapports d’intégrité). Ainsi que la disponibilité d’un agent qui exploite le contexte pour automatiser les décisions d’accès dans les environnements cloud.
Delinea est, en revanche, moins mature sur le remote PAM (manque d’enregistrement en self-service, de collaboration multiutilisateurs, de création à la demande de jetons à usage unique pour les identités externes…). En fonction des scénarios testés, la tarification est « inégale » : sous la moyenne du marché pour les entreprises de moins de 1000 employés, au-dessus pour les plus grandes. Attention aussi au fait que la gestion des authentifiants à privilèges et la découverte de comptes peut nécessiter une personnalisation par PowerShell. Gartner fait par ailleurs remarque que la croissance des revenus de Delinea a ralenti, tout comme celle des investissements en ventes/marketing.
Le SaaS a du mal à prendre chez WALLIX
Bon sur les accès distants, WALLIX garde par ailleurs son avantage sur le PAM pour les systèmes cyber-physiques. Il bénéficie d’ailleurs d’une présence importante dans la production industrielle – tout comme dans les services financiers et le secteur public. Gartner salue l’efficacité de son support, la facilité d’usage de sa solution et l’engagement client régulier (dont customer advisory board).
La découverte de comptes s’avère limitée (axée sur Active Directory) et le PAM JIT reste immature (dépendant d’intégrations workflow/ITSM). Comme chez Delinea, la tarification a tendance à être avantageuse pour les plus petites organisations, moins pour les plus grandes. Gartner note aussi que parmi les fournisseurs qui proposent du SaaS, WALLIX est celui qui a signé le moins de contrats (la majorité de ses clients implémentent encore sur site). Il ajoute, sous son prisme américain, l’absence de certifications communes chez des concurrents (FedRAMP, FIPS, SOC 2).
Face à la diversité grandissante des menaces, dont la sophistication est facilitée par l’usage de l’intelligence artificielle (phishing personnalisé, deepfakes…), les experts de la sécurité offensive continuent d’évoluer afin d’être en mesure de répliquer au mieux les attaquants.
Là où les audits traditionnels permettent de mettre en évidence des vulnérabilités et des non-conformités sur un périmètre précis, ils ne sont pas représentatifs du réalisme d’une attaque informatique ciblant une entreprise dans l’absolu : ce cadre bien défini les empêche souvent d’explorer ce que l’entreprise n’imagine pas.
Lever les œillères de la cybersécurité classique
En effet, les tests d’intrusion, les scans de vulnérabilités et autres audits de conformité sont en général effectués sur une maigre partie du SI de l’entreprise : une application web, le réseau interne d’une filiale, une chaîne de CI/CD, une entité spécifique… Ces audits « classiques » permettent aux consultants en cybersécurité de mettre en place des scénarios d’attaque connus, documentés et souvent exploitables à partir d’outils open-source. Néanmoins, ils ne permettent pas d’intégrer la totalité des facteurs impactant le niveau réel de sécurité de l’entreprise.
Par exemple, la combinaison d’éléments faibles à différents niveaux (humain, procédural et logique) peut permettre de concrétiser de lourds impacts. Et une campagne de spear phishing tirant parti d’un événement interne, couplée à un deepfake vocal, pourrait déjouer la vigilance des utilisateurs et permettre à un attaquant d’obtenir un accès initial au réseau interne depuis un poste de travail compromis. La conformité à des listes de points de contrôle ne peut malheureusement pas déjouer ce genre de scénarios. par
Un attaquant réel cherchant à nuire à une entreprise dans le cadre de la mise en place d’un ransomware ou d’espionnage industriel ne se limitera pas à un périmètre précis comme un auditeur, mais considérera plutôt les actifs de l’entreprise au global : périmètre logique externe, employés, infrastructures physiques, réseau interne…
Les audits « Red Team » ne sont pas un test technique ponctuel, c’est une simulation d’adversaire pensée dans la durée et se basant sur le threat model de la cible. Elle part d’une posture offensive : intelligence sur la menace, scénarios réalistes, exploitation de la chaîne humaine, procédurale et technique. La méthodologie combine renseignement (open source et ciblé), scénarios réalistes, exécutions contrôlées et évaluation du bruit, de la réponse et de la coordination interne.
Ce genre d’exercice a deux objectifs majeurs :
> Mettre en exergue un scénario complet illustrant la compromission d’actifs critiques (dits « trophées ») ;
> Tester les capacités de détection et de réaction de l’équipe de défense, dite « Blue Team », afin d’évaluer comment une organisation réagit lorsqu’on la met réellement sous pression, et de générer un diagnostic de résilience : combien de temps pour détecter ? Combien de temps pour bloquer ? Qui décide ? Quelles procédures limitent le champ des possibles de l’attaquant ? Quelles communications internes s’enclenchent (ou pas) ?
Pour la direction, ces enseignements sont précieux : ils transforment des hypothèses, jusque-là potentiellement non éprouvées, en données mesurables et leviers actionnables.
Un outil stratégique au service des comités de direction
La valeur d’un audit « Red Team » se mesure à son utilité stratégique : le rapport, la chaîne de compromission et la timeline fournissent à la direction des enseignements clairs, priorisés et intégrables au plan de gestion du risque : scénarios mis en évidence, vecteurs exploités, impacts simulés, points de défaillance organisationnels pointés…
La transparence et la communication interne sont essentielles : informer les parties prenantes concernés sans céder à la panique et préparer un plan de remédiation pragmatique. Idéalement, les audits « Red Team » sont suivis par des exercices « Purple Team », où les auditeurs et les équipes de sécurité échangent lors de sessions collaboratives afin de corriger les lacunes, améliorer les détections et raffiner les méthodologies d’intervention. Ce cycle continu (simuler, apprendre, corriger, vérifier) élève la posture globale face à une menace réelle.
Au-delà d’un audit technique, l’exercice « Red Team » constitue ainsi un fort levier stratégique : il transforme la cybersécurité en instrument d’anticipation pour le comité de direction, renforce la coordination entre les équipes et met l’accent sur la résilience business, et non pas seulement sur la conformité.
* Richard Disaro est consultant au sein du cabinet XMCO
Le groupe chinois est en tout cas parvenu, comme son compatriote en début d’année, à attirer l’attention avec un article scientifique qui touche à la frugalité de l’IA.
La planification de l’autoscaling descendue au niveau des tokens
DeepSeek avait causé un électrochoc en présentant des LLM entraînés avec nettement moins de ressources de calcul que les modèles référents du marché.
Du côté d’Alibaba, la logique est la même, mais sur la phase d’inférence. Elle implique un système de pooling GPU nommé Aegaeon.
En la matière, deux grandes approches sont traditionnellement mises en œuvre : le multiplexage et l’autoscaling.
Le multiplexage place plusieurs instances de modèles sur chaque GPU, avec un partage spatial ou temporel (technologie NVIDIA MPS). Le mécanisme est limité par la quantité de VRAM disponible.
La méthode autoscaling est plus « agressive ». Elle adapte le placement du modèle au fil du temps, en le chargeant depuis la mémoire de l’hôte ou depuis un support externe.
L’efficacité de l’autoscaling est limitée par le ratio de modèles actifs au sein des workloads. Or, la durée d’exécution des requêtes LLM fait qu’à tout moment, un grand nombre de modèles sont actifs, même si les invocations sont sporadiques. Lorsque toutes les instances GPU sont occupées par des modèles actifs, les nouvelles requêtes doivent attendre (on ne peut pas associer en un même lot des opérations de préremplissage et de décodage liées à des modèles différents). Dans ce contexte, réserver moins d’instances qu’il n’y a de modèles accroît le risque de compromettre le respect des SLO.
Pour dépasser cette limite, Alibaba a mis en place un mécanisme planification non au niveau des requêtes, mais des tokens. L’approche avait déjà été expérimentée en configuration monomodèle. En multi, elle est d’autant plus critique que le nombre de batchs augmente (puisqu’on ne peut, donc, pas batcher les requêtes de modèles différents).
Des partitions distinctes pour préremplissage et décodage
Aegaeon planifie en parallèle l’exécution d’une requête et l’autoscaling. Étant donné un ensemble d’instances GPU et des SLO cibles (TTFT, latence du premier token ; TBT, latence entre tokens), il choisit la tâche suivante (prefill ou décodage) pour chaque instance. Et opère éventuellement un autoscaling préemptif si une tâche planifiée utilise un autre modèle que celui actif.
Alibaba a opté pour une désagrégation des phases de préremplissage et de décodage. Il a ainsi divisé le pool GPU en deux partitions. La partie décodage utilise une planification en round-robin pondéré, censée maximiser le respect du TBT. Le prefill exploite un système de planification groupée : on réunit les requêtes qui visent un même modèle, tout en maintenant une approche « premier arrivée, premier servi » pour éviter tout privation de ressources. Les tâches sont ajoutées à un groupe existant si c’est possible. Sinon, Aegaeon en crée un et l’attache à la file d’attente la moins peuplée (chaque instance a sa file). La taille de batch est plafonnée à 1, vu la relative linéarité entre le nombre de tokens et le temps d’exécution – et du fait que de plus petits batchs réduisent les délais d’attente.
Réutiliser pour ne pas (tout) réinitialiser
Les solutions d’autoscaling préemptif tendent à se focaliser sur l’accélération du chargement du modèle. Alibaba Cloud s’est intéressé aux autres étapes de la procédure : réinitialisation du moteur, gestion de la mémoire et transferts du cache clé-valeur.
La réinitialisation du moteur est une séquence qui, à défaut d’optimisation, peut prendre des dizaines de secondes. Elle comprend notamment l’initialisation du cache clé-valeur, le chargement des poids, le profilage et l’optimisation (allocation d’espace pour le cache clé-valeur) et le démarrage d’orchestrateurs comme Ray destinés à distribuer l’exécution.
Alibaba s’est figuré que l’initialisation de ces différents composants pouvait être réutilisée de manière sûre entre modèles. Ainsi, Aegaeon n’initialise le moteur qu’une fois par instance, mettant tous les éléments en cache sauf poids et cache clé-valeur. Pour ce dernier, il exploite un pool préattribué dans la mémoire de l’hôte, évitant de devoir épingler des pages pendant l’autoscaling. L’ensemble réduit la latence de plus de 80 %.
Les événements CUDA mis à profit
La gestion mémoire est quant à elle rendue explicite. À l’appui, entre autres, d’un tampon VRAM autogéré et d’un cache clé-valeur « unifié » (chaque zone, en VRAM ou DRAM, est divisée en fragments de taille fixe qui accueillent différents blocs en fonction de la forme du cache).
Pour ce qui est des transferts du cache clé-valeur entre hôte et GPU, l’enjeu est de permettre leur chevauchement tout en minimisant les conditions de concurrence des données. Les événements CUDA ont été mis à contribution dans ce but, pour suivre individuellement les transferts.
De 1192 à 213 GPU pour le Model Studio d’Alibaba Cloud
Pour évaluer Aegaeon, Alibaba a choisi une config à deux nœuds de 8 GPU H80-80, avec 2 To de DRAM (DDR5) et 192 CPU Xeon Platinum 8469C. Il y a fait tourner des LLM de plusieurs familles (Qwen, Llama, InternLM, Yi, etc., essentiellement de 6 à 14 milliards de paramètres) sur le dataset ShareGPT et deux déclinaisons « augmentées » (inputs et outputs allongés). La comparaison a été faite avec MuxServer et ServerlessLLM, deux solutions qui adoptent respectivement le multiplexage et l’autoscaling.
Illustrant les limites du multiplexage, MuxServer a systématiquement refusé de placer plus de 2 modèles par GPU, en raison du manque de VRAM.
À un débit de 0,1 requête/seconde, Aegaeon soutient un débit utile doublé par rapport à ServerlessLLM. Il gère jusqu’à 70 modèles avec 10 instances de décodage. ServerlessLLM souffre de longs temps d’attente. ServerlessLLM+ (implémentation ad hoc ajoutant une planification Shortest Job First à partir d’un oracle fondé sur les longueurs d’output) atténue l’effet, mais la performance se dégrade inévitablement avec davantage de modèles actifs.
À 0,5 requête/s, l’écart de débit utile est de 2,5 par rapport à ServerlessLLM.
Cet écart se maintient sur les datasets « augmentés ». Et, quoique dans une moindre mesure, avec des SLO plus stricts laissant moins de marge de pooling. Cela se vérifie aussi sur des configs plus restreintes en hardware (par exemple, un nœud de 4 GPU A10). Pour Alibaba, c’est la preuve qu’Aegaeon est potentiellement applicable à un grand éventail de workloads.
Le système alimente, depuis quelques mois, le Model Studio d’Alibaba Cloud. Il fonctionne sur un cluster multirégion de 213 GPU H20 servant 47 modèles de 1,8 à 72 milliards de paramètres. Ces modèles étaient, à l’origine, servis par 1192 GPU H20. Le parc s’est donc réduit de 82 %.
Le taux d’utilisation GPU moyen (illustré ici sur une période de 70 heures) est passé à 48 % avec Aegaeon, sans violations observables de SLO.