La pression monte sur OpenAI. Dans un mémo interne envoyé ce lundi et consulté par le Wall Street Journal, Sam Altman convoque une « alerte rouge » pour améliorer la qualité de ChatGPT. Une décision qui implique de reléguer d’autres projets au second plan, dont le développement de la publicité, des agents IA pour le shopping et la santé, ainsi que Pulse, un assistant personnel produisant des actualités matinales personnalisées.
Ce virage stratégique intervient alors que Google vient de reprendre la main technologique. Le géant de Mountain View vient de lancer son modèle Gemini 3, qui a surpassé le GPT-5 d’OpenAI sur les tests de référence de l’industrie. De son côté, Anthropic, autre rival montant, a également dépassé OpenAI avec son modèle Opus 4.5.
Les chiffres témoignent que la dynamique profite à Google qui affirme que sa base d’utilisateurs actifs mensuels est passée de 450 millions en juillet à 650 millions en octobre, dopée notamment par le lancement d’un générateur d’images en août. Plus révélateur encore : d’après Similarweb, les internautes passent désormais plus de temps à discuter avec Gemini qu’avec ChatGPT, même si OpenAI conserve une large avance en nombre d’utilisateurs avec plus de 800 millions d’utilisateurs hebdomadaires.
Un modèle économique sous tension
Le défi pour OpenAI ne se limite pas à la technologie. L’entreprise fait face à un désavantage structurel majeur : elle n’est pas rentable et doit lever des fonds quasiment en continu pour survivre, contrairement à Google qui peut financer ses investissements sur ses revenus courants. Selon ses propres projections financières, OpenAI devra atteindre environ 200 milliards $ de chiffre d’affaires pour devenir profitable en 2030.
Dans son mémo, Sam Altman insiste sur la nécessité d’apporter des améliorations substantielles à ChatGPT, en matière de personnalisation, de rapidité, de fiabilité et de capacité à répondre à un éventail plus large de questions. Pour y parvenir, il a instauré des conférences téléphoniques quotidiennes avec les équipes responsables et encouragé les transferts temporaires entre services.
Cette « alerte rouge » succède à une précédente « alerte orange ». OpenAI utilise un système de trois codes couleur (jaune, orange, rouge) pour hiérarchiser l’urgence des problématiques à traiter.
Malgré ces difficultés, Sam Altman conserve des arguments pour rassurer. Dans son mémo, il a affirmé qu’un nouveau modèle de raisonnement prévu la semaine prochaine surpassera le dernier Gemini de Google. Nick Turley, responsable de ChatGPT, a d’ailleurs souligné lundi soir sur X que l’objectif était de poursuivre la croissance « tout en rendant ChatGPT encore plus intuitif et personnel ».
Reste que cette mobilisation générale confirme ce que beaucoup soupçonnaient : la domination initiale d’OpenAI dans l’IA générative appartient désormais au passé. La course de fond ne fait que commencer.
Pour les données sensibles, le SaaS n’est pas admissible, à moins d’apporter ses propres clés de chiffrement.
L’association suisse privatim – qui réunit des autorités de surveillance en matière de protection des données des organes publics – a récemment communiqué cette position. Elle vise plus précisément les solutions de « grands fournisseurs internationaux […], comme […] Microsoft 365 ». Un raisonnement qui tient entre autres à l’existence du CLOUD Act… et aux perspectives d’accès à des données par les autorités américaines sans respect des règles de l’entraide judiciaire internationale.
La plupart des solutions SaaS n’offrent pas encore de véritable chiffrement de bout en bout, fait également remarquer privatim. Qui dénonce aussi une transparence insuffisante des « entreprises opérant à l’échelle mondiale » pour que les autorités suisses puissent vérifier le respect des obligations contractuelles en matière de protection des données. Ce constat, poursuit l’association, vaut autant pour la mise en œuvre de mesures techniques et la gestion des changements, que pour l’engagement et le contrôle des collaborateurs et des sous-traitants.
Microsoft 365 : trois options pour utiliser ses propres clés de chiffrement
Microsoft 365 fournit un chiffrement de base au niveau du volume via BitLocker et DKM (Distributed Key Manager, techno côté client qui utilise un ensemble de clés secrètes). Depuis octobre 2023, c’est de l’AES256-CBC par défaut.
La voie principale pour apporter ses propres clés est l’option Customer Key de Purview. Elle fonctionne avec les licences suivantes :
Office 365 E5
Microsoft 365 E5
Purview Suite (ex-Microsoft 365 E5 Compliance)
Microsoft 365 E5 Information Protection & Governance
Microsoft 365 Security and Compliance for FLW
Purview Customer Key s’appuie sur le service Azure Key Vault. Au niveau Standard, les clés – générées dans le coffre-fort ou importées – sont protégées par logiciel. Au niveau Premium, elles sont stockées dans des HSM (modules de sécurité matériels). Il existe une option monolocataire dite Managed HSM.
Autre possibilité : le chiffrement à double clé : une sous le contrôle du client, l’autre stockée dans Azure. Une solution à réserver aux données très sensibles, selon Microsoft. Elle condamne effectivement l’accès à des fonctionnalités comme l’eDiscovery, la recherche et l’indexation, les web apps Office, les règles antimalware/antispam qui exigent une visibilité sur les pièces jointes… et Copilot.
Même avec l’option Customer Key, Microsoft conserve une clé maître (« clé de disponibilité », que le client peut demander à activer en cas de perte de ses propres clés.
Trois mois après sa création en septembre 2025, Gradium annonce officiellement son lancement avec une levée de fonds de 60 millions € en tour d’amorçage. Un montant rare pour une entreprise aussi jeune mais qui témoigne de l’appétit des investisseurs pour les technologies d’IA vocale de nouvelle génération.
Une technologie fondée sur les modèles de langage audio
L’approche technique de Gradium repose sur les modèles de langage audio, équivalents natifs-audio des large language models (LLM) textuels. Cette architecture, initialement inventée par les fondateurs de l’entreprise, permet de traiter la voix de manière native sans passer par une transcription intermédiaire en texte, contrairement aux systèmes traditionnels qui enchaînent reconnaissance vocale, traitement textuel et synthèse vocale.
Cette approche native offre plusieurs avantages techniques : réduction de la latence, préservation de l’expressivité vocale et capacité à gérer n’importe quelle tâche vocale de manière unifiée. Les modèles de langage audio sont désormais devenus le standard dominant de l’industrie depuis leur invention par les fondateurs.
L’équipe fondatrice réunit quatre chercheurs reconnus dans le domaine de l’IA audio : Neil Zeghidour (CEO, ex-Meta et Google DeepMind), Olivier Teboul (CTO, ex-Google Brain), Laurent Mazaré (Chief Coding Officer, ex-Google DeepMind et Jane Street) et Alexandre Défossez (Chief Scientist Officer, ex-Meta). Leur expertise s’appuie sur plus d’une décennie de recherche fondamentale menée notamment au sein de Kyutai, laboratoire de recherche en IA à but non lucratif dont Neil Zeghidour et Laurent Mazaré étaient deux membres fondateurs.
Cette collaboration avec Kyutai se poursuit et constitue un atout stratégique : elle donne à Gradium un accès privilégié aux avancées de la recherche fondamentale, qu’elle peut ensuite transférer rapidement vers des applications commerciales. La technologie sous-jacente de Gradium sera identique à celle de Moshi, l’IA vocale développée par Kyutai, a précisé Neil Zeghidour à Bloomberg.
Un positionnement « qualité-latence-coût »
Gradium affirme résoudre un compromis technique majeur du secteur : les systèmes vocaux actuels obligent généralement à choisir entre qualité d’interaction, faible latence et coût abordable. La startup vise à proposer simultanément une expressivité vocale réaliste, une transcription précise et une interaction à très faible latence, tout en maintenant des prix permettant un déploiement à grande échelle.
Cette proposition de valeur s’adresse en priorité aux développeurs et aux entreprises via une plateforme API. Le service supporte déjà cinq langues au lancement (anglais, français, allemand, espagnol et portugais), avec d’autres en préparation.
Gradium affirme générer ses premiers revenus quelques semaines seulement après sa création. L’entreprise compte déjà des clients dans plusieurs secteurs : gaming, agents IA, service client, apprentissage des langues et santé.
Le tour de seed de 60 millions d’euros a été co-mené par FirstMark Capital et Eurazeo, avec la participation de DST Global Partners, Eric Schmidt (ancien CEO et Chairman de Google), Xavier Niel (Iliad), Rodolphe Saadé (CMA CGM), Korelya Capital et Amplify Partners.
Ce montant positionne Gradium parmi les levées de seed les plus importantes de l’écosystème français et européen, reflétant les attentes du marché sur le potentiel de l’IA vocale. Selon Neil Zeghidour, le secteur en est encore au stade où se trouvaient les chatbots avant l’émergence des LLM : les systèmes existants restent fragiles, coûteux et limités dans leur capacité à proposer des interactions naturelles.
L’ambition affichée de Gradium est de devenir le socle technologique de référence pour la voix à l’échelle mondiale, en faisant de la voix l’interface principale entre humains et machines.
HSBC a signé un accord pluriannuel avec Mistral AI afin d’intégrer des outils d’intelligence artificielle générative dans l’ensemble de la banque.
HSBC déploiera les modèles commerciaux de Mistral ainsi que leurs futures mises à jour sur une infrastructure auto-hébergée. Cette approche permettra de combiner les capacités technologiques internes du groupe bancaire avec l’expertise de Mistral dans la conception de modèles d’IA.
Les deux entreprises collaboreront au développement de solutions d’IA couvrant plusieurs usages : analyse financière, traduction multilingue, évaluation des risques ou encore communications personnalisées avec les clients.
Selon HSBC, ces outils pourraient réduire de manière significative le temps consacré par les employés aux tâches routinières ; par exemple, les équipes crédit et financement pourront analyser plus rapidement des dossiers complexes et volumineux.
HSBC utilise déjà des centaines de cas d’usage d’IA dans le monde, notamment en matière de détection de fraude, de surveillance des transactions, de conformité et de service client. La banque estime que l’accord avec Mistral AI permettra d’accélérer ses cycles d’innovation et de lancer plus rapidement de nouvelles fonctionnalités reposant sur l’IA.
Lorsqu’on prépare un dataset mixte pour le fine-tuning, il est possible de tirer parti d’une « propriété additive ».
Le rapport technique du modèle Phi-4 (de Microsoft) comprend une remarque à ce sujet.
La propriété en question permet d’optimiser le mix de données domaine par domaine puis de concaténer les poids qui en résultent, sans perte.
Open-R1 en a fait usage. Le projet, emmené par Hugging Face, a démarré en janvier 2025. Son objectif : créer une reproduction ouverte de DeepSeek-R1, en développant les « pièces manquantes ». À savoir datasets et code d’entraînement.
Le plan est décliné en trois temps :
Être capable de distiller un ensemble de données de raisonnement de haute qualité à partir de DeepSeek-R1
Répliquer le pipeline d’apprentissage par renforcement de R1-Zero
Appliquer cette combinaison à des modèles de base pour en faire des modèles de raisonnement
Les maths d’abord
Open-R1 a d’abord centré ses travaux sur un dataset de raisonnement mathématique : OpenR1-Math-220k. Publié sous licence Apache 2.0, il couvre 400 000 problèmes (2 à 4 traces pour chacun) tirés de NuminaMath-1.5. Filtré, il en conserve 220 000. On l’a divisé en deux parties. L’une, dite « par défaut », regroupe 94 000 problèmes et engendre les meilleures performances. L’autre, dite « étendue », réunit 131 000 problèmes… et ne produit pas d’aussi bons résultats, problablement parce que les questions sont plus simples.
En faisant travailler Qwen-7B-Math-Instruct pour trois cycles sur la partie « par défaut », Hugging Face affirme être parvenu à égaler la performance de DeepSeek-Distill-Qwen-7B. Il a, en l’occurrence, obtenu le même score sur AIME 25 (40) et fait un peu moins bien sur MATH-500 (90,6 vs 91,6).
Le code ensuite
Les travaux se sont ensuite étendus au codage, avec la production d’un dataset basé sur les compétitions CodeForces. Au menu, environ 10 000 problèmes (avec jusqu’à 5 traces), dont 60 % accompagnés de l’explication de la solution correcte par les organisatieurs.
Sur cette base, il a été demandé à R1 de produire des chaînes de pensée (environ 100 000 exemples), aboutissant au datasetCodeForces-CoTs. Publié sous licence ODC-BY, il a servi à affiner Qwen-2.5-Coder-Instruct 7B et 32B. En ont découlé les modèles OlympicCoder. Mis à l’épreuve sur la dernière Olympiade internationale d’informatique, ils ont rivalisé avec des LLM à l’état de l’art (le 32B s’en sortant même mieux que R1.
La science pour finir
Une partie de CodeForces-CoTs (83 000 traces de problèmes Python et C++) et d’OpenR1-Math-220k (la partie « par défaut ») a finalement été combinée à un sous-ensemble du dataset de post-entraînement de Llama Nemotron pour former Mixture-of-Thoughts. Au code et aux maths s’est donc ajoutée la science, pour un total d’environ 350 000 traces. Aucune licence n’a été ajoutée (c’est une demanderégulière).
Cette base, appliquée à une variante de Qwen-2.5-Math-7B (fréquence RoPE de base étendue à 300k pour permettre l’entraînement sur une fenêtre de 32k), a produit OpenR1-Distill-7B. Le modèle s’est montré plus performant que R1-Distill-Qwen-7B sur AIME 2024 (52,7 vs 51,3), GPQA Diamond (52,8 vs 52,4) et LiveCodeBench v5 (39,4 vs 37,4). Ces scores s’entendent en pass@1 (un essai, avec 4 à 64 réponses par requête en fonction des tâches), à température 0,6 et top_p 0,95.
Inria, l’Institut national de recherche en sciences et technologies du numérique, et Doctolib vont collaborer pour développer des modèles d’intelligence artificielle cliniques fiables et souverains dans le secteur de la santé, indiquent les deux acteurs.
Première étape : la création d’une équipe de recherche réunissant doctorants, postdoctorants et ingénieurs de recherche des deux organisations pour travailler sur plusieurs axes stratégiques.
Quatre axes de recherche prioritaires
Elle travaillera sur le développement d’une IA médicale de confiance, notamment la protection des données, la transparence et le respect du patient. Les chercheurs s’attacheront à créer des systèmes capables de suivre le raisonnement médical en comprenant les liens de cause à effet, en croisant symptômes, historique médical, contexte de vie et connaissances médicales pour estimer l’état de santé et son évolution.
Un troisième axe concerne le choix des meilleures actions de santé personnalisées, qu’il s’agisse de dépistages, vaccins ou changements de mode de vie. Cela nécessite des systèmes de raisonnement causal capables d’apprendre de données réelles tout en tenant compte des risques, coûts et préférences individuelles.
Enfin, l’équipe travaillera sur des systèmes capables de motiver durablement les changements de comportement en accompagnant les patients dans la durée, en s’adaptant à leur psychologie et leurs contraintes.
Deux projets en cours
L’équipe a débuté ses travaux sur deux sujets spécifiques. Le premier vise à optimiser le parcours de soins des patients en développant un modèle génératif capable de recommander des séquences optimales d’actions cliniques, afin de réduire l’errance médicale et améliorer la pertinence des soins.
Le second projet concerne l’établissement de diagnostics cliniques assistés par IA. L’équipe développe des méthodes pour quantifier l’incertitude des hypothèses diagnostiques et les faire évaluer par des praticiens sur des cas réels, l’IA restant un outil d’aide sans remplacer le jugement clinique.
Selon François Cuny, Directeur Général Délégué à l’Innovation chez Inria, ce partenariat s’inscrit dans une volonté de renforcer la collaboration entre Inria et les industriels français dans le secteur de la santé, en montant des projets communs, en soutenant les dynamiques entrepreneuriales et en attirant les meilleurs talents internationaux.
« Avec Inria et d’autres instituts de recherche de référence, nous construisons un laboratoire commun vers un système général d’intelligence médicale. Nous visons à créer en France, en Allemagne et en Europe un écosystème ouvert et collaboratif dans lequel les institutions publiques et privées pourront réaliser des avancées cliniques en IA pour améliorer la santé des personnes et celle des professionnels de santé.» explique Stanislas Niox-ChateauStanislas Niox-Chateau, le CEO, sur son compte LinkedIn.
Non, Gemini 3 Pro n’est pas partout dans l’écosystème Google. Mais tout de même…
Le groupe américain a été remarquablement prompt à intégrer ce modèle dans ses services. Jusqu’à son moteur de recherche, au niveau du « mode IA ». Initialement aux États-Unis, pour les abonnés Google AI Pro et Ultra. Lesquels auront aussi une avant-première sur le routage automatique des requêtes vers le modèle adéquat.
Un modèle aux réponses plus interactives
Avec Gemini 3 Pro arrivent les « UI génératives ». Le modèle peut, en réponse à des requêtes, afficher une vue de type magazine (visual layout) voire coder un canevas interactif (dynamic view).
Cette capacité n’est pas disponible que dans Google Search. Elle l’est aussi dans l’application Gemini. Le modèle y est accessible pour tous les utilisateurs. Il s’accompagne d’une nouvelle fonctionnalité Gemini Agent, réservée pour le moment aux abonnés AI Ultra. Inspirée de Project Mariner (agent autonome pour la navigation web), elle orchestre les tâches à plusieurs étapes en lien avec les services Google.
Antigravity, vitrine pour le codage agentique
Google a également fait place nette à Gemini 3 Pro dans ses outils développeurs*. Parmi eux, un nouveau venu : Antigravity. Cet IDE est disponible en preview sur Windows, Mac et Linux. À l’interface d’édition de code, il en associe une autre : un centre de contrôle d’agents, articulé en espaces de travail, avec une messagerie centralisée. Sur cette UI, pas de code : les agents produisent des « artefacts » (listes de tâches, plans d’implémentation, résumés des actions réalisées) sur lesquels l’utilisateur peut donner son feed-back sans que l’exécution soit interrompue. Gemini 3 Pro peut faire office de modèle principal – comme Claude Sonnet 4.5 et GPT-OSS – avec deux modes de pensée : dynamique/élevée (high) ou faible (low).
Des niveaux de vision en plus des niveaux de pensée
On retrouve ce réglage – en attendant une option medium supplémentaire – sur l’API Gemini, avec le paramètre thinking_level. Il n’est pas spécifique à Gemini 3 Pro, au contraire du paramètre media-resolution. Celui-ci détermine le nombre maximal de tokens alloués à la vision. Il se règle pour chaque média entrant ou de façon globale. S’il n’est pas défini, des valeurs par défaut sont utilisées (1120 tokens par image, 560 par page de PDF, 70 par frame de vidéo ou 280 pour les vidéos qui contiennent beaucoup de texte).
La tarification de Gemini 3 Pro sur l’API Gemini :
En entrée : 2 $ par million de tokens pour les requêtes de moins de 200 000 tokens (4 $ sinon)
En sortie : 12 $ par million de tokens pour les requêtes de moins de 200 000 tokens (18 $ sinon)
Mise en cache du contexte : 0,20 $ par million de tokens pour les requêtes de moins de 200 000 tokens (0,40 $ sinon) ; stockage : 4,50 $/heure par million de tokens
Ancrage Google Search (pas encore disponible) : 5000 requêtes gratuites, puis 14 $ les 1000
Pour rappel, Gemini 2.5 Pro est respectivement à 1,25 et 2,50 $ en entrée ; à 10 et 15 $ en sortie.
Au niveau 1 de l’API, les limites sont à 50 requêtes par minute, 1000 tokens par minute et 1000 requêtes par jour.
Au niveau 2 (au moins 250 $ dépensés), elles montent à 1000 RPM, 5 millions de TPM et 50 000 RPJ. Au niveau 3 (au moins 1000 $), on passe à 2000 RPM et 8 millions de TPM, sans plafond quotidien de requêtes.
Gemini 3 Pro a aussi un mode image, à 2 $ par million de tokens en entrée (texte/image) ; et, en sortie, 12 $ (texte/réflexion) ou 120 $ (images). Il est diffusé dans les produits Google sous la marque Nano Banana Pro (dans la lignée de Nano Banana, fondé sur Gemini 2.5 Flash).
Des éloges… notamment sur le codage
Nano Banana Pro semble avoir plu à Andrej Karpathy, membre fondateur d’OpenAI et ancien directeur de l’IA de Tesla. L’intéressé dit avoir plus globalement une impression positive sur Gemini 3 Pro, entre personnalité, humour, écriture et vibe coding.
Gemini Nano Banana Pro can solve exam questions *in* the exam page image. With doodles, diagrams, all that.
ChatGPT thinks these solutions are all correct except Se_2P_2 should be « diselenium diphosphide » and a spelling mistake (should be « thiocyanic acid » not « thoicyanic »)
Marc Benioff, le patron de Salesforce, s’est montré plus emphatique – à son habitude : il ne « reviendra pas en arrière ».
Holy shit. I’ve used ChatGPT every day for 3 years. Just spent 2 hours on Gemini 3. I’m not going back. The leap is insane — reasoning, speed, images, video… everything is sharper and faster. It feels like the world just changed, again. https://t.co/HruXhc16Mq
Gemini 3 created this playable maze in just three prompts
First, it created a top down Gemini maze, and then we asked it to build an app that allows me to upload a pixel maze, and turn it into a playable Three JS scene.
Ces capacités ne font pas l’unanimité, cependant. Les témoignages dans la communauté Cursor l’illustrent. On y pointe notamment un taux d’hallucinations important et une difficulté à suivre les instructions, en dépit d’aptitudes notables pour la planification, entre autres face à OpenAI Codex. Le phénomène apparaît, selon certains, moins prononcé dans Antigravity.
Divers retours sur le subreddit Gemini mettent pareillement en lumière les hallucinations de Gemini 3 Pro. Par exemple :
Confusion de deux offres d’emploi que le modèle devait analyser
Attribution répétée des caractéristiques d’un personnage à un autre lors d’une session d’écriture créative
Invention de variables sur un exercice visant à créer des outputs basés sur des combinaisons de 4 variables
Gemini 3 Pro est très utile… lorsqu’il vous écoute, résume un utilisateur à propos du suivi des instructions. Il n’est pas seul à constater que le modèle a parfois tendance à l’arbitraire.
D’autres évoquent une certaine paresse, préjudiciable en particulier à l’écriture créative. Le reflet, en quelque sorte, des promesses de Google : un modèle « concis » et « direct », « sans clichés ni flatterie »…
L’effet benchmark
Au-delà des performances que communique Google, Gemini 3 Pro se distingue sur le benchmark LMArena. Il s’est hissé en tête du classement sur plusieurs évaluations. Au dernier pointage :
Texte : 1492 points (contre 1482 pour Grok 4.1 Thinking et 1466 pour Claude Opus 4.5)
Vision : 1324 points (contre 1249 pour Gemini 2.5 Pro et 1237 pout GPT-4o)
Génération d’images : 1242 points (contre 1161 pour Hunyan Image 3.0 de Tencent et 1158 pour Gemini 2.5 Flash)
Édition d’images : 1371 points (contre 1330 pour Gemini 2.5 Flash et 1311 pour Seedream 4 de ByteDance)
Les performances de Gemini 3 Pro sont notables sur un autre benchmark : ARC-AGI-2. Celui-ci se focalise sur les connaissances qui sont « innées » chez l’humain ou acquises très tôt dans la vie. Ainsi, il n’inclut par exemple pas de tâches touchant aux langues, qui sont des acquis culturels. Cette approche est censée illustrer les capacités de généralisation. Elle implique, entre autres, des exercices d’interprétation symbolique (comprendre la signification de symboles visuels) et de raisonnement compositionnel (application simultanée de plusieurs règles interdépendantes).
Gemini 3 Pro Deep Think atteint, sur ARC-AGI-2, un score de 45,1 %, pour un coût de 77,16 $ par tâche. L’écart est net avec Claude Opus 4.5 Thinking : qui est toutefois moins onéreux : 37,6 % et 2,40 $ par tâche en 64k ; 30,6 % et 1,29 $ par tâche en 32k ; 22,8 % et 0,79 $ par tâche en 16k. Suivent GPT-5 Pro (18,3 % et 7,14 $ par tâche) et Grok 4 Thinking (16 % et 2,17 $ par tâche).
Congrats to Google on Gemini 3! Looks like a great model.
* Gemini 3 Pro est aussi disponible dans la dernière version d’Android Studio (y compris en usage gratuit), dans les SDK Firebase AI Logic (abonnement Blaze ; pas encore possible de régler le niveau de raisonnement) et dans le CLI Gemini (abonnement Ultra et clés d’API Gemini ; à venir dans Gemini Code Assist Enterprise ; liste d’attente pour les autres utilisateurs). Ainsi que dans divers services tiers (Cursor, GitHub, JetBrains, Manus, Replit…).
C’est le principe de l’Apps SDK actuellement en preview chez OpenAI. Il permet de fournir des interfaces interactives par l’intermédiaire des serveurs qui utilisent ce protocole.
Le projet MCP-UI, emmené par des ingénieurs de Palo Alto Networks et de Shopify, a la même philosophie.
Voilà que les deux initiatives convergent – avec Anthropic dans la boucle – afin de créer une extension officielle pour MCP. Promesse : pouvoir déclarer des ressources UI, les lier à des outils, les embarquer dans une application, puis gérer la communication bidirectionnelle avec celle-ci. Et éviter ainsi d’avoir à implémenter trop de logique côté client (par exemple pour le rendu d’un graphe à partir de JSON).
L’extension « Applications MCP », telle qu’envisagée, sépare templates et données pour une mise en cache plus efficace. Elle permet aux applications hôtes de contrôler les templates avant de les exécuter. Les communications se font sur JSON-RPC et sont donc auditables. La spec initiale ne gère que le contenu text/html, affiché dans des iframes isolés (sandbox).
Un protocole plus asynchrone
Il fut, pendant un temps, question de publier une nouvelle version de la spécification MCP ce 25 novembre 2025 – soit un an tout juste après l’ouverture du protocole à la communauté. On en est finalement à la release candidate… qui donne cependant une bonne idée des évolutions à venir.
Par rapport à la version précédente (18 juin), on progresse sur la gestion des opérations asynchrones. Une primitive expérimentale « tâche » avec un système d’identifiant a effectivement été ajoutée. En l’interrogeant, on peut, d’une part, suivre l’état d’une tâche exécutée en arrière-plan. De l’autre, accéder aux résultats « en différé », pendant une durée définie par le serveur. L’ancienne et la nouvelle sémantiques sont gérées sur une même méthode RPC.
Du progrès, il y en a aussi sur la découverte de serveurs d’autorisation. La gestion d’OpenID Connect Discovery 1.0 vient compléter celle des métadonnées OAuth 2.0. En parallèle, la stratégie de sélection du champ d’application (scope) est structurée à travers l’en-tête WWW-Authenticate, sur le principe du moindre privilège. Et la spec permet aux clients OAuth d’héberger leurs métadonnées (document JSON) sur une URL HTTPS afin de pouvoir fonctionner avec des serveurs d’autorisation vis-à-vis desquels il n’existe pas de relation préalable.
La version précédente de la spécification avait introduit de quoi envoyer des informations non sensibles par un mécanisme de type formulaire. La nouvelle version vient couvrir la transmission de données sensibles (secrets, opérations de paiement…) avec un mode hors bande fondé sur des URL de confiance qui s’ouvrent dans le navigateur. Avec lui, il n’y a pas besoin d’exposer d’éléments dans le client MCP.
On aura aussi noté la prise en charge des schémas d’énumération à choix multiple, l’ajout d’une convention de nommage des outils et la possibilité d’associer des icônes aux ressources serveur (outils, templates, prompts…).
Vers des « extensions officielles »
Pour favoriser les implémentations sectorielles et/ou adaptées à des cas d’usage, MCP va reconnaître et documenter les plus populaires, en tant qu' »extensions officielles ».
En attendant, le projet en absorbe un autre : MCPB (MCP Bundle). Ce format simplifie la distribution de serveurs locaux et leur installation sur tout client compatible. Il utilise des archives zip combinant un serveur (Node.js, Python ou binaires compilés) et son manifeste, sur un principe similaire à celui des extensions Chrome ou VS Code.
Anthropic est à l’origine de MCPB (ex-DXT, Desktop Extensions), d’abord utilisé exclusivement sur les apps de bureau Claude. Il a décidé d’en ouvrir la spec, l’outillage CLI associé et une implémentation de référence (code utilisé par l’app Claude pour Windows et Mac afin de charger et vérifier des bundles).
Des travaux sont également en cours pour conjuguer stateless et scalabilité. Le protocole Streamable HTTP a apporté une réponse partielle, des problèmes demeurant notamment sur la gestion des sessions.
Les agents d’IA sont en train de redéfinir les modes d’action de l’intelligence artificielle. À la différence des modèles de langage traditionnels, qui sont entraînés sur des ensembles de données statiques, les systèmes agentiques sont dotés de capacités autonomes de navigation, de raisonnement et d’exécution des tâches. Cela leur permet de collecter des données en temps réel, de déclencher des workflows ou de prendre des décisions contextualisées.
Cette évolution de la connaissance vers l’action offre une agilité sans précédent, mais s’accompagne néanmoins de risques complexes.
Une surface d’exposition aux risques élargie
Chaque nouvelle capacité qui permet à un agent d’exécuter une tâche, comme accéder à des données, exécuter des commandes ou s’intégrer avec une API externe, apporte son lot de vulnérabilités potentielles. Car, si l’autonomie s’accompagne d’avantages indiscutables, elle rend la technologie imprévisible. Or, dans le domaine de la sécurité des entreprises, l’absence de prévisibilité est l’ennemi numéro un.
Selon le cabinet Gartner, l’IA agentique représente la principale tendance technologique en 2025 et, selon les prédictions, 33 % des applications d’entreprise disposeront de capacités agentiques sous une forme ou une autre d’ici 2028, alors que cette proportion n’atteignait que 1 % en 2024.
La plupart des vulnérabilités ne viennent pas des modèles d’IA eux-mêmes, mais de la manière dont ceux-ci sont configurés et intégrés par des êtres humains, ou encore des permissions qui leur sont accordées. Les agents qui disposent d’autorisations trop étendues, les API avec un périmètre mal défini et des droits de navigation non contrôlés peuvent amener des agents à exposer par inadvertance des données sensibles ou à déclencher des actions non sécurisées.
Les mécanismes d’authentification traditionnels n’ont pas été conçus pour gérer des interactions entre agents ou entre les agents et les données, ce qui met en évidence la nécessité de définir des standards adaptables qui tiennent compte du contexte, à l’image de la norme ISO 42001.
Pour une autonomie maîtrisée
Pour les entreprises, il ne s’agit plus de se demander si elles sont en mesure de concevoir un agent pour réaliser un objectif donné, mais s’il s’agit véritablement d’une bonne idée.
Tous les workflows n’ont pas besoin d’être autonomes. De nombreux processus d’entreprise sont fondés sur des règles, répétables et auditables, mieux gérés par des automatisations structurées. Les systèmes agentiques, eux, concrétisent leur plein potentiel au sein d’environnements dynamiques dont le contexte évolue rapidement.
Toutefois, le déploiement responsable de tels systèmes nécessite de faire preuve de retenue, d’avoir clairement défini ses objectifs et de disposer d’un socle sécurisé. La sécurité commence par l’application du principe du moindre privilège : les agents doivent uniquement avoir accès à ce dont ils ont besoin et seulement pour la durée nécessaire.
Au fil du temps, les agents peuvent être confrontés à une accumulation des permissions. Des vérifications automatisées régulières, associées à l’analyse comportementale destinée à détecter les anomalies, comme des appels API inattendus ou des activités inhabituelles sur les fichiers, permettent de prévenir ces risques.
Au-delà du contrôle des accès, les intégrations elles-mêmes doivent être sécurisées afin de se prémunir contre les attaques de type prompt injection ou contre l’exécution de scripts malveillants.
Une gouvernance adaptée à un système en constante évolution
Contrairement aux modèles statiques, les systèmes agentiques interagissent en direct avec des données qui évoluent en permanence. Cela soulève la question de la mise en conformité en temps réel, selon laquelle la suppression ou l’anonymisation des données doit pouvoir se conformer dynamiquement aux réglementations en vigueur en matière de confidentialité, à l’image du RGPD. Toutefois, sans traçabilité, la flexibilité n’est rien. Chaque interaction avec les données doit être notée dans des journaux, monitorée et justifiée.
Dans ce contexte, la gouvernance doit être à la fois continue, adaptable et évoluer en fonction de chaque nouvelle interaction et de l’émergence de nouveaux risques.
Garder l’humain impliqué
Sachant que les entreprises intègrent des agents d’IA de plus en plus profondément au cœur de leur fonctionnement opérationnel, la supervision humaine reste indispensable. L’automatisation permet de gagner en scalabilité, en rapidité et en cohérence, mais pour gérer les cas inédits ou ambigus, les analystes humains sont dotés d’une pensée critique, d’un raisonnement éthique et d’une conscience contextuelle que les machines sont incapables d’imiter.
Les architectures les plus robustes associent des audits automatisés, garants de la cohérence, à des audits humains, qui apportent le discernement nécessaire. Ensemble, ces deux niveaux de contrôle assurent des systèmes non seulement autonomes, mais aussi véritablement responsables.
Montrer la voie à suivre
L’IA agentique est destinée à devenir l’une des pierres angulaires des infrastructures d’entreprise et sa capacité à concrétiser ses promesses repose pleinement sur le fait qu’elle soit conçue et déployée de manière responsable. Afin de garantir l’avenir des agents d’IA, il est indispensable de mettre en place une autonomie maîtrisée, intégrer une sécurité centrée sur l’identité (identity-first security), et s’assurer que la gouvernance évolue en même temps que les capacités.
Les agents d’IA de demain ne seront pas jugés sur ce qu’ils sont capables de faire, mais sur leur niveau de sécurisation, leur prévisibilité et leur fiabilité dans un cadre défini par des êtres humains.
* Shobana Sruthi Mohan est Enterprise analyst chez ManageEngine