Vue normale

AI Safety Index 2025 : un bilan inquiétant de la sécurité de l’IA

3 décembre 2025 à 16:59

Le Future of Life Institute vient de publier l’édition 2025 de son AI Safety Index, un rapport qui évalue les pratiques de sécurité des principales entreprises développant des intelligences artificielles avancées.

Les conclusions sont sans appel : aucune entreprise n’atteint l’excellence en matière de sécurité, et le secteur dans son ensemble reste dangereusement mal préparé face aux risques existentiels que pourraient poser les IA futures.

Un classement général décevant

Sur les huit entreprises évaluées, aucune n’obtient une note maximale. Le meilleur résultat revient à Anthropic avec un simple C+, suivi d’OpenAI (C) et de Google DeepMind (C-). Les autres acteurs ( xAI, Z.ai, Meta, DeepSeek et Alibaba Cloud) obtiennent des notes nettement inférieures, allant de D à F.

Cette situation révèle que même les leaders du secteur se situent tout au plus dans la moyenne. L’industrie de l’IA, malgré ses ambitions affichées de développer des systèmes toujours plus puissants, est loin de disposer des garde-fous nécessaires.

Anthropic : le meilleur élève, mais encore insuffisant

Malgré certaines critiques, Anthropic demeure l’entreprise la plus responsable selon l’index. Elle se distingue par une gouvernance solide (statut de Public Benefit Corporation), des efforts significatifs en recherche de sécurité, un cadre de sécurité relativement développé et une communication transparente sur les risques.

Toutefois, des faiblesses importantes subsistent. Le rapport souligne notamment l’absence récente d’essais sur l’amélioration des capacités humaines dans le cycle d’évaluation des risques, ainsi qu’un passage par défaut à l’utilisation des interactions des utilisateurs pour l’entraînement des modèles.

Les recommandations adressées à Anthropic incluent la formalisation de seuils de risques mesurables, la documentation de mécanismes concrets d’atténuation, l’amélioration de l’indépendance des évaluations externes et la publication d’une version publique robuste de sa politique de lanceurs d’alerte.

OpenAI : des progrès, mais un écart entre discours et pratique

OpenAI se distingue par un processus d’évaluation des risques plus large que certains concurrents et par la publication, unique parmi ses pairs, d’une politique de lanceur d’alerte (whistleblowing) suite à sa médiatisation.

Néanmoins, le rapport appelle l’entreprise à aller plus loin : rendre ses seuils de sécurité réellement mesurables et applicables, accroître la transparence vis-à-vis des audits externes, et surtout aligner ses positions publiques avec ses engagements internes.

Google DeepMind : des avancées timides

DeepMind montre des progrès en matière de transparence, ayant notamment complété le questionnaire de l’AI Safety Index et partagé des éléments de politique interne, comme son dispositif de « whistleblowing ».

Cependant, les fragilités persistent : l’évaluation des risques reste limitée, la validité des tests externes est jugée faible, et le lien entre la détection de risques et le déclenchement de mesures concrètes demeure flou.

Les autres acteurs : des efforts marginaux

Certaines entreprises ont entamé des démarches d’amélioration. Par exemple, xAI a publié un cadre de sécurité pour ses « IA de frontière », et Meta a formalisé un cadre avec seuils et modélisation des risques.

Mais les évaluations restent superficielles ou incomplètes : les couvertures de risque sont restreintes, les seuils peu crédibles, les mécanismes d’atténuation flous ou absents, et la gouvernance interne insuffisante. On note notamment l’absence de politique de lanceurs d’alerte et un manque d’autorité claire en cas de déclenchement de risques.

Pour les entreprises les moins bien notées, notamment DeepSeek et Alibaba Cloud, les progrès constatés sont très modestes, principalement sur la publication de cadres de sécurité ou la participation à des standards internationaux.

Le talon d’Achille : la sécurité existentielle

Le constat le plus alarmant du rapport concerne la sécurité existentielle, c’est-à-dire la capacité à prévenir des catastrophes majeures comme la perte de contrôle ou le mésalignement (misalignment).

Pour la deuxième édition consécutive, aucune entreprise n’obtient une note supérieure à D dans ce domaine. Cela signifie qu’en dépit des ambitions exprimées par certains acteurs de développer une AGI ou une superintelligence dans la décennie, aucune démarche crédible et concrète de planification pour garantir le contrôle ou l’alignement à long terme n’a été mise en place.

Un membre du comité d’experts qualifie ce décalage entre la cadence des innovations techniques et l’absence de stratégie de sécurité de profondément alarmant.

Cette situation pose plusieurs défis majeurs :

Un risque structurel : Si les entreprises continuent à développer des IA sans plans tangibles de contrôle existentiel, nous pourrions nous diriger vers des systèmes dont le comportement échappe à tout encadrement, posant potentiellement un danger global.

Un problème de gouvernance collective : L’absence d’un standard universel, d’un plan de surveillance indépendant ou d’une régulation contraignante rend la sécurité de l’IA dépendante de la bonne volonté des entreprises.

Une dissonance entre ambitions et préparation : Nombreuses sont les acteurs qui visent l’AGI dans la décennie, mais aucun ne démontre qu’il a envisagé, préparé ou traduit cela en mesures concrètes.

Les recommandations du rapport

Face à ce constat, le rapport formule plusieurs recommandations à destination des entreprises, des régulateurs et des décideurs publics.

D’abord, les entreprises doivent dépasser les déclarations d’intention et produire des plans concrets, chiffrés et mesurables, avec des seuils de risque clairs, des mécanismes d’alerte, des protocoles d’atténuation et une vraie gouvernance interne, idéalement avec une surveillance indépendante..

Ensuite, les entreprises devraient s’engager publiquement à respecter des standards communs, par exemple en adoptant l’AI Act  dans l’Union Européenne ou un code de bonnes pratiques similaire, et en coopérant à des initiatives globales de gouvernance de l’IA.

Enfin, en cas d’intention réelle de développer des IA très puissantes, les acteurs doivent clarifier leurs objectifs et expliquer comment ils comptent garantir le contrôle, l’alignement et la prévention des risques existentiels.

Limites méthodologiques

Il convient de noter que les évaluations reposent sur des éléments publics ou documentés. Il ne s’agit pas d’audits internes secrets, mais d’observations sur ce que les entreprises ont rendu public ou déclaré. Par conséquent, l’index mesure ce que l’on sait des pratiques, ce qui signifie que des efforts internes invisibles pourraient exister sans être capturés.

De plus, l’édition 2025 couvre des pratiques jusqu’à début novembre 2025 et ne prend pas en compte les événements récents, lancements de nouveaux modèles ou annonces postérieures à cette date.


AI Safety Index 2025 : la méthodologie


L’AI Safety Index 2025 évalue huit entreprises majeures du secteur : Anthropic, OpenAI, Google DeepMind, xAI, Z.ai, Meta, DeepSeek et Alibaba Cloud.

Sources d’information
Les évaluations reposent exclusivement sur des éléments publics ou documentés fournis par les entreprises. Il ne s’agit pas d’audits internes confidentiels, mais d’une analyse de ce que les entreprises ont choisi de rendre public ou de déclarer officiellement. Certaines entreprises ont complété le questionnaire de l’AI Safety Index, permettant une évaluation plus précise.

Système de notation
Le rapport utilise un système de notation allant de A (excellent) à F (insuffisant), avec des graduations intermédiaires (A+, A, A-, B+, B, etc.). Les notes sont attribuées par domaine d’évaluation, notamment :

  • La gouvernance et la transparence
  • L’évaluation des risques
  • Les mécanismes d’atténuation
  • La sécurité existentielle
  • Les politiques de lanceurs d’alerte
  • L’indépendance des audits externes

Limites reconnues
L’index mesure uniquement ce qui est connu publiquement des pratiques des entreprises. Des efforts internes significatifs pourraient exister sans être capturés par cette évaluation. Le rapport mentionne explicitement ses limites méthodologiques.

L’édition 2025 couvre les pratiques jusqu’à début novembre 2025 et ne prend pas en compte les événements, lancements de modèles ou annonces postérieures à cette date de collecte.

The post AI Safety Index 2025 : un bilan inquiétant de la sécurité de l’IA appeared first on Silicon.fr.

Fonctions durables, instances managées… AWS Lambda devient plus flexible

3 décembre 2025 à 16:36

Des checkpoints, du replay… et ça donne des fonctions Lambda « durables ».

AWS a mis cette option en lumière lors de sa conférence re:Invent 2025. La promesse : des exécutions qui peuvent durer jusqu’à 1 an, avec une reprise fiable après interruption ou mise en pause.

Un SDK à intégrer dans le code des fonctions permet d’implémenter les primitives qui gèrent ce mécanisme. Les mises en pause peuvent se faire pour une durée déterminée. On peut aussi conditionner la reprise à un événement donné.

La facturation se fait sur trois plans :

  • Opérations « durables » (étapes, pauses, callbacks) : 8 $ le million
  • Données écrites : 0,25 $/Go
  • Données conservées : 0,15 $/Go/mois

Lambda en un peu moins serverless

Autre option mise en avant : les instances Lambda managées. Il s’agit ici de choisir les configurations EC2 sur lesquelles exécuter les fonctions.

On crée pour cela des « fournisseurs de capacités ». Ces fournisseurs s’exécutent dans le compte AWS, au sein d’un VPC (et au moins d’un sous-réseau). On peut en paramétrer certains aspects :

  • Architecture CPU
  • Types d’instances autorisées (liste blanche, liste noire ou sans restriction)
  • Nombre maximal d’instances
  • Mode de mise à l’échelle (manuelle ou automatique)
  • Clé de chiffrement EBS (éventuellement personnalisée)

Un autre modèle de concurrence…

Lorsqu’on publie une version d’une fonction associée à un fournisseur de capacité, Lambda lance des instances managées (3 par défaut, pour la résilience). Ou bien il en utilise des existantes si les ressources sont suffisantes pour accueillir l’environnement d’exécution.
De même, un environnement d’exécution peut gérer plusieurs invocations en parallèle (64 maximum). Le modèle de concurrence est donc différent de celui de Lambda « standard » (une invocation = un environnement).

… de sécurité…

Ce système suppose que la sûreté des threads, la gestion d’état et l’isolation du contexte doivent être gérés différemment en fonction du contexte.

Les fournisseurs de sécurité constituent en fait la limite de confiance. Avec les instances Lambda managées, les fonctions s’exécutent effectivement dans des conteneurs, lesquels ne fournissent pas le même niveau de sécurité que la techno de micro-VM Firecracker utilisée en standard.

… de scaling

Avec les instances Lambda managées, pas de démarrage à froid. La mise à l’échelle est asynchrone, sur la base de signaux de consommation CPU. Dans cet esprit, l’option est donc à réserver aux workloads dont le trafic est prévisible. AWS ne garantit d’ailleurs pas la stabilité si la charge fait plus que doubler dans un intervalle de 5 minutes.

Quatre paramètres influent sur la mise à l’échelle :

  • Quantités de mémoire et de vCPU allouées à une fonction
  • Concurrence maximale par environnement
  • Cible d’utilisation de ressources
  • Types d’instances autorisés

… et de tarification

Les instances Lambda managées sont facturées au prix d’EC2 à la demande… avec 15 % de frais supplémentaires. L’option permet néanmoins d’exploiter d’éventuelles remises (savings plans, instances réservées…). Il faut ajouter des frais de 0,20 $ par million de requêtes.

instances Lambda managées

Illustration principale © Aryan – Adobe Stock

The post Fonctions durables, instances managées… AWS Lambda devient plus flexible appeared first on Silicon.fr.

AWS re:Invent : l’AI Factory, une grammaire désormais légitime ?

3 décembre 2025 à 14:13

Plus besoin de shards ni de requêtes fédérées : vous pouvez consolider vos données vectorielles en un seul index.

AWS en fait l’un des arguments de S3 Vectors, lancé en disponibilité générale lors de la re:Invent.

Avec S3 Vectors, la promesse d’un index unique

Le service était en preview depuis juillet. Il apporte une gestion native des vecteurs dans S3, avec un type de bucket spécifique. Sur le papier, c’est une alternative moins onéreuse à Aurora Serverless et OpenSearch Serverless, en contrepartie de temps de réponse allongés (« sous la seconde », affirme AWS).

La préversion permettait de stocker jusqu’à 50 millions de vecteurs par index (et 10 000 index par bucket). Avec la version commerciale, on passe à 2 milliards, d’où l’argument de la consolidation. Autre seuil relevé : le nombre maximal de résultats par requête (100 désormais, contre 30 en preview). Quant à la latence, elle est maintenant « fréquemment sous les 100 ms ».

S3 Vectors a une intégration avec Bedrock Knowledge Bases (RAG) et avec Amazon OpenSearch (utilisation comme moteur sur les clusters managés ou injection d’un snapshot dans la version serverless).

L’accélération GPU activée sur OpenSearch

En parallèle, une option d’accélération GPU fait son entrée sur l’OpenSearch d’AWS. Promesse : construire des bases vectorielles « jusqu’à 10 fois plus vite » pour un quart du prix traditionnel, grâce à un usage optimisé de l’infra. En complément, il devient possible de régler les niveaux de rappel et de latence souhaités.

accélération GPU

Une mémoire épisodique pour les agents Bedrock

À l’occasion de la re:Invent, il y a aussi du nouveau dans Bedrock AgentCore. Cette offre, lancée à l’été 2025, est dans la lignée de Bedrock Agents. Elle en a étendu les capacités (gestion native de MCP et contrôle plus fin de la mémoire, par exemple) et en a désagrégé la plupart en modules indépendants, par ailleurs « détachés » de Bedrock de sorte qu’ils prennent en charge des technologies non disponibles sur la plate-forme.

Voilà Bedrock AgentCore doté d’une forme de mémoire épisodique. Avec cette stratégie, les agents capturent des « épisodes structurants » (contexte, processus de raisonnement, actions, résultats). Ils sont censés pouvoir ainsi agir de façon plus cohérente lorsqu’ils rencontrent des situations similaires.

AWS dote aussi AgentCore de la diffusion audio bidirectionnelle. Lors des interactions vocales, l’agent peut être interrompu et s’adapter au nouveau contexte sans avoir à terminer son action au préalable.

Un service managé de supervision est également ajouté, mais pour le moment en preview. On peut y intégrer des évaluations personnalisées en plus de celles livrées pour analyser des indicateurs tels que la précision, l’utilité, la concision et la sûreté. Les résultats sont délivrés dans CloudWatch.

évaluations

Autre preview : celle de la fonctionnalité Policy in AgentCore. Elle permet d’intercepter les appels d’outils sur la passerelle et de leur appliquer des stratégies définies en langage naturel ou avec Cedar.

Les derniers modèles Mistral et Gemma ajoutés sur Bedrock

AWS a aussi profité de la re:Invent pour rappeler les derniers ajouts de modèles ouverts sur Bedrock. Parmi eux :

  • Mistral Large 3, Ministral 3 (3B, 8B, 14B), Magistral Small 1.2, Voxtral Mini 1.0, Voxtral Small 1.0
  • Gemma 3 (4B, 12B, 27B)
  • Kimi K2 Thinking (de Moonshot AI)
  • MiniMax M2 (de MiniMax AI)
  • Nemotron Nano 2 9B et une version « vision » 12B (de NVIDIA)
  • GPT-OSS-safeguard 20B et 120B (modèles de modération de contenu)
  • Qwen3-Next-80B-A3B et Qwen3-VL-235B-A22B

Nova Sonic : une deuxième génération plus polyglotte

Amazon enrichit aussi sa propre famille de modèles Nova. Avec notamment Nova 2 Sonic.

La première génération de ce modèle de reconnaissance et de synthèse vocales avait été lancée en avril. La deuxième gère mieux les entrées alphanumériques, les énoncés courts, les accents, le bruit de fond et l’audio qualité téléphonie (8 kHz). Avec elle arrivent les « voix polyglottes » (capacité à changer de langue au milieu d’une conversation), les appels d’outils asynchrones et un réglage de sensibilité pour la détection de voix (ce qui laisse plus ou moins de temps à l’utilisateur pour finir sa phrase).

benchmark Amazon Nova 2 Sonic

AWS lance Nova dans le bain de l’automatisation web

Sous la marque Nova Forge, AWS permet de continuer l’entraînement de ses propres modèles à partir de divers checkpoints, en utilisant des jeux de données spécialisés « sur étagère » ou en en important. L’ensemble repose sur l’outillage SageMaker AI et permet d’effectuer éventuellement de l’apprentissage par renforcement.

On trouve aussi un modèle Amazon (Nova 2 Lite) à la base de Nova Act, service d’automatisation agentique pour les navigateurs web. Il est intégré avec le framework d’ochestration Strands Agents.

benchmark Amazon Nova Act

Les données synthétiques sous l’angle privacy

Les serveurs de tracking MLflow qu’on peut greffer depuis l’an dernier à SageMaker pour superviser les expérimentations ML disposent désormais d’une option serverless. Avec la possibilité de partager des instances entre domaines et comptes AWS.

Le service Clean Rooms (salles blanches de données) permet quant à lui maintenant de créer des jeux de données synthétiques (tabulaires, destinées à entraîner des modèles de régression et de classification ; pas des LLM). Le système utilise un modèle qui reproduit les patterns statistiques du dataset d’origine tout en éliminant les données identifiantes. En ce sens, il est présenté comme une alternative aux techniques d’anonymisation.

AI Factories : AWS s’approprie aussi la notion

AWS s’approprie le concept des AI Factories en lançant une offre sous ce nom. On n’en sait pas grand-chose à l’heure actuelle, sinon qu’elle doit permettre de déployer des clusters IA managés (puces Trainium et NVIDIA + services AWS) dans les datacenters des clients, « comme une région AWS privée ». Premier client référent : l’entreprise saoudienne HUMAIN, qui va installer sur place une « zone IA » avec jusqu’à 150 000 GPU.

Des fonctions Lambda « durables »

Les fonctions Lambda durables ne sont pas spécifiques aux workloads IA, mais elles sont susceptibles de faciliter leur exécution.

Par « durables », il faut entendre « dont la durée de vie peut atteindre 1 an ». Elle peuvent effectivement être mises en pause jusqu’à ce que des conditions spécifiques soient remplies (typiquement, des événements externes). Seul le temps de calcul actif est facturé.

Un SDK s’intègre au code des fonctions pour pouvoir implémenter ces pauses. Ainsi que des « étapes » permettant de ne pas reprendre l’exécution depuis le début en cas d’échec.

Illustration principale générée par IA

The post AWS re:Invent : l’AI Factory, une grammaire désormais légitime ? appeared first on Silicon.fr.

❌