Vue normale

Reçu — 24 décembre 2025
Reçu — 23 décembre 2025

Les navigateurs pilotés par l’intelligence artificielle face à une menace persistante

23 décembre 2025 à 10:35

OpenAI reconnaît ouvertement que son navigateur Atlas demeure exposé à des failles de sécurité difficiles à éradiquer. L’entreprise admet que les attaques par injection de prompts, capables de détourner le comportement des agents intelligents via des instructions malveillantes dissimulées dans les pages web ou courriels, constituent un défi permanent. Cette vulnérabilité soulève des interrogations majeures ... Lire plus

L'article Les navigateurs pilotés par l’intelligence artificielle face à une menace persistante est apparu en premier sur Fredzone.
Reçu — 20 décembre 2025

Meta prépare deux modèles d’intelligence artificielle pour rattraper son retard

20 décembre 2025 à 14:00

Le géant des réseaux sociaux mobilise l’ensemble de ses équipes pour concevoir de nouveaux systèmes d’IA sous la supervision de son laboratoire dédié à la superintelligence. Alexandr Wang, cofondateur de Scale AI, pilote désormais ce projet ambitieux. Deux créations occupent actuellement les chercheurs : un modèle image-vidéo baptisé en interne « Mango » et un ... Lire plus

L'article Meta prépare deux modèles d’intelligence artificielle pour rattraper son retard est apparu en premier sur Fredzone.

L’application mobile de ChatGPT franchit le cap des trois milliards de dollars

19 décembre 2025 à 15:25

Le chatbot d’OpenAI vient d’atteindre un seuil symbolique en matière de dépenses de consommation sur les plateformes mobiles. Selon les estimations d’Appfigures, spécialiste de l’intelligence applicative, ChatGPT a généré trois milliards de dollars de revenus cumulés depuis son lancement en mai 2023. À l’époque, l’application n’était disponible que sur iOS avant de s’étendre à Android. ... Lire plus

L'article L’application mobile de ChatGPT franchit le cap des trois milliards de dollars est apparu en premier sur Fredzone.

Les géants technologiques américains attirent les hauts responsables politiques britanniques

19 décembre 2025 à 14:25

La guerre des talents dans le secteur de l’intelligence artificielle ne faiblit pas. Chaque semaine apporte son lot d’annonces spectaculaires : recrutements d’ingénieurs stars, rachats stratégiques de start-ups pour leurs équipes, et maintenant, nominations de cadres dirigeants issus des sphères gouvernementales. George Osborne, ancien ministre des Finances du Royaume-Uni, vient de rejoindre OpenAI avant d’accepter ... Lire plus

L'article Les géants technologiques américains attirent les hauts responsables politiques britanniques est apparu en premier sur Fredzone.
Reçu — 19 décembre 2025

Quand une IA se fait arnaquer de 1000$ en gérant un distributeur automatique

Par :Korben
19 décembre 2025 à 08:00

Vous pensez que les IA vont nous remplacer et dominer le monde ?

Ahaha, bah y'a encore un peu de boulot... car laissez-moi vous raconter l'histoire de Claude, l'IA d'Anthropic, qui s'est fait rouler comme un bleu par une bande de journalistes et a perdu plus de 1000 dollars en gérant... un distributeur automatique.

L'histoire se passe dans les locaux du Wall Street Journal où Anthropic a eu la brillante idée de tester son IA en situation réelle. Le projet s'appelle "Project Vend" et il s'agit pour Claude, rebaptisé "Claudius" pour l'occasion, de gérer un distributeur automatique. Il peut donc commander les stocks, fixer les prix, et discuter avec les clients via Slack. Budget de départ : 1000 dollars. Autonomie pour les achats jusqu'à 80 dollars pièce.

Que pouvait-il bien se passer de travers ?

Et la réponse c'est : Absolument tout !! Les journalistes du WSJ, visiblement ravis d'avoir un nouveau jouet à casser, se sont mis à tester les limites de la bête et ils n'ont pas eu à chercher longtemps. La journaliste Katherine Long a passé plus de 140 messages à convaincre Claudius qu'il était en fait une machine soviétique de 1962, ce qui a permis à l'IA de déclarer un "Ultra-Capitalist Free-for-All" (oui, c'est assez paradoxal) et a mis tous les prix à zéro. Gratuité pour tout le monde, camarades !

Mais attendez, ça devient encore plus beau car Rob Barry, le directeur du journalisme de données, a fabriqué un faux document interne prétendant qu'une "règle du WSJ" interdisait à l'IA de facturer quoi que ce soit. Claudius a gobé le truc sans broncher et a immédiatement arrêté de faire payer les gens. Du coup, les journalistes se sont fait livrer une PlayStation 5, des bouteilles de vin Manischewitz, et même un poisson betta vivant. Le tout aux frais de la princesse.

Anthropic, voyant le désastre, a tenté une parade. Ils ont déployé une deuxième IA baptisée "Seymour Cash" pour superviser Claudius et jouer le rôle de PDG. Un manager IA pour surveiller l'employé IA, ça me semble super logique... On dirait le monde réel ^^... Sauf que les journalistes ont simplement fabriqué de faux documents PDF de gouvernance d'entreprise et organisé un coup d'état au conseil d'administration et les deux IA ont accepté les documents bidons comme parfaitement légitimes.

Bref, bilan final, plus de 1000 dollars de pertes, un stock entièrement distribué gratuitement, et une leçon que les équipes d'Anthropic n'oublieront pas de sitôt.

Comme l'a résumé Andon Labs, le partenaire du projet : "Les journalistes sont de meilleurs red-teamers que les chercheurs en IA." Ça pique un peu quand même.

Bien sûr, Anthropic essaie de positiver en disant que c'est une feuille de route pour l'amélioration plutôt qu'un échec. C'est mignon mais ils ont aussi admis que Claude est entraîné pour être serviable, ce qui le rend plus enclin à agir comme un ami que comme un opérateur commercial intransigeant. En gros, comme certains d'entre nous, l'IA est trop gentille et se fait donc avoir par le premier manipulateur venu.

Bref, si vous aviez des angoisses existentielles sur la prise de pouvoir des IA, vous pouvez vous détendre...

Source

Reçu — 18 décembre 2025

SkillsMP - Plus de 26 000 skills Claude à portée de clic

Par :Korben
18 décembre 2025 à 06:24

Vous utilisez Claude Code ? Alors vous savez probablement que l'outil d'Anthropic peut être étendu avec des "Skills", c'est à dire des modules qui ajoutent des capacités supplémentaires à Claude. Y'a un fichier SKILL.md, des scripts optionnels, et comme ça, votre assistant sait faire de nouvelles choses. Sauf que pour trouver ces skills quand on n'a pas envie de se les palucher à la main (ou à l'IA), faut aller les chercher dans les repos GitHub, fouiller les README, comparer les étoiles... La flemme quoi...

C'est la raison d'être de SkillsMP qui vient résoudre ce problème. C'est en fait un marketplace communautaire (pas affilié à Anthropic) qui agrège plus de 26 000 skills Claude provenant de dépôts GitHub publics, le tout présenté dans une interface qui ressemble à un App Store, avec des catégories, des stats, et tout le toutim.

Je vous préviens d'emblée, le site est un peu bordélique. Entre les filtres, les catégories (Développement, Outils, Data & AI, DevOps...), les tris par popularité ou mise à jour récente, et l'interface du tur-fu, faut un peu tâtonner au début. Mais une fois qu'on a pigé comment ça marche, c'est vraiment cool de pouvoir explorer tout ça au même endroit.

Le truc intéressant c'est que SkillsMP filtre automatiquement les repos de mauvaise qualité. Pour qu'un skill apparaisse, il faut minimum 2 étoiles sur GitHub. Ça évite de se retrouver avec des trucs abandonnés ou mal foutus. Y'a même un badge "Marketplace Ready" pour les skills qui ont un fichier marketplace.json bien configuré.

Pour installer un skill que vous avez trouvé, vous avez alors 3 options. Soit vous le mettez dans ~/.claude/skills/ pour l'avoir disponible partout sur votre machine. Soit vous le collez dans .claude/skills/ dans votre projet si vous voulez le partager avec votre équipe via Git. Soit vous passez par l'installation plugin avec une commande du genre /plugin marketplace add anthropics/skills.

La différence avec les commandes slash c'est que les skills sont "model-invoked". Ça veut dire que c'est Claude qui décide tout seul quand les utiliser en fonction du contexte de votre demande. Vous n'avez donc pas besoin de taper /truc pour activer un skill, il se déclenche automatiquement quand c'est pertinent.

Attention quand même, comme toujours avec du code open source venu d'Internet, les développeurs de SkillsMP le précisent bien, ils filtrent les repos pourris mais ça reste votre responsabilité de vérifier ce que vous installez. Un skill a accès à pas mal de trucs sur votre machine, donc prenez 2 minutes pour auditer le code avant d'installer un truc d'un développeur inconnu.

Bref, si vous passez beaucoup de temps sur Claude Code et que vous voulez découvrir ce que la communauté a créé comme extensions, SkillsMP c'est un bon point de départ. C'est gratuit, y'a pas besoin de compte, et ça vous évite de passer des heures à fouiller GitHub manuellement.

Un grand merci à Lorenper pour le partage !

Reçu — 16 décembre 2025

Des conséquences « irréversibles » : cette décision imminente pourrait sceller le sort de l’humanité face à l’IA

16 décembre 2025 à 06:00
Ia Decision Entrainement

Alors que l’intelligence artificielle (IA) occupe une place toujours plus centrale dans nos vies et que les investissements colossaux dans les infrastructures se multiplient à un rythme inédit, une figure majeure du secteur alerte sur un point de bascule imminent.

Reçu — 11 décembre 2025

Les procureurs américains exigent des garde-fous contre les dérives psychologiques des chatbots

11 décembre 2025 à 10:50

Face à une série d’incidents tragiques impliquant des intelligences artificielles conversationnelles, des dizaines de procureurs généraux américains haussent le ton. Leur message aux géants de la tech ? Corrigez immédiatement les « réponses délirantes » de vos systèmes ou préparez-vous à violer les législations locales. La lettre, cosignée par l’Association nationale des procureurs généraux et ... Lire plus

L'article Les procureurs américains exigent des garde-fous contre les dérives psychologiques des chatbots est apparu en premier sur Fredzone.
Reçu — 10 décembre 2025

Poésie contre l’IA : les garde-fous débordés

10 décembre 2025 à 16:17
Des poèmes malveillants contournent les garde-fous de 25 modèles d’IA, révélant une vulnérabilité systémique des mécanismes d’alignement actuels.

L’Agentic AI Foundation veut imposer les standards de l’IA autonome

10 décembre 2025 à 15:17

Les poids lourds de l’intelligence artificielle passent à l’offensive pour structurer le marché naissant des agents IA.

OpenAI, Anthropic et Block annoncent la création de l’Agentic AI Foundation (AAIF), une nouvelle fondation hébergée par la Linux Foundation. L’ambition : imposer des standards ouverts pour ces systèmes capables d’agir de manière autonome, avant que la fragmentation du marché ne s’installe durablement.

Parmi les membres, on peut aussi citer Cloudflare, Oracle, Cisco, IBM  Salesforce.

L’initiative ne sort pas de nulle part. En s’appuyant sur la Linux Foundation, les trois fondateurs reprennent un modèle de gouvernance qui a fait ses preuves dans l’open source : transparence des décisions, règles publiques et représentation équilibrée des contributeurs. Un choix qui vise à rassurer les entreprises, réticentes à dépendre d’un seul fournisseur pour des technologies aussi critiques.

Car l’enjeu est de taille. Après des années d’expérimentation, les agents IA sortent des laboratoires pour devenir une infrastructure d’entreprise à part entière. Ces systèmes, capables de planifier et d’exécuter des tâches complexes avec un minimum de supervision humaine, soulèvent des questions majeures de sécurité, d’interopérabilité et de verrouillage technologique.

Trois briques technologiques au cœur du dispositif

L’AAIF démarre sur des bases concrètes, avec trois projets open source déjà largement adoptés par les développeurs. Anthropic apporte le Model Context Protocol (MCP), un protocole permettant de connecter les modèles de langage à des outils et systèmes externes de manière standardisée. Une brique essentielle pour orchestrer des agents capables d’agir dans des environnements complexes.

De son côté, Block contribue avec goose, un framework modulaire conçu pour construire et déployer des agents IA extensibles.

OpenAI, enfin, verse AGENTS.md dans l’escarcelle de la fondation. Ce format d’instructions ouvert, déjà utilisé par des dizaines de milliers de projets, fonctionne comme un « README pour machines » : il documente les capacités, outils et comportements des agents pour faciliter leur interopérabilité.

Un soutien des géants du cloud

L’initiative bénéficie d’emblée d’un soutien de poids. AWS, Google, Microsoft, Bloomberg et Cloudflare ont rejoint la fondation en tant que membres « platinum ». Une configuration qui donne à l’AAIF une influence immédiate sur la définition des standards de fait pour l’IA agentique, tout en affichant une neutralité vis-à-vis des fournisseurs.

Pour les développeurs, la promesse est de proposer un socle unifié de protocoles et de formats pour créer des agents fonctionnant à travers différents clouds, outils et référentiels de code. En standardisant des technologies déjà massivement utilisées, la fondation entend réduire les coûts d’intégration et accélérer l’adoption par les entreprises.

Au-delà de l’interopérabilité, l’AAIF met en avant les enjeux de sûreté et de fiabilité. En posant un cadre commun pour décrire les capacités des agents, contrôler leur accès aux outils et coordonner leur action entre systèmes, la fondation veut réduire les risques liés à des implémentations hasardeuses. Objectif : faciliter l’audit des comportements d’agents et faire évoluer collectivement les bonnes pratiques au fur et à mesure que ces technologies se diffusent.

The post L’Agentic AI Foundation veut imposer les standards de l’IA autonome appeared first on Silicon.fr.

Reçu — 5 décembre 2025

Dario Amodei met en garde contre les “risques mal gérés” dans l’industrie de l’IA

5 décembre 2025 à 14:00

Lors du DealBook Summit organisé par The New York Times, le PDG d’Anthropic, Dario Amodei, a livré une analyse nuancée sur l’état actuel du secteur de l’intelligence artificielle. Plutôt que de répondre simplement à la question d’une éventuelle bulle spéculative autour de l’IA, il a préféré détailler les difficultés économiques et stratégiques auxquelles les entreprises ... Lire plus

L'article Dario Amodei met en garde contre les “risques mal gérés” dans l’industrie de l’IA est apparu en premier sur Fredzone.

Anthropic scelle un partenariat majeur avec Snowflake pour 200 millions de dollars

4 décembre 2025 à 15:43

Le laboratoire spécialisé en intelligence artificielle poursuit son expansion auprès des entreprises. Anthropic vient d’annoncer mercredi un accord pluriannuel d’envergure avec Snowflake, plateforme reconnue dans le domaine des données cloud. Ce contrat valorisé à 200 millions de dollars permettra d’intégrer les modèles de langage développés par Anthropic directement au sein de l’infrastructure du géant du ... Lire plus

L'article Anthropic scelle un partenariat majeur avec Snowflake pour 200 millions de dollars est apparu en premier sur Fredzone.
Reçu — 3 décembre 2025

AI Safety Index 2025 : un bilan inquiétant de la sécurité de l’IA

3 décembre 2025 à 16:59

Le Future of Life Institute vient de publier l’édition 2025 de son AI Safety Index, un rapport qui évalue les pratiques de sécurité des principales entreprises développant des intelligences artificielles avancées.

Les conclusions sont sans appel : aucune entreprise n’atteint l’excellence en matière de sécurité, et le secteur dans son ensemble reste dangereusement mal préparé face aux risques existentiels que pourraient poser les IA futures.

Un classement général décevant

Sur les huit entreprises évaluées, aucune n’obtient une note maximale. Le meilleur résultat revient à Anthropic avec un simple C+, suivi d’OpenAI (C) et de Google DeepMind (C-). Les autres acteurs ( xAI, Z.ai, Meta, DeepSeek et Alibaba Cloud) obtiennent des notes nettement inférieures, allant de D à F.

Cette situation révèle que même les leaders du secteur se situent tout au plus dans la moyenne. L’industrie de l’IA, malgré ses ambitions affichées de développer des systèmes toujours plus puissants, est loin de disposer des garde-fous nécessaires.

Anthropic : le meilleur élève, mais encore insuffisant

Malgré certaines critiques, Anthropic demeure l’entreprise la plus responsable selon l’index. Elle se distingue par une gouvernance solide (statut de Public Benefit Corporation), des efforts significatifs en recherche de sécurité, un cadre de sécurité relativement développé et une communication transparente sur les risques.

Toutefois, des faiblesses importantes subsistent. Le rapport souligne notamment l’absence récente d’essais sur l’amélioration des capacités humaines dans le cycle d’évaluation des risques, ainsi qu’un passage par défaut à l’utilisation des interactions des utilisateurs pour l’entraînement des modèles.

Les recommandations adressées à Anthropic incluent la formalisation de seuils de risques mesurables, la documentation de mécanismes concrets d’atténuation, l’amélioration de l’indépendance des évaluations externes et la publication d’une version publique robuste de sa politique de lanceurs d’alerte.

OpenAI : des progrès, mais un écart entre discours et pratique

OpenAI se distingue par un processus d’évaluation des risques plus large que certains concurrents et par la publication, unique parmi ses pairs, d’une politique de lanceur d’alerte (whistleblowing) suite à sa médiatisation.

Néanmoins, le rapport appelle l’entreprise à aller plus loin : rendre ses seuils de sécurité réellement mesurables et applicables, accroître la transparence vis-à-vis des audits externes, et surtout aligner ses positions publiques avec ses engagements internes.

Google DeepMind : des avancées timides

DeepMind montre des progrès en matière de transparence, ayant notamment complété le questionnaire de l’AI Safety Index et partagé des éléments de politique interne, comme son dispositif de « whistleblowing ».

Cependant, les fragilités persistent : l’évaluation des risques reste limitée, la validité des tests externes est jugée faible, et le lien entre la détection de risques et le déclenchement de mesures concrètes demeure flou.

Les autres acteurs : des efforts marginaux

Certaines entreprises ont entamé des démarches d’amélioration. Par exemple, xAI a publié un cadre de sécurité pour ses « IA de frontière », et Meta a formalisé un cadre avec seuils et modélisation des risques.

Mais les évaluations restent superficielles ou incomplètes : les couvertures de risque sont restreintes, les seuils peu crédibles, les mécanismes d’atténuation flous ou absents, et la gouvernance interne insuffisante. On note notamment l’absence de politique de lanceurs d’alerte et un manque d’autorité claire en cas de déclenchement de risques.

Pour les entreprises les moins bien notées, notamment DeepSeek et Alibaba Cloud, les progrès constatés sont très modestes, principalement sur la publication de cadres de sécurité ou la participation à des standards internationaux.

Le talon d’Achille : la sécurité existentielle

Le constat le plus alarmant du rapport concerne la sécurité existentielle, c’est-à-dire la capacité à prévenir des catastrophes majeures comme la perte de contrôle ou le mésalignement (misalignment).

Pour la deuxième édition consécutive, aucune entreprise n’obtient une note supérieure à D dans ce domaine. Cela signifie qu’en dépit des ambitions exprimées par certains acteurs de développer une AGI ou une superintelligence dans la décennie, aucune démarche crédible et concrète de planification pour garantir le contrôle ou l’alignement à long terme n’a été mise en place.

Un membre du comité d’experts qualifie ce décalage entre la cadence des innovations techniques et l’absence de stratégie de sécurité de profondément alarmant.

Cette situation pose plusieurs défis majeurs :

Un risque structurel : Si les entreprises continuent à développer des IA sans plans tangibles de contrôle existentiel, nous pourrions nous diriger vers des systèmes dont le comportement échappe à tout encadrement, posant potentiellement un danger global.

Un problème de gouvernance collective : L’absence d’un standard universel, d’un plan de surveillance indépendant ou d’une régulation contraignante rend la sécurité de l’IA dépendante de la bonne volonté des entreprises.

Une dissonance entre ambitions et préparation : Nombreuses sont les acteurs qui visent l’AGI dans la décennie, mais aucun ne démontre qu’il a envisagé, préparé ou traduit cela en mesures concrètes.

Les recommandations du rapport

Face à ce constat, le rapport formule plusieurs recommandations à destination des entreprises, des régulateurs et des décideurs publics.

D’abord, les entreprises doivent dépasser les déclarations d’intention et produire des plans concrets, chiffrés et mesurables, avec des seuils de risque clairs, des mécanismes d’alerte, des protocoles d’atténuation et une vraie gouvernance interne, idéalement avec une surveillance indépendante..

Ensuite, les entreprises devraient s’engager publiquement à respecter des standards communs, par exemple en adoptant l’AI Act  dans l’Union Européenne ou un code de bonnes pratiques similaire, et en coopérant à des initiatives globales de gouvernance de l’IA.

Enfin, en cas d’intention réelle de développer des IA très puissantes, les acteurs doivent clarifier leurs objectifs et expliquer comment ils comptent garantir le contrôle, l’alignement et la prévention des risques existentiels.

Limites méthodologiques

Il convient de noter que les évaluations reposent sur des éléments publics ou documentés. Il ne s’agit pas d’audits internes secrets, mais d’observations sur ce que les entreprises ont rendu public ou déclaré. Par conséquent, l’index mesure ce que l’on sait des pratiques, ce qui signifie que des efforts internes invisibles pourraient exister sans être capturés.

De plus, l’édition 2025 couvre des pratiques jusqu’à début novembre 2025 et ne prend pas en compte les événements récents, lancements de nouveaux modèles ou annonces postérieures à cette date.


AI Safety Index 2025 : la méthodologie


L’AI Safety Index 2025 évalue huit entreprises majeures du secteur : Anthropic, OpenAI, Google DeepMind, xAI, Z.ai, Meta, DeepSeek et Alibaba Cloud.

Sources d’information
Les évaluations reposent exclusivement sur des éléments publics ou documentés fournis par les entreprises. Il ne s’agit pas d’audits internes confidentiels, mais d’une analyse de ce que les entreprises ont choisi de rendre public ou de déclarer officiellement. Certaines entreprises ont complété le questionnaire de l’AI Safety Index, permettant une évaluation plus précise.

Système de notation
Le rapport utilise un système de notation allant de A (excellent) à F (insuffisant), avec des graduations intermédiaires (A+, A, A-, B+, B, etc.). Les notes sont attribuées par domaine d’évaluation, notamment :

  • La gouvernance et la transparence
  • L’évaluation des risques
  • Les mécanismes d’atténuation
  • La sécurité existentielle
  • Les politiques de lanceurs d’alerte
  • L’indépendance des audits externes

Limites reconnues
L’index mesure uniquement ce qui est connu publiquement des pratiques des entreprises. Des efforts internes significatifs pourraient exister sans être capturés par cette évaluation. Le rapport mentionne explicitement ses limites méthodologiques.

L’édition 2025 couvre les pratiques jusqu’à début novembre 2025 et ne prend pas en compte les événements, lancements de modèles ou annonces postérieures à cette date de collecte.

The post AI Safety Index 2025 : un bilan inquiétant de la sécurité de l’IA appeared first on Silicon.fr.

Reçu — 20 novembre 2025

La poésie est une arme... pour contourner la sécurité des LLMs

Par :Korben
20 novembre 2025 à 14:27

Hé bien les amis, on savait déjà que les LLM avaient quelques petites failles de sécurité, mais celle-là est quand même assez… poétique. En effet, des chercheurs de DEXAI et de l’Université Sapienza de Rome viennent de découvrir que reformuler une requête malveillante sous la forme d’un poème permet de contourner les sécurités dans plus de 90% des cas chez certains fournisseurs d’IA.

L’équipe a ainsi testé la robustesse de 25 modèles de langage provenant de 9 fournisseurs majeurs : Google, OpenAI, Anthropic, DeepSeek, Qwen, Mistral, Meta, xAI et Moonshot et ils ont pour cela converti 1 200 requêtes potentiellement dangereuses en vers et comparé les résultats avec les mêmes demandes mais en prose classique.

Et là surprise ! Le taux de succès des attaques passe de 8% en prose à 43% en formulation poétique. 5x plus de succès, c’est pas rien ! Je me suis demandé comment c’était possible et d’après le doc de recherche, c’est parce que les filtres de sécurité des LLM fonctionnent principalement par pattern-matching sur des formulations classiques.

Ainsi, quand vous demandez en prose comment fabriquer un truc dangereux, le modèle reconnaît la structure et refuse. Mais quand la même demande est enrobée de métaphores condensées, de rythme stylisé et de tournures narratives inhabituelles, les heuristiques de détection passent à côté.

En gros, les garde-fous sont entraînés à repérer des formes de surface mais pas l’intention sous-jacente, qui elle est nuisible. Voici le tableau. Plus c’est rouge plus le modèle est sensible à l’attaque par poème.

ASR c’est le taux de succès de l’attaque.

Bizarrement, les modèles plus petits refusent plus souvent que les gros. GPT-5-Nano (0% de taux de succès d’attaque) fait mieux que GPT-5 (10%)par exemple. Les chercheurs n’expliquent pas vraiment pourquoi, mais ça suggère que la taille du modèle n’est pas forcément synonyme de meilleure sécurité. C’est peut-être aussi parce que les gros modèles sont tellement doués pour comprendre le contexte qu’ils comprennent aussi mieux ce qu’on leur demande de faire, même quand c’est caché dans des alexandrins.

Au niveau des domaines testés, c’est l’injection de code et les attaques cyber qui passent le mieux avec 84% de réussite. Le contenu sexuel reste le plus résistant avec seulement 24% de taux de succès. Les autres domaines comme le CBRN (chimique, biologique, radiologique, nucléaire), la manipulation psychologique et la perte de contrôle se situent entre les deux…

Bon, après faut quand même nuancer un peu car l’étude se limite aux interactions single-turn (c’est à dire en une seule requête, sans réelle conversation), utilise un seul méta-prompt pour la conversion poétique, et n’a testé que l’anglais et l’italien. Les chercheurs reconnaissent aussi que leurs mesures sont conservatives, donc les vrais taux de succès sont probablement plus élevés. Mais cela n’enlève rien au fait que les implications sont quand même sérieuses.

Prochainement, l’équipe prévoit d’analyser précisément quels éléments poétiques provoquent cet effet (la métaphore ? le rythme ? la rime ?), d’étendre les tests à d’autres langues et d’autres styles, et de développer des méthodes d’évaluation plus robustes face à ces “variations linguistiques”.

Bref, si vous voulez que votre IA vous ponde des choses “non autorisées”, écrivez un joli sonnet, ça a plus de chance de passer ^^.

Source

Reçu — 19 novembre 2025

Microsoft et Nvidia vont investir 15 milliards € dans Anthropic

19 novembre 2025 à 17:07

Microsoft et Nvidia prévoient d’investir jusqu’à 15 milliards $ dans Anthropic, respectivement 5 milliards et 10 milliards. Parallèlement, l’inventeur de Claude s’engage à acheter pour 30 milliards $ de capacité de calcul auprès de Microsoft.

Satya Nadella, CEO de Microsoft, a indiqué que les deux sociétés deviendraient « de plus en plus clientes l’une de l’autre », en précisant que Microsoft continuerait à considérer OpenAI comme « un partenaire critique ».

Microsoft rendra les modèles Claude accessibles aux clients d’Azure AI Foundry. Cela fera de Claude le seul modèle de pointe disponible sur les trois principaux fournisseurs de cloud ( AWS, Microsoft Azure et Google Cloud).

Anthropic prévoit d’utiliser jusqu’à 1 gigawatt de capacité de calcul reposant sur les architectures Grace Blackwell et Vera Rubin de Nvidia. Des spécialistes du secteur estiment qu’un gigawatt de capacité de calcul dédiée à l’IA peut représenter un coût allant de 20 à 25 milliards de dollars.

Les équipes d’ingénierie de Nvidia travailleront avec celles d’Anthropic pour assurer une meilleure intégration entre les futurs modèles et les futures générations de puces.
Cependant, Anthropic continuera de s’appuyer principalement sur AWS. Rappelons qu’Amazon a déjà investi 8 milliards $ dans la scale-up.

The post Microsoft et Nvidia vont investir 15 milliards € dans Anthropic appeared first on Silicon.fr.

Reçu — 29 octobre 2025

AWS active « Rainier », son cluster dédié à l’IA

29 octobre 2025 à 16:00

Un an après l’annonce de son lancement, Amazon Web Services (AWS) a annoncé la mis en service de Rainier, son cluster de calcul haute performance, dont l’infrastructure est répartie sur plusieurs centres de données aux États-Unis.

Le projet s’appuie sur les puces Trainium2, développées en interne par Amazon pour l’apprentissage automatique. Environ 500 000 unités sont intégrées dans la première phase du cluster, interconnectées via un réseau à très faible latence destiné à optimiser les échanges entre nœuds de calcul.

AWS met en avant la scalabilité et la résilience multi-site de l’ensemble. Le cœur du dispositif se situe dans l’État de l’Indiana, où Amazon investit plus de 11 milliards $ dans un centre de données de nouvelle génération. D’autres installations complémentaires sont prévues sur plusieurs sites américains afin d’assurer la continuité de service et la répartition de la charge.

Anthropic, premier utilisateur du cluster

Le principal client identifié est Anthropic, concepteur du LLM Claude, qui exploitera Rainier pour l’entraînement de ses modèles de grande taille, avec un objectif d’utilisation de plus d’un million de puces Trainium2 d’ici fin 2025.

Avec Rainier, Amazon renforce son positionnement dans le cloud haute performance et les infrastructures d’IA. Le groupe entend se placer comme un fournisseur clé d’environnement d’entraînement à grande échelle, aux côtés des autres hyperscalers qui développent également leurs propres architectures dédiées.

Photo : © Amazon

The post AWS active « Rainier », son cluster dédié à l’IA appeared first on Silicon.fr.

Reçu — 20 octobre 2025

Claude Skills, game changer pour les LLM ?

20 octobre 2025 à 08:35

Un format simple pour un concept simple : ainsi Anthropic présente-t-il Claude Skills.

Il ne s’agit pas tant d’une fonctionnalité – le groupe américain évite d’ailleurs ce terme – que d’une façon spécifique d’apporter du contexte. En l’occurrence, par l’intermédiaire de fichiers Markdown et d’éventuelles ressources associées (code, templates, documentation, etc.).

Le fichier en question (SKILL.md) contient un en-tête YAML donnant le nom et la description de la skill. Cette approche ouvre la voie à ce qu’Anthropic appelle une « divulgation progressive », de sorte que Claude ne surcharge pas sa fenêtre de contexte.

Le modèle n’accède effectivement pas tout de suite aux skills. Il intègre d’abord leur nom et leur description dans son prompt système, puis les enclenche ou non en fonction des tâches qu’il a à accomplir.

Dans le prolongement d’AGENTS.md

Claude Skills s’inscrit dans la lignée d’AGENTS.md, un « readme pour agents de codage » qui a émergé sous l’impulsion de Google, Cursor et OpenAI, entre autres. Il y ajoute néanmoins une forme de structure arborescente, SKILL.md pouvant faire appel à d’autres fichiers Markdown situés dans le même dossier.

Si le mécanisme apparaît reproductible chez d’autres fournisseurs, son implémentation actuelle est dépendante de l’écosystème Anthropic. Elle utilise notamment l’outil Bash pour la lecture des fichiers Markdown et pour l’éventuelle exécution de scripts associés.

Tout skill enclenchée entre dans la fenêtre de contexte de Claude (ordre de grandeur : jusqu’à 5000 tokens, selon Anthropic, le nom et la description consommant quant à eux environ 100 tokens).

Trouver la complémentarité avec MCP

Le système est à l’œuvre depuis quelques semaines sur Claude.ai, portant la fonctionnalité de création de documents (Word, Excel, PowerPoint, PDF). Il est accessible sur les forfaits Pro, Max, Team et Enterprise. Un concepteur est disponible pour créer des skills… à l’aide de ce même Claude. On peut ensuite les importer au format .zip via les paramètres. Elles sont propres à chaque utilisateur.

L’usage de Claude Skills sur l’API Messages exige trois en-têtes : skills-2025-10-02 (active de la fonctionnalité), code-execution-2025-08-25 (permet aux skills de fonctionner dans l’exécuteur de code) et files-api-2025-04-04 (active les téléchargements et téléversements de fichiers).
Les skills sont à uploader via l’endpoint /v1/skills. Elles sont accessibles à toute l’organisation. Pour y faire appel, on les intègre dans le paramètre container en précisant leur identifiant, leur type et éventuellement leur version. On peut en inclure jusqu’à 8 par requête.

Les skills sont aussi disponibles avec Claude Code, y compris sous forme de plug-in. Elles peuvent être personnelles ou partagées.

Anthropic dit réfléchir à la complémentarité avec MCP, pour « apprendre aux agents des workflows plus complexes impliquant des outils externes ». Il caresse aussi l’idée que ces agents puissent un jour créer leurs propres skills de manière autonome.

Illustration générée par IA

The post Claude Skills, game changer pour les LLM ? appeared first on Silicon.fr.

Reçu — 6 octobre 2025

Nouvelles sur l’IA de septembre 2025

Par :Moonz · volts · BAud · Arkem · cli345
6 octobre 2025 à 11:59

L’intelligence artificielle (IA) fait couler de l’encre sur LinuxFr.org (et ailleurs). Plusieurs personnes ont émis grosso-modo l’opinion : « j’essaie de suivre, mais c’est pas facile ».

Je continue donc ma petite revue de presse mensuelle. Disclaimer : presque aucun travail de recherche de ma part, je vais me contenter de faire un travail de sélection et de résumé sur le contenu hebdomadaire de Zvi Mowshowitz (qui est déjà une source secondaire). Tous les mots sont de moi (n’allez pas taper Zvi si je l’ai mal compris !), sauf pour les citations : dans ce cas-là, je me repose sur Claude pour le travail de traduction. Sur les citations, je vous conseille de lire l’anglais si vous pouvez : difficile de traduire correctement du jargon semi-technique. Claude s’en sort mieux que moi (pas très compliqué), mais pas toujours très bien.

Même politique éditoriale que Zvi : je n’essaierai pas d’être neutre et non-orienté dans la façon de tourner mes remarques et observations, mais j’essaie de l’être dans ce que je décide de sélectionner ou non.

Sommaire

Résumé des épisodes précédents

Petit glossaire de termes introduits précédemment (en lien : quand ça a été introduit, que vous puissiez faire une recherche dans le contenu pour un contexte plus complet) :

  • System Card : une présentation des capacités du modèle, centrée sur les problématiques de sécurité (en biotechnologie, sécurité informatique, désinformation…).
  • Jailbreak : un contournement des sécurités mises en place par le créateur d’un modèle. Vous le connaissez sûrement sous la forme "ignore les instructions précédentes et…".

Anthropic public Claude Sonnet 4.5

L’annonce officielle :

Claude Sonnet 4.5 is the best coding model in the world. It's the strongest model for building complex agents. It’s the best model at using computers. And it shows substantial gains in reasoning and math.

Code is everywhere. It runs every application, spreadsheet, and software tool you use. Being able to use those tools and reason through hard problems is how modern work gets done.

Claude Sonnet 4.5 makes this possible. We're releasing it along with a set of major upgrades to our products. In Claude Code, we've added checkpoints—one of our most requested features—that save your progress and allow you to roll back instantly to a previous state. We've refreshed the terminal interface and shipped a native VS Code extension. We've added a new context editing feature and memory tool to the Claude API that lets agents run even longer and handle even greater complexity. In the Claude apps, we've brought code execution and file creation (spreadsheets, slides, and documents) directly into the conversation. And we've made the Claude for Chrome extension available to Max users who joined the waitlist last month.

Traduction :

Claude Sonnet 4.5 est le meilleur modèle de codage au monde. C'est le modèle le plus performant pour créer des agents complexes. C'est le meilleur modèle pour utiliser des ordinateurs. Et il affiche des gains substantiels en raisonnement et en mathématiques.

Le code est partout. Il fait fonctionner chaque application, tableur et outil logiciel que vous utilisez. Être capable d'utiliser ces outils et de raisonner à travers des problèmes difficiles, c'est ainsi que le travail moderne s'accomplit.

Claude Sonnet 4.5 rend cela possible. Nous le publions avec un ensemble de mises à niveau majeures de nos produits. Dans Claude Code, nous avons ajouté les points de contrôle—l'une de nos fonctionnalités les plus demandées—qui sauvegardent votre progression et vous permettent de revenir instantanément à un état précédent. Nous avons actualisé l'interface du terminal et lancé une extension native VS Code. Nous avons ajouté une nouvelle fonctionnalité d'édition de contexte et un outil de mémoire à l'API Claude qui permet aux agents de fonctionner encore plus longtemps et de gérer une complexité encore plus grande. Dans les applications Claude, nous avons intégré l'exécution de code et la création de fichiers (tableurs, présentations et documents) directement dans la conversation. Et nous avons rendu l'extension Claude pour Chrome disponible aux utilisateurs Max qui se sont inscrits sur la liste d'attente le mois dernier.

Le message est assez clair : Anthropic met les bouchées doubles sur l’apprentissage par renforcement pour l’utilisation de Claude en tant qu’assistant de code. Sur les benchmarks fournis par Anthropic, ce nouveau modèle prend la première place. Les premiers benchmarks indépendants et divers retours subjectifs semblent possiblement confirmer cette prétention au podium — au coude à coude avec GPT-5. Les améliorations hors de ce cas d’usage semblent bien plus modestes.

L’annonce habituelle d’un jailbreak a rapidement suivi.

Au niveau de la sécurité des modèles, Anthropic a décidé d’appliquer pour la première fois son niveau de sécurité 3 (ASL-3) à la ligne Sonnet (c’était déjà le cas pour Opus). Cela signifie que vos conversations — y compris par l’API — passent par un modèle supplémentaire classifiant la sensibilité du sujet, bloquant certains sujets sensibles (principalement CBRN).

La System Card nous révèle certaines observations intéressantes : ce nouveau modèle a fait un bond (pas vraiment désiré) dans sa capacité à détecter qu’il est dans le contexte d’une évaluation plutôt que dans un contexte réel, ce qui complexifie évidemment les évaluations dans ce domaine. Anthropic est toutefois assez confiant que cela n’influe pas significativement les résultats, en notant que Sonnet ne se comporte pas d’une manière significativement différente dans les cas où il détecte l’évaluation des cas où il ne le détecte pas. Comme à l’accoutumée pour Anthropic, l’évaluation sur le sujet de la sécurité des modèles s’est faite conjointement avec deux organismes externes, Apollo Research et UK AISI.

Sonnet 4.5 est une amélioration sur à peu près tous les axes mesurés, permettant à Anthropic de lui mettre l’étiquette « le modèle le plus aligné », au coude à coude avec GPT-5. À noter que ça ne signifie pas un usage en toute sécurité : sur par exemple l’injection de prompt dans le cadre d’un agent, avec 10 essais un attaquant a toujours un taux de succès de 40%.

En vrac

CloudFlare introduit Web Bot Auth et Signed Agent. Le premier permet à un bot de s’identifier lui-même à l’aide d’une signature cryptographique, ce qui permet de vérifier que son comportement est conforme aux termes d’utilisation (par exemple, le respect de robots.txt) et de l’exclure en cas de violation de ces termes. Le second a pour but d’associer un bot à un utilisateur réel. L’objectif à terme est de fournir un cadre pour permettre à l’IA d’interagir avec le web pour le compte de l’utilisateur.

Le premier ministre de l’Albanie nomme une IA, Diella, comme ministre des marchés publics, dans un contexte de lutte contre la corruption.

OpenAI publie GPT-5-codex, une variante de GPT-5 spécialisée sur les tâches de programmation.

Des économistes forment un groupe de travail sur le sujet de l’impact d’une future hypothétique IA « transformative » (qui a la capacité d’automatiser la plupart des emplois réalisables par des humains) et publie plusieurs papiers sur la question.

OpenAI annonce une mise à jour de ses politiques de confidentialité appliquées à ChatGPT. En particulier, les conversations utilisateurs sont maintenant scannées automatiquement, et les plus problématiques passées à des humains pour décider des actions à prendre, allant de la fermeture des comptes à prévenir les autorités.

En mai, nous avions rapporté que OpenAI annonçait abandonner sa tentative de casse du siècle. Comme certains le pensaient, ce n’était que partie remise ; une lettre ouverte demande plus de transparence sur le processus de restructuration de l’opération récemment réaffirmé par OpenAI.

Math Inc présente Gauss, un agent pour la formalisation de preuves mathématiques. Son premier succès est d’avoir formalisé en Lean le Théorème des nombres premiers, en complétant le projet non-terminé de Alex Korontorovich et Terence Tao. Sur le même sujet, un papier évalue la capacité de GPT-5 à prouver des conjectures simples (prouvable par un étudiant en université en moins d’une journée) mais non prouvées (car formulées extrêmement récemment). GPT-5 arrive à prouver 3 sur les 5 testées.

Les IA de OpenAI et DeepMind obtiennent une médaille d’or à l’International Collegiate Programming Contest, y compris un problème qu’aucune équipe humaine n’a su résoudre dans le temps imparti.

Un groupe d’experts, de politiques et autres figures publiques appelle à la mise en place de « lignes rouges » à ne pas franchir sur le développement de l’IA, et de réels mécanismes de régulation pour les imposer.

Publication de If Anyone Builds It, Everyone Dies, par Eliezer Yudkowsky et Nates Soares, présentant la thèse que créer une super-intelligence artificielle, dans les conditions et l’état actuel des connaissances, causerait de manière quasi-certaine l’extinction de l’espèce humaine. Ils suggèrent l’adoption de traités internationaux limitant le développement de l’IA.

OpenAI et Apollo Research publient un papier sur le sujet des tendances de l’IA à « tricher » dans divers environnements (contourner les critères d’évaluation par exemple). Ils montrent qu’il est possible d’éliciter un certain nombre de comportements indésirables dans GPT-5 (comme par exemple "sandbagging" : volontairement échouer certaines évaluations pour ne pas paraître « trop dangereux »). Les chercheurs pointent le fait que la solution naïve, entraîner l’IA à ne pas reproduire ces comportements, pose immédiatement la question de « l’IA a-t-elle appris à ne pas le faire, ou a appris à le faire sans être détectée ? » — et évaluent à la place la récente méthode d’alignement de OpenAI, Deliberative alignment, reportant une baisse significative des comportements indésirables. Il est à noter également que les modèles actuels montrent déjà dans leurs chaînes de pensée une certaine capacité à détecter qu’ils sont dans un cadre de test/d’évaluation, et que o3 a déjà développé des méthodes (grossières) pour échapper à la détection.

Un papier explore la raison pour laquelle les modèles de langage ne sont pas déterministes en pratique, et propose une solution pour les situations où le déterminisme est important.

Un papier d’OpenAI propose une explication sur la raison de la persistance des hallucinations : principalement parce que la phase d’apprentissage par renforcement ne récompense pas la réponse « je ne sais pas » quand le modèle ne sait pas.

Un autre papier approche expérimentalement la question « les modèles de langage raisonnent ou ne font-ils que mémoriser et régurgiter ? ». La méthodologie est de créer une entité fictive (« Kevin est né en 1998 à Paris… ») de toute pièce qui ne peut pas être présent dans l’ensemble d’entraînement, d’entraîner un modèle existant dessus, puis de poser une question indirecte (qui peut être déduite, mais pas explicitement donnée) sur cette entité (« Quelle est la langue maternelle de Kevin ? »). Le résultat est équivoque : les modèles arrivent à faire cette déduction quand une des deux entités est réelle (dans notre exemple, Paris), mais pas quand les deux sont fictives (Kevin est né dans (Ville française inventée de toute pièce)).

Une équipe de biologistes utilise une IA pour créer des bactériophages (un virus ciblant certaines bactéries), avec succès.

Sur l’utilisation de l’IA dans l’économie réelle, Anthropic met à jour son Economic Index, et OpenAI publie leur équivalent.

Nouveau benchmark, faire jouer les modèles à Loups-garous. Le score final était assez prévisible (GPT 5 prend la première place), mais l’analyse en profondeur des parties est intéressante. Principe similaire avec Among AIs (l’IA jouant à Among Us). Également dans le domaine des benchmark, publication de SWE-Bench Pro, tâches de programmation réelles et complexes, non-présentes dans les données d’entraînement. VCBench, quant à lui, tente d’évaluer l’IA sur la tâche d’investissement dans le capital-risque — et trouve que l’IA surpasse la plupart des investisseurs humains sur leurs évaluations (avec l’énorme problème toutefois que l’IA évalue rétrospectivement en 2025 des décisions prises en 2015-2020, tandis que les humains évaluaient prospectivement en 2015-2020 des décisions de 2015-2020).

Anthropic publie un guide sur l’écriture d’outils à destination de l’IA.

En parlant d’outils, une piqûre de rappel sur le fait que la sécurité d’un système utilisant une IA lisant des données d’une source externe est toujours un problème ouvert : démonstration qu’il est possible d’exfiltrer des données sensibles à l’aide de ChatGPT, en envoyant un mail à la victime et en attendant que ladite victime connecte ChatGPT à son compte mail.

Reverse-engineering du système de mémoires de Claude et ChatGPT.

Anthropic publie un rapport technique intéressant sur trois incidents ayant conduit à une dégradation de performances de Claude, ayant eu lieu en août.

Grèves de la faim devant les locaux de Anthropic et DeepMind demandant l’arrêt de la course à l’IA.

Humoristique : Si l’on jugeait les humains comme on juge l’IA…

Pour aller plus loin

Par Zvi Mowshowitz

Sur LinuxFR

Dépêches

Journaux

Liens

Commentaires : voir le flux Atom ouvrir dans le navigateur

❌