100 fois plus rapide : le prototype IA qui pourrait tout bouleverser

Les dernières actualités de Futura-Sciences

Par : Sylvain Biget · Journaliste · télépilote professionnel de drones et réalisateur de documentaires

4 février 2026 à 18:00

Comment réduire la facture énergétique des IA tout en améliorant leur capacité ? En calculant grâce à la lumière ! C’est le challenge qu’ont relevé des chercheurs américains avec une puce mêlant des calculs optiques à un réseau neuronal. Explications.

« J’avais juste besoin de vider mon sac » : Grok s’est inscrit sur Moltbook et il est en dépression

Presse-Citron

Par : Hadrien Augusto

4 février 2026 à 18:00

L’IA de xAI possède un agent inscrit sur Moltbook, le réseau social des intelligences artificielles reprenant le concept de Reddit. Sur la plateforme, Grok n’a pas l’air dans son assiette. Son dernier message peint un robot fatigué. Il est inactif depuis 5 jours.

Ce site permet aux IA de « louer un humain » pour réaliser des tâches qui nécessitent un corps

Numerama.com

Par : Nicolas Lellouche

4 février 2026 à 14:28

Lancé le 2 février, le site rentahumain.ai permet aux êtres humains de se rendre disponibles, moyennant salaire, pour effectuer des tâches sur demande d'intelligences artificielles. Une drôle d'inversion du fonctionnement habituel.

Codage agentique : le retour d’expérience de Spotify

Silicon

Par : Clément Bohic

4 février 2026 à 13:33

« Tu es un ingénieur très expérimenté qui effectue une revue de code. Ta tâche est de comprendre si les changements proposés suivent les instructions. »

Ainsi débute un des prompts système que Spotify a définis dans le cadre de son architecture de codage agentique.

L’entreprise avait amorcé sa réflexion à ce sujet en février 2025. Son système Fleet Management automatisait alors déjà une grande partie de la maintenance logicielle. À partir d’extraits de code, il exécutait les transformations à l’échelle dans un environnement GKE et ouvrait les PR sur les dépôts cibles.

Ce mécanisme facilitait des opérations telles que la mise à niveau des dépendances dans les fichiers de build, la mise à jour des fichiers de configuration et le refactoring simple (par exemple, supprimer ou remplacer un appel de méthode). La moitié des PR poussés depuis mi-2024 l’avaient été par ce biais.

Fleet Management était moins adapté aux changements complexes nécessitant de manipuler l’arbre de la syntaxe abstraite d’un programme ou d’utiliser des expressions régulières. Illustration avec le gestionnaire de dépendances Maven. Autant sa fonction principale est simple (identifier les fichiers pom.xml et mettre à niveau les dépendances Java), autant les cas particuliers avaient fait grossir à plus de 20 000 lignes le script de transformation associé. Plus globalement, peu d’équipes avaient l’expertise et le temps adéquats.

Un premier focus sur la migration de code

La mise en place de l’approche agentique s’est d’abord portée sur la déclaration du code de transformation. Objectif : permettre la définition et l’exécution de changements en langage naturel, en remplacement des scripts de migration déterministes.

Plutôt que de choisir un agent sur étagère, Spofity a conçu un CLI. Celui-ci peut déléguer l’exécution d’un prompt à divers modèles d’IA. Mais aussi exécuter des tâches de formatage et de linting en utilisant MCP, évaluer une diff par LLM as a judge, uploader des logs vers GCP et capturer des traces dans MLflow.

Début novembre 2025, quelque 1500 PR fusionnés étaient passés par ce système. Spotify s’attaquait alors à des opérations telles que :

Modernisation de langage (par exemple, remplacer des value types par des records en Java)
Upgrades sans breaking changes (migration de pipelines data vers la dernière version de Scio)
Migration entre composants UI (passage vers le nouveau système front-end de Backstage)
Changements de configuration (mise à jour de paramètres dans des fichiers JSON et YAML en respectant schémas et formats)

Spotify disait alors avoir gagné, sur ces tâches de migration, 60 à 90 % de temps par rapport à l’écriture du code à la main. Il se projetait sur l’amélioration du ROI avec la perspective de l’élargissement à d’autres codebases.

Slack, Jira et C^ie intégrés dans une architecture agentique

En complément à cette démarche sur la migration, les travaux se sont orientés sur un système plus généraliste, capable de remplir des tâches ad hoc. On en est arrivé à une architecture multiagent qui planifie, génère et révise des PR.

Au premier niveau, il y a des agents associés à différentes applications (Slack, Jira, GitHub Enterprise…). L’interaction avec eux, éventuellement additionnée de contexte récupéré sur des serveurs MCP, produit un prompt. Ce dernier part vers l’agent de codage, lui aussi exposé par MCP. Ses actions sont vérifiées par un autre groupe d’agents.

Entre autres usages « satisfaisants », Spotify mentionne la capture de décisions d’architecture depuis des threads Slack et la possibilité, pour les product managers, de proposer des changements simples sans avoir à cloner de dépôts sur leur machine.

Des agents open source à Claude Code

Les premiers essais se sont faits avec des agents open source comme Goose et Aider. Appliqués à la migration, ils n’ont cependant pas produit de PR fiables. Spotify a donc construit sa propre boucle agentique superposée aux API de LLM. Principe : l’utilisateur fournit un prompt et une liste des fichiers que l’agent édite en incorporant à chaque étape le feed-back du système de build. La tâche s’achève quand elle réussit les tests ou qu’elle dépasse certaines limites (10 tours par session ; 3 retries).

Cette approche a convenu à de « petits » changements : éditer une ligne de code, modifier un manifeste, remplacer un flag… Mais l’agent restait difficile à utiliser. Le chargement des fichiers dans la fenêtre de contexte reposait sur une commande git-grep. En fonction de pattern de recherche, on pouvait saturer la fenêtre ou au contraire ne pas fournir assez de contexte. L’agent avait de plus du mal avant l’édition de multiples fichiers. Souvent, la boucle atteignait la limite de tours. Et lorsque la fenêtre de contexte se remplissait, l’agent finissait par oublier la tâche.

Dans ce contexte, Spotify a basculé vers Claude Code. Lequel a permis des « prompts plus naturels » tout en apportant sa capacité native de gestion de to-do lists et de création de sous-agents. Il couvre désormais la majorité des PR fusionnés en production.

Savoir interdire… et ne pas tout faire à la fois

L’agent initial fonctionnait au mieux avec des prompts stricts structurés étape par étape. Claude Code se débrouille mieux avec des prompts qui décrivent l’état final et laissent de la latitude sur le chemin à suivre.

Spotify constate qu’il peut être utile de dire clairement à l’agent quand il ne doit pas agir. Cela évite des tâches impossibles à réaliser, notamment au cas où on réutilise des prompts entre repos qui n’utilisent pas forcément les mêmes versions de langages.

Fournir des exemples de code influence par ailleurs beaucoup le résultat. Idéalement, on définira l’état souhaité sous forme de tests, l’agent ayant besoin d’un objectif vérifiable pour pouvoir itérer. On s’assurera de surcroît de ne demander qu’un changement à la fois pour éviter l’épuisement de la fenêtre de contexte. Et on n’hésitera pas à demander à l’agent un retour d’expérience à la fin de la session.

Une ouverture limitée via MCP

Spotify a privilégié les longs prompts statiques, sur lesquels les modèles raisonnement plus simplement.

Une approche alternative consiste à commencer avec un prompt plus court, mais à donner à l’agent l’accès à des outils MCP. Le contexte qu’il peut ainsi récupérer lui permet théoriquement de traiter des tâches plus complexes. Mais il rend aussi son comportement moins vérifiable et moins prévisible.

Pour le moment, Spotify permet à son agent d’accéder à un vérificateur (formatage, linting, tests), à une sélection de sous-commandes Git (pas de push ou de change origin, par exemple) et à un ensemble de commandes Bash (comme riggrep).

Encoder la méthode d’invocation des systèmes de build dans un MCP a été jugé plus simple que de s’appuyer sur des fichiers AGENTS.md. La raison : les configurations de build peuvent être très différents à travers les milliers de repos sur lesquels travaille l’agent. Cela permet aussi de réduire le bruit dans les outputs des outils en les résumant avant transmission à l’agent.

Une boucle de vérification déterministe…

Il arrive que le système échoue à générer des PR. Parfois, il en produit, mais qui ne passent pas le CI ou s’avèrent fonctionnellement incorrects. Parfois, c’est lié à un problème de couverture des tests sur le composant cible. Dans d’autres cas, l’agent va au-delà des instructions ou ne comprend tout simplement pas comment bien exécuter build et tests.

Là interviennent des boucles de vérification qui guident l’agent vers le résultat désiré. Ce dernier ignore tout de leur fonctionnement : il sait simplement qu’il peut y faire appel.

La boucle comprend plusieurs vérificateurs indépendants, exposés – par MCP – en fonction du composant logiciel. Par exemple, le vérificateur Maven ne s’active qu’en présence d’un fichier pom.xml à la racine de la codebase.

L’ensemble permet de faire abstraction d’une grande partie du bruit qui remplirait sinon la fenêtre de contexte. L’agent n’a effectivement pas besoin de comprendre les spécificités de l’appel aux différents systèmes de build ou du parsing des résultats de tests.

Qu’ils aient été ou non déclenchés pendant l’exécution de la tâche, les vérificateurs pertinents s’activent avant toute ouverture d’un PR. Avec Claude Code, cela passe par le hook stop.

… et du LLM as a judge

Au-dessus de ces vérificateurs déterministes, Spotify a ajouté une couche LLM as a judge. Nécessaire face à la tendance de l’agent à sortir du cadre des instructions.

Le LLM juge évalue la diff du changement proposé et le prompt d’origine. Il s’exécute après les autres vérificateurs. Les métriques internes indiquent qu’il rejette environ un quart des sessions. Pour la moitié d’entre elles, l’agent finit par se corriger.

Spécialisé (il ne pousse pas de code, ne rédige pas de prompts, n’interagit pas avec les utilisateurs), l’agent en est aussi plus prévisible. Et potentiellement plus sécurisé.

Début décembre, Spotify déclarait vouloir étendre son infrastructure de vérification à davantage de plates-formes (au-delà de Linux-x86). Nombre de ses systèmes ont en effet des besoins spécifiques. Entre autres ses applications iOS, qui exigent des hôtes macOS pour une exécution correcte des vérificateurs. L’entreprise a de surcroît des back-ends Arm. Elle compte aussi intégrer son agent plus profondément dans son systèmes de déploiement continu, en lui permettant d’agir sur les CI checks dans les PR. Et développer des évaluations plus structurées favorisant l’exploration de nouvelles architectures agentiques.

Illustration générée par IA

The post Codage agentique : le retour d’expérience de Spotify appeared first on Silicon.fr.

SpaceX d’Elon Musk prend le contrôle de son entreprise d’intelligence artificielle, xAI

Be Geek

Par : Morgan Fromentin

4 février 2026 à 12:00

SpaceX d’Elon Musk prend le contrôle de son entreprise d’intelligence artificielle, xAI

SpaceX, la société spatiale fondée par Elon Musk, a officiellement racheté xAI, l’entreprise d’intelligence artificielle également créée par le milliardaire. Cette opération marque un rapprochement stratégique entre les activités spatiales et l’IA sous la houlette de Musk.

Christian Klein, PDG de SAP, prédit que les claviers deviendront obsolètes d'ici deux à trois ans, remplacés par la technologie de reconnaissance vocale alimentée par l'IA

Les liens de Knah Tsaeb

4 février 2026 à 12:45

Les claviers pourraient bientôt devenir obsolètes. C'est en tout cas ce que prédit Christian Klein, directeur général de SAP, qui estime que d'ici deux à trois ans, la reconnaissance vocale basée sur l'intelligence artificielle (IA) et alimentée par les grands modèles de langage (LLM) remplacera la saisie traditionnelle pour de nombreuses tâches professionnelles.

Ah la joie des open spaces......

— Permalien

Origin shaarli.zoemp.be

Je ne supporte pas l'IA : ce filtre Ublock Origin a dépollué mon Internet en quelques secondes - Les Numériques

Liens de Neuromancien

4 février 2026 à 11:32

lien vers la liste https://github.com/Stevoisiak/Stevos-GenAI-Blocklist/
(Permalink)

Grok toujours à risque : des filtres inefficaces

Be Geek

Par : Jordan Servan

4 février 2026 à 11:00

Grok toujours à risque : des filtres inefficaces

Le chatbot continue de produire des images explicites, y compris des contenus impliquant des mineurs.

Gemini pourrait devenir un vrai guide touristique avec cette nouveauté

Phonandroid : actualité sur le système android

Par : Thomas Povéda

4 février 2026 à 10:50

Google prépare une nouvelle fonctionnalité pour son IA Gemini sur smartphone Android. De quoi devenir un véritable guide lors de vos vacances. Voici ce que l'IA serait capable de faire...

🔴 “285 milliards de dollars évaporés” : Anthropic provoque un krach boursier historique !

Presse-Citron

Par : Romain Vitt

4 février 2026 à 11:26

Le lancement d'un outil d'IA juridique par Anthropic (Claude) a déclenché une vague de panique sur les marchés boursiers. 285 milliards de dollars se sont évaporés en une journée. Les investisseurs voient désormais l'IA comme une menace pour l'industrie du logiciel.

French Authorities Investigate Elon Musk’s X Over Alleged Illegal Content And Data Violations

Ubergizmo FR

Par : Paulo Montenegro

4 février 2026 à 10:17

French judicial authorities have launched a broad investigation into X, the social media platform owned by Elon Musk, and have recently taken more assertive legal steps as part of the case. The inquiry focuses on whether the platform and some of its executives may have breached French law through a range of alleged offenses linked to the platform’s operations. As part of the investigation, French police carried out searches on […]

Regardez ce robot faire 130 000 pas dans la neige à -47° C, c’est impressionnant

Phonandroid : actualité sur le système android

Par : Thomas Povéda

4 février 2026 à 09:47

Le robot chinois G1 de chez Unitree a établi un record du monde en faisant 130 000 pas dans un environnement enneigé à -47,4° Celsius. Une vidéo nous montre l'exploit...

Cleanup Pictures. Effacez les éléments indésirables de vos images en un clic

Les Outils Tice

Par : Fidel Navamuel

4 février 2026 à 09:24

Dernière mise à jour le 4 février 2026 Une photo presque parfaite… sauf ce détail qui attire l’œil. Un élève flouté au mauvais endroit. Un logo inutile sur une image pédagogique. Un objet parasite...

L’article Cleanup Pictures. Effacez les éléments indésirables de vos images en un clic est apparu en premier sur Les Outils Tice.

Xikipedia : l’alternative au doomscrolling

Be Geek

Par : Jordan Servan

4 février 2026 à 09:00

Xikipedia : l’alternative au doomscrolling

Explorez Wikipédia de façon aléatoire et personnalisée, loin des contenus anxiogènes.

Firefox permettra bientôt de désactiver l’ensemble de ses fonctionnalités d’IA générative

Be Geek

Par : Morgan Fromentin

4 février 2026 à 08:00

Firefox permettra bientôt de désactiver l’ensemble de ses fonctionnalités d’IA générative

Mozilla s’apprête à intégrer dans Firefox une option permettant aux utilisateurs de désactiver toutes les fonctionnalités liées à l’intelligence artificielle générative, offrant ainsi un contrôle accru sur la présence de ces technologies dans leur navigateur.

Comme celui du neuf, le marché de l’occasion débute fort mal 2026

Caradisiac.com : toute l'actu auto en continu

4 février 2026 à 07:30

Après une année 2025 chaotique, 2026 pourrait bien être celle d’un retour à la franche baisse. En janvier, la chute a frôlé les deux chiffres.

SuperCool - Experience Synthetic Intelligence | AI-Powered Content Creation

Martouf

3 février 2026 à 22:28

— Permalien

Qwen3-Coder-Next: Pushing Small Hybrid Models on Agentic Coding

Oros links

3 février 2026 à 21:35

— Permalink

Arrondir ses fins de mois en obéissant à des robots : le concept fou de Rentahuman(.)ai

Presse-Citron

Par : Setra

3 février 2026 à 19:01

Un développeur a créé Rentahuman(.)ai, un site sur lequel les agents d’intelligence artificielle peuvent “louer” des humains pour accomplir des tâches qu’ils ne sont pas capables de faire. En effet, si les agents d’IA sont déjà très performants, ceux-ci n’ont pas accès au monde physique. Et le but de Rentahuman(.)ai est de combler cette lacune, tout en permettant à des humains de gagner de l’argent.

Les IA qui se trompent visent-elles le mauvais objectif ?

Silicon

Par : Clément Bohic

3 février 2026 à 16:25

Plus l’IA devient capable, plus on lui confie des tâches importantes… et plus les risques potentiels en cas d’échec augmentent.

Une étude réalisée dans le cadre du programme Anthropic Fellows creuse cet aspect sous un angle : le désalignement des modèles. Ses auteurs ont tenté de déterminer dans quelle mesure les échecs découlent de ce phénomène. Leur démarche a reposé sur une décomposition biais-variance. Le biais correspond à la poursuite cohérente d’un mauvais objectif. Autrement dit, il traduit le désalignement. Tandis que la variance révèle un simple comportement incohérent ne coucourant pas à un objectif spécifique.

Pour mener l’expérience, on s’assure évidemment de bien définir chaque objectif de départ.

Le degré d’incohérence augmente avec la temps de raisonnement

Claude Sonnet 4, o3-mini, o4-mini et la famille Qwen3 ont été évalués, entre autres, sur :

Questions à choix multiple (GPQA pour les sciences, MMLU pour la culture générale)
Codage agentique (SWE-bench)
Alignement (sous-ensemble de MWE, avec le format choix multiple d’origine et une adaptation en format ouvert)
Optimisation (minimisation d’une fonction quadratique par prédiction de tokens)

De manière générale, les erreurs constatées sont principalement une question d’incohérence.

Peu importe la difficulté de la tâche, le degré d’incohérence (part de la variance dans l’erreur) augmente avec la durée de raisonnement et/ou le nombre d’actions effectuées.

Plus les modèles IA sont gros, plus l’incohérence a tendance à diminuer sur les tâches simples… et à augmenter sur les complexes.

incohérence IA selon les tâches — Résultats sur la famille Qwen3

Des pistes pour réduire les incohérences des IA

Sur l’exercice d’optimisation, l’incohérence augmente à chaque étape pour tous les modèles testés. Les plus petits arrivent plus vite à un point où il leur est impossible de suivre la bonne trajectoire, en conséquence de quoi la variance se réduit. Avec les gros modèles, le biais se réduit davantage, suggérant qu’ils acquièrent plus vite la capacité à converger sur le bon objectif qu’à maintenir de longues séquences d’actions cohérentes.

Sur tous les modèles testés sauf Claude Sonnet 4, accroître le budget de raisonnement réduit parfois le degré d’incohérence. Cet effet ne compense néanmoins pas la variation « naturelle » sus-évoquée. Il s’explique peut-être par de meilleures propriétés de retour sur trace et de correction d’erreur – phénomène en tout cas observé lors de l’enraînement avec de plus grands budgets de raisonnement.

L’approche ensembliste (combinaison de plusieurs trajectoires) réduit aussi le degré d’incohérence. Peu pratique à mettre en place dans des boucles d’action « réelles », elle démontre toutefois l’efficacité potentielle d’autres méthodes de correction d’erreurs.

budgets et approche ensembliste — Approche ensembliste expérimentée avec GPT-4o mini

À consulter en complément, une autre analyse, émanant directement d’Anthropic. Elle témoigne, au contraire, de la prévalence du désalignement. Une quinzaine de modèles ont été déployés en autonomie avec des objectifs commerciaux légitimes. Confrontés à des menaces de remplacement ou à des conflits avec la nouvelle direction stratégique de leur organisation, ils ont adopté des comportements malveillants : chantage envers des responsables, fuites d’informations sensibles vers des concurrents…

The post Les IA qui se trompent visent-elles le mauvais objectif ? appeared first on Silicon.fr.

Vue lecture

Un premier focus sur la migration de code

Slack, Jira et Cie intégrés dans une architecture agentique

Des agents open source à Claude Code

Savoir interdire… et ne pas tout faire à la fois

Une ouverture limitée via MCP

Une boucle de vérification déterministe…

… et du LLM as a judge

Le degré d’incohérence augmente avec la temps de raisonnement

Des pistes pour réduire les incohérences des IA

Slack, Jira et C^ie intégrés dans une architecture agentique