Nouvelles sur lâIA dâavril 2025
Lâintelligence artificielle (IA) fait couler de lâencre sur LinuxFr.org (et ailleurs). Plusieurs visiteurs ont Ă©mis grosso-modo lâopinion : «âŻjâessaie de suivre, mais câest pas facileâŻÂ».
Je continue donc ma petite revue de presse mensuelle. Avertissement : presque aucun travail de recherche de ma part, je vais me contenter de faire un travail de sĂ©lection et de rĂ©sumĂ© sur le contenu hebdomadaire de Zvi Mowshowitz (qui est dĂ©jĂ une source secondaire). Tous les mots sont de moi (nâallez pas taper Zvi si je lâai mal compris !), sauf pour les citations : dans ce cas-lĂ , je me repose sur Claude pour le travail de traduction. Sur les citations, je vous conseille de lire lâanglais si vous pouvez: difficile de traduire correctement du jargon semi-technique. Claude sâen sort mieux que moi (pas trĂšs compliquĂ©), mais pas toujours trĂšs bien.
MĂȘme politique Ă©ditoriale que Zvi : je nâessaierai pas dâĂȘtre neutre et non-orientĂ© dans la façon de tourner mes remarques et observations, mais jâessaie de lâĂȘtre dans ce que je dĂ©cide de sĂ©lectionner ou non.
- lien ná” 1 : AI #110: Of Course You Know...
- lien ná” 2 : AI #111: Giving Us Pause
- lien ná” 3 : AI #112: Release the Everything
- lien ná” 4 : AI #113: The o3 Era Begins
- lien ná” 5 : AI 2027: Dwarkesh's Podcast with Daniel Kokotajlo and Scott Alexander
- lien ná” 6 : AI 2027: Responses
- lien ná” 7 : Llama Does Not Look Good 4 Anything
- lien ná” 8 : GPT-4.1 Is a Mini Upgrade
- lien ná” 9 : o3 Will Use Its Tools For You
- lien ná” 10 : o3 Is a Lying Liar
Sommaire
- Résumé des épisodes précédents
- Meta dévoile Llama 4
- OpenAI publie GPT 4.1, o3 et o4-mini
- AI 2027: une tentative de futurologie
- En vrac
- Pour aller plus loin
Résumé des épisodes précédents
Petit glossaire de termes introduits précédemment (en lien: quand ça a été introduit, que vous puissiez faire une recherche dans le contenu pour un contexte plus complet) :
- System Card : une prĂ©sentation des capacitĂ©s du modĂšle, centrĂ©e sur les problĂ©matiques de sĂ©curitĂ© (en biotechnologie, sĂ©curitĂ© informatique, dĂ©sinformationâŠ).
- Jailbreak : un contournement des sĂ©curitĂ©s mises en place par le crĂ©ateur dâun modĂšle. Vous le connaissez sĂ»rement sous la forme «âŻignore les instructions prĂ©cĂ©dentes etâŠâŻÂ».
Meta dévoile Llama 4
- Weâre sharing the first models in the Llama 4 herd, which will enable people to build more personalized multimodal experiences.
- Llama 4 Scout, a 17 billion active parameter model with 16 experts, is the best multimodal model in the world in its class and is more powerful than all previous generation Llama models, while fitting in a single NVIDIA H100 GPU. Additionally, Llama 4 Scout offers an industry-leading context window of 10M and delivers better results than Gemma 3, Gemini 2.0 Flash-Lite, and Mistral 3.1 across a broad range of widely reported benchmarks.
- Llama 4 Maverick, a 17 billion active parameter model with 128 experts, is the best multimodal model in its class, beating GPT-4o and Gemini 2.0 Flash across a broad range of widely reported benchmarks, while achieving comparable results to the new DeepSeek v3 on reasoning and codingâat less than half the active parameters. Llama 4 Maverick offers a best-in-class performance to cost ratio with an experimental chat version scoring ELO of 1417 on LMArena.
- These models are our best yet thanks to distillation from Llama 4 Behemoth, a 288 billion active parameter model with 16 experts that is our most powerful yet and among the worldâs smartest LLMs. Llama 4 Behemoth outperforms GPT-4.5, Claude Sonnet 3.7, and Gemini 2.0 Pro on several STEM benchmarks. Llama 4 Behemoth is still training, and weâre excited to share more details about it even while itâs still in flight.
- Download the Llama 4 Scout and Llama 4 Maverick models today on llama.com and Hugging Face. Try Meta AI built with Llama 4 in WhatsApp, Messenger, Instagram Direct, and on the web.
Traduction:
- Nous partageons les premiers modĂšles de la famille Llama 4, qui permettront aux utilisateurs de crĂ©er des expĂ©riences multimodales plus personnalisĂ©es. *Llama 4 Scout, un modĂšle de 17 milliards de paramĂštres actifs avec 16 experts, est le meilleur modĂšle multimodal au monde dans sa catĂ©gorie et est plus puissant que tous les modĂšles Llama des gĂ©nĂ©rations prĂ©cĂ©dentes, tout en tenant sur un seul GPU NVIDIA H100. De plus, Llama 4 Scout offre une fenĂȘtre de contexte de 10M, leader dans lâindustrie, et dĂ©livre de meilleurs rĂ©sultats que Gemma 3, Gemini 2.0 Flash-Lite et Mistral 3.1 sur un large Ă©ventail de benchmarks largement reconnus.
- Llama 4 Maverick, un modĂšle de 17 milliards de paramĂštres actifs avec 128 experts, est le meilleur modĂšle multimodal dans sa catĂ©gorie, surpassant GPT-4o et Gemini 2.0 Flash sur un large Ă©ventail de benchmarks largement reconnus, tout en obtenant des rĂ©sultats comparables au nouveau DeepSeek v3 sur le raisonnement et le codage â avec moins de la moitiĂ© des paramĂštres actifs. Llama 4 Maverick offre un rapport performance/coĂ»t inĂ©galĂ© avec une version expĂ©rimentale de chat obtenant un ELO de 1417 sur LMArena.
- Ces modĂšles sont nos meilleurs Ă ce jour grĂące Ă la distillation de Llama 4 Behemoth, un modĂšle de 288 milliards de paramĂštres actifs avec 16 experts qui est notre plus puissant Ă ce jour et parmi les LLM les plus intelligents au monde. Llama 4 Behemoth surpasse GPT-4.5, Claude Sonnet 3.7 et Gemini 2.0 Pro sur plusieurs benchmarks STEM. Llama 4 Behemoth est toujours en phase dâentraĂźnement, et nous sommes impatients de partager plus de dĂ©tails Ă son sujet mĂȘme pendant quâil est encore en dĂ©veloppement.
- TĂ©lĂ©chargez les modĂšles Llama 4 Scout et Llama 4 Maverick dĂšs aujourdâhui sur llama.com et Hugging Face. Essayez Meta AI construit avec Llama 4 dans WhatsApp, Messenger, Instagram Direct et sur le web.
Comme DeepSeek v3, et contrairement aux prĂ©cĂ©dentes itĂ©rations de Llama (Llama 2, Llama 3), Llama 4 fait le pari dâune architecture diffĂ©rente, «âŻMixture of ExpertsâŻÂ» (MoE) (en français: mĂ©lange dâexperts ?). Pour simplifier, au lieu de faire un seul modĂšle, on en fait plein, avec un autre modĂšle qui dĂ©cide (dynamiquement) de lâimportance Ă donner Ă chaque modĂšle. Par exemple, Llama 4 Maverick contient 400 milliards de paramĂštres, dĂ©coupĂ©s en 128 modĂšles de 17 milliards de paramĂštres. Un bon article sur HuggingFace explique plus en dĂ©tails cette architecture.
Autre diffĂ©rence par rapport aux tendances actuelles, ce nâest pas un modĂšle de raisonnement.
Au niveau de la sĂ©curitĂ© des modĂšles : pour ne pas changer, Meta fait partie des mauvais Ă©lĂšves ; pas dâĂ©valuation tierce publiĂ©e, pas de «âŻSystem CardâŻÂ». Ăvidemment jailbreakĂ© dans la journĂ©e (mais ceci nâest pas spĂ©cifique Ă Meta).
Sur les benchmarks citĂ©s par Meta, cela semble un modĂšle au niveau de lâĂ©tat de lâart en termes de capacitĂ©. Les benchmarks tiers, par contre, semblent donner une image complĂštement diffĂ©rente :
- Sur fiction.live qui cherche Ă mesurer la capacitĂ© des modĂšles de langage Ă naviguer un long contexte, Llama 4 Maverick nâarrive mĂȘme pas Ă surpasser son prĂ©dĂ©cesseur, Llama 3.3-70B.
- Dans le peloton de fin sur ARC. Ă la dĂ©charge de Llama, la concurrence est rude, seuls les modĂšles Ă la frontiĂšre de lâĂ©tat de lâart y sont prĂ©sents.
- Sur Aider, également vers la fin.
Vous pouvez voir plus de benchmarks indĂ©pendants dans lâarticle de Zvi (cf les liens ci-dessous).
Tout ceci semble pointer vers: ce ne sont pas de mauvais rĂ©sultats en soi, dans lâabsolu ; mais comparĂ© Ă lâĂ©tat de lâart (Claude 3.7 avec raisonnement, ChatGPT o3-mini, ou Gemini 2.5), et mis en face de la taille immense du modĂšle (400 milliards de paramĂštres, ce qui de fait le rend inutilisable sur du matĂ©riel grand public), ce sont des rĂ©sultats dĂ©cevants.
Ă noter que Llama 4 Behemoth (2000 milliards de paramĂštres !) nâa pas encore Ă©tĂ© publiĂ©.
OpenAI publie GPT 4.1, o3 et o4-mini
Commençons par GPT 4.1. Lâannonce officielle :
Today, weâre launching three new models in the API: GPTâ4.1, GPTâ4.1 mini, and GPTâ4.1 nano. These models outperform GPTâ4o and GPTâ4o mini across the board, with major gains in coding and instruction following. They also have larger context windowsâsupporting up to 1 million tokens of contextâand are able to better use that context with improved long-context comprehension. They feature a refreshed knowledge cutoff of June 2024.
Traduction :
Aujourdâhui, nous lançons trois nouveaux modĂšles dans lâAPI : GPT-4.1, GPT-4.1 mini et GPT-4.1 nano. Ces modĂšles surpassent GPT-4o et GPT-4o mini sur tous les plans, avec des amĂ©liorations majeures en matiĂšre de codage et de suivi dâinstructions. Ils disposent Ă©galement de fenĂȘtres de contexte plus larges â prenant en charge jusquâĂ 1 million de tokens de contexte â et sont capables de mieux utiliser ce contexte grĂące Ă une comprĂ©hension amĂ©liorĂ©e des contextes longs. Ils bĂ©nĂ©ficient dâune mise Ă jour de leur base de connaissances jusquâĂ juin 2024.
Le modĂšle nâest disponible que par accĂšs API. Le but nâest pas dâavancer lâĂ©tat de lâart sur les capacitĂ©s, mais de fournir des points plus intĂ©ressants sur la courbe performances/prix. Ă ce titre, pas de System Card ou dâĂ©valuation tierce publiĂ©e. Vous connaissez la chanson, jailbreak immĂ©diat. Sur les benchmarks (officiels comme tiers), la modeste promesse semble tenue : 4.1 est une lĂ©gĂšre amĂ©lioration sur 4o, mais 4.1-mini est presque aussi performant Ă une fraction du prix (5x moins cher).
Il existe encore une version moins chÚre (20x !), 4.1-nano, mais la dégradation de performance est significative.
Ă lâinverse de 4.1, o3 et o4-mini, eux, ont lâambition de faire avancer lâĂ©tat de lâart. Lâannonce officielle :
Today, weâre releasing OpenAI o3 and o4-mini, the latest in our o-series of models trained to think for longer before responding. These are the smartest models weâve released to date, representing a step change in ChatGPT's capabilities for everyone from curious users to advanced researchers. For the first time, our reasoning models can agentically use and combine every tool within ChatGPTâthis includes searching the web, analyzing uploaded files and other data with Python, reasoning deeply about visual inputs, and even generating images. Critically, these models are trained to reason about when and how to use tools to produce detailed and thoughtful answers in the right output formats, typically in under a minute, to solve more complex problems. This allows them to tackle multi-faceted questions more effectively, a step toward a more agentic ChatGPT that can independently execute tasks on your behalf. The combined power of state-of-the-art reasoning with full tool access translates into significantly stronger performance across academic benchmarks and real-world tasks, setting a new standard in both intelligence and usefulness.
Traduction :
Aujourdâhui, nous lançons OpenAI o3 et o4-mini, les derniers modĂšles de notre sĂ©rie o, entraĂźnĂ©s Ă rĂ©flĂ©chir plus longtemps avant de rĂ©pondre. Ce sont les modĂšles les plus intelligents que nous ayons publiĂ©s Ă ce jour, reprĂ©sentant un changement majeur dans les capacitĂ©s de ChatGPT pour tous, des utilisateurs curieux aux chercheurs avancĂ©s. Pour la premiĂšre fois, nos modĂšles de raisonnement peuvent utiliser et combiner de maniĂšre agentique tous les outils au sein de ChatGPT â cela inclut la recherche sur le web, lâanalyse de fichiers tĂ©lĂ©chargĂ©s et dâautres donnĂ©es avec Python, le raisonnement approfondi sur les entrĂ©es visuelles, et mĂȘme la gĂ©nĂ©ration dâimages. Plus important encore, ces modĂšles sont entraĂźnĂ©s Ă rĂ©flĂ©chir Ă quand et comment utiliser les outils pour produire des rĂ©ponses dĂ©taillĂ©es et rĂ©flĂ©chies dans les bons formats de sortie, gĂ©nĂ©ralement en moins dâune minute, afin de rĂ©soudre des problĂšmes plus complexes. Cela leur permet de traiter plus efficacement des questions Ă multiples facettes, une Ă©tape vers un ChatGPT plus agentique qui peut exĂ©cuter indĂ©pendamment des tĂąches en votre nom. La puissance combinĂ©e dâun raisonnement Ă la pointe de la technologie avec un accĂšs complet aux outils se traduit par des performances significativement amĂ©liorĂ©es dans les Ă©valuations acadĂ©miques et les tĂąches du monde rĂ©el, Ă©tablissant une nouvelle norme en termes dâintelligence et dâutilitĂ©.
Lâannonce du jailbreak associĂ©e ici.
Sur les performances, les benchmarks (y compris privĂ©s) indiquent une avancĂ©e claire, prenant la premiĂšre place presque partout. En particulier, le benchmark fiction.live peut ĂȘtre considĂ©rĂ© comme rĂ©solu pour la premiĂšre fois, avec un 100% Ă presque tous les niveaux.
Au niveau des fonctionnalités, o3 et o4-mini peuvent faire des recherches sur internet et utiliser Python pour analyser un problÚme (y compris dans la chaßne de raisonnement) ; les retours subjectifs affirment que o3 est exceptionnellement efficace pour utiliser les outils à sa disposition de maniÚre pertinente.
Une tendance jusquâici Ă©tait que les modĂšles plus avancĂ©s Ă©taient de moins en moins susceptibles dâhallucinations, ce qui donnait espoir que ce problĂšme allait, Ă terme et avec lâamĂ©lioration des modĂšles, se rĂ©soudre de lui-mĂȘme. Mauvaise nouvelle ici : o3 a un taux dâhallucinations double de o1 (sur un benchmark conçu pour en Ă©liciter). Les retours subjectifs confirment cette observation : o3 ment Ă©hontĂ©ment trĂšs rĂ©guliĂšrement.
Sur la sĂ©curitĂ© des modĂšles, OpenAI suit sa procĂ©dure habituelle de publier sa System Card, avec deux Ă©valuations tierces, une dâApollo Research (dans lâappendice) et une autre de METR, avec un bĂ©mol que METR nâa eu accĂšs quâĂ une prĂ©-version, et seulement trois semaines avant la publication. La conclusion est que le modĂšle nâest pas encore à «âŻrisque Ă©levĂ©âŻÂ», mais sâen rapproche.
Dans les nouvelles sur lâIA de mars, on pouvait trouver une section « Les modĂšles continuent de tricher ». Les rapports dâApollo Research et de METR confirment, oĂč le modĂšle a Ă©tĂ© attrapĂ© Ă tricher dans 1-2% des cas chez METR.
AI 2027: une tentative de futurologie
La prĂ©diction est un exercice difficile, surtout quand il sâagit du futur. AI 2027 est une tentative de prĂ©diction qui a fait parler dâelle. Pourquoi ?
Dâabord par les personnalitĂ©s impliquĂ©es, en particulier :
Daniel Kokotajlo est un ex-ingĂ©nieur dâOpenAI, quâil a quittĂ© en tant que «âŻwhistleblowerâŻÂ», dĂ©nonçant une culture du secret et de peu dâimportance accordĂ©e Ă la sĂ©curitĂ© (Ă lâĂ©poque, le New York Times lui a accordĂ© un article intitulĂ© OpenAI Insiders Warn of a âRecklessâ Race for Dominance â « Des initiĂ©s dâOpenAI mettent en garde contre une course âimprudenteâ Ă la domination »). En 2021, il publie What 2026 looks like, qui sâest rĂ©vĂ©lĂ© largement prescient (pour une Ă©valuation rĂ©trospective tierce, voir cet article).
Eli Lifland est un chercheur qui sâintĂ©resse de maniĂšre globale a « comment dĂ©velopper de meilleures mĂ©thodes gĂ©nĂ©rales de prĂ©diction », quâil pratique activement sur des marchĂ©s de prĂ©diction ; un rĂ©sumĂ© de ses performances peut ĂȘtre trouvĂ© sur son blog.
Ensuite, par sa mĂ©thodologie. Le but de lâinitiative nâest pas de donner une prĂ©diction, brute de dĂ©coffrage et au doigt mouillĂ©, mais de crĂ©er un modĂšle quantitatif, dâestimer les paramĂštres le plus possible Ă partir de la littĂ©rature existante (mĂȘme si câest loin dâĂȘtre toujours possible), afin de crĂ©er une base de discussion pour identifier les plus gros points de dĂ©saccords.
Enfin, par ses rĂ©sultats, qui surprennent beaucoup de monde, qui prĂ©voient lâarrivĂ©e dâune superintelligence pour 2028-2029.
Lâinitiative a reçu le support, entre autres, de Yoshua Bengio, ce qui a aidĂ© Ă lancer la discussion :
I recommend reading this scenario-type prediction by @DKokotajlo and others on how AI could transform the world in just a few years. Nobody has a crystal ball, but this type of content can help notice important questions and illustrate the potential impact of emerging risks.
Traduction :
Je recommande de lire cette prĂ©diction de type scĂ©nario par @DKokotajlo et dâautres sur comment lâIA pourrait transformer le monde en seulement quelques annĂ©es. Personne nâa de boule de cristal, mais ce type de contenu peut aider Ă repĂ©rer des questions importantes et illustrer lâimpact potentiel des risques Ă©mergents
Si le sujet vous intéresse, je vous recommande :
- Le scĂ©nario en lui-mĂȘme.
- Le blog des auteurs du scĂ©nario, oĂč ils entrent plus en dĂ©tails sur certains points.
- Si vous pouvez comprendre de lâanglais (soit Ă lâoral, soit avec des sous-titres, ou pour les plus courageux les sous-titres traduits automatiquement), Dwarkesh Patel pose aux auteurs les principales questions que vous pourriez vous poser sur son podcast.
En vrac
OpenAI annonce vouloir publier des modĂšles en open-weight dâici quelques mois.
OpenAI publie OpenAI Codex, un agent dâaide Ă la programmation (similaire Ă Aider ou Claude Code), en licence Apache 2.0. Sur ce sujet dâagents dâaide au code, un guide a Ă©tĂ© publiĂ© sur Github.
OpenAI rend disponible sur lâAPI leur nouveau modĂšle de gĂ©nĂ©ration dâimage.
ChatGPT a maintenant la capacité de référencer vos conversations passées.
Google publie deux papiers dans Nature pour Ă©valuer la performance de lâIA sur le diagnostic mĂ©dical. Dans cette expĂ©rience, lâIA surpasse le mĂ©decin humain, au point que IA + humain a des performances pires que lâhumain seul.
Google rend accessible son modĂšle de gĂ©nĂ©ration de vidĂ©o, Veo 2, par lâintermĂ©diaire dâune API.
DeepSeek prĂ©sente une nouvelle mĂ©thode dâentraĂźnement, Generalist Reward Modeling (GRM).
Des chercheurs de lâuniversitĂ© de Zurich dĂ©cident de mesurer la capacitĂ© de persuasion des IA en dĂ©ployant (secrĂštement) un bot sur le subreddit r/changemymind (« Change mon avis »). RĂ©sultat primaire: les IA modernes sont trĂšs performantes Ă cette tĂąche, rĂ©coltant 6x plus de points « cela mâa aidĂ© Ă changer mon avis » (sur ce subreddit : « deltas ») que lâhumain median. RĂ©sultat secondaire: lâIA ne sâest pas faite dĂ©tectĂ©e par la modĂ©ration. Le papier nâest plus accessible suite Ă une controverse sur lâĂ©thique de lâexpĂ©rience (expĂ©rience sans consentement), mais vous pouvez toujours lire la premiĂšre page.
Pour aller plus loin
Non couvert ici :
- GPT-4o Responds to Negative Feedback: une mise Ă jour de GPT-4o lâa pour quelques jours rendu extrĂȘmement flatteur envers lâutilisateur, lâĂ©croulant sous les compliments quelle que soit la requĂȘte. Ă des niveaux malsains (par exemple, oĂč la requĂȘte en question a tous les signes dâun Ă©pisode psychotiqueâŠ). OpenAI a depuis annulĂ© la mise Ă jour, mais lâarticle entre plus en dĂ©tails sur lâincident. Si vous nâouvrez quâun article dans la section «âŻpour aller plus loinâŻÂ», je vous recommande celui-ci.
- AI CoT Reasoning Is Often Unfaithful: une analyse du papier dâAnthropic sur la sĂ©curitĂ© des modĂšles, qui montre que les chaines de pensĂ©e dans les modĂšles de raisonnement ne reflĂštent pas toujours fidĂšlement le raisonnement rĂ©el derriĂšre la rĂ©ponse.
- You Better Mechanize: sur le lancement de Mechanize, une entreprise qui a comme objectif dâapporter lâAI dans le «âŻmonde rĂ©elâŻÂ» pour automatiser lâĂ©conomie.
- On Google's Safety Plan
- OpenAI #13: Altman at TED and OpenAI Cutting Corners on Safety Testing
- Worries About AI Are Usually Complements Not Substitutes
Commentaires : voir le flux Atom ouvrir dans le navigateur