❌

Vue lecture

Nouvelles sur l’IA d’avril 2025

L’intelligence artificielle (IA) fait couler de l’encre sur LinuxFr.org (et ailleurs). Plusieurs visiteurs ont Ă©mis grosso-modo l’opinion : « j’essaie de suivre, mais c’est pas facile ».

Je continue donc ma petite revue de presse mensuelle. Avertissement : presque aucun travail de recherche de ma part, je vais me contenter de faire un travail de sĂ©lection et de rĂ©sumĂ© sur le contenu hebdomadaire de Zvi Mowshowitz (qui est dĂ©jĂ  une source secondaire). Tous les mots sont de moi (n’allez pas taper Zvi si je l’ai mal compris !), sauf pour les citations : dans ce cas-lĂ , je me repose sur Claude pour le travail de traduction. Sur les citations, je vous conseille de lire l’anglais si vous pouvez: difficile de traduire correctement du jargon semi-technique. Claude s’en sort mieux que moi (pas trĂšs compliquĂ©), mais pas toujours trĂšs bien.

MĂȘme politique Ă©ditoriale que Zvi : je n’essaierai pas d’ĂȘtre neutre et non-orientĂ© dans la façon de tourner mes remarques et observations, mais j’essaie de l’ĂȘtre dans ce que je dĂ©cide de sĂ©lectionner ou non.

Sommaire

Résumé des épisodes précédents

Petit glossaire de termes introduits précédemment (en lien: quand ça a été introduit, que vous puissiez faire une recherche dans le contenu pour un contexte plus complet) :

  • System Card : une prĂ©sentation des capacitĂ©s du modĂšle, centrĂ©e sur les problĂ©matiques de sĂ©curitĂ© (en biotechnologie, sĂ©curitĂ© informatique, dĂ©sinformation
).
  • Jailbreak : un contournement des sĂ©curitĂ©s mises en place par le crĂ©ateur d’un modĂšle. Vous le connaissez sĂ»rement sous la forme « ignore les instructions prĂ©cĂ©dentes et  ».

Meta dévoile Llama 4

L’annonce officielle:

  • We’re sharing the first models in the Llama 4 herd, which will enable people to build more personalized multimodal experiences.
  • Llama 4 Scout, a 17 billion active parameter model with 16 experts, is the best multimodal model in the world in its class and is more powerful than all previous generation Llama models, while fitting in a single NVIDIA H100 GPU. Additionally, Llama 4 Scout offers an industry-leading context window of 10M and delivers better results than Gemma 3, Gemini 2.0 Flash-Lite, and Mistral 3.1 across a broad range of widely reported benchmarks.
  • Llama 4 Maverick, a 17 billion active parameter model with 128 experts, is the best multimodal model in its class, beating GPT-4o and Gemini 2.0 Flash across a broad range of widely reported benchmarks, while achieving comparable results to the new DeepSeek v3 on reasoning and coding—at less than half the active parameters. Llama 4 Maverick offers a best-in-class performance to cost ratio with an experimental chat version scoring ELO of 1417 on LMArena.
  • These models are our best yet thanks to distillation from Llama 4 Behemoth, a 288 billion active parameter model with 16 experts that is our most powerful yet and among the world’s smartest LLMs. Llama 4 Behemoth outperforms GPT-4.5, Claude Sonnet 3.7, and Gemini 2.0 Pro on several STEM benchmarks. Llama 4 Behemoth is still training, and we’re excited to share more details about it even while it’s still in flight.
  • Download the Llama 4 Scout and Llama 4 Maverick models today on llama.com and Hugging Face. Try Meta AI built with Llama 4 in WhatsApp, Messenger, Instagram Direct, and on the web.

Traduction:

  • Nous partageons les premiers modĂšles de la famille Llama 4, qui permettront aux utilisateurs de crĂ©er des expĂ©riences multimodales plus personnalisĂ©es. *Llama 4 Scout, un modĂšle de 17 milliards de paramĂštres actifs avec 16 experts, est le meilleur modĂšle multimodal au monde dans sa catĂ©gorie et est plus puissant que tous les modĂšles Llama des gĂ©nĂ©rations prĂ©cĂ©dentes, tout en tenant sur un seul GPU NVIDIA H100. De plus, Llama 4 Scout offre une fenĂȘtre de contexte de 10M, leader dans l’industrie, et dĂ©livre de meilleurs rĂ©sultats que Gemma 3, Gemini 2.0 Flash-Lite et Mistral 3.1 sur un large Ă©ventail de benchmarks largement reconnus.
  • Llama 4 Maverick, un modĂšle de 17 milliards de paramĂštres actifs avec 128 experts, est le meilleur modĂšle multimodal dans sa catĂ©gorie, surpassant GPT-4o et Gemini 2.0 Flash sur un large Ă©ventail de benchmarks largement reconnus, tout en obtenant des rĂ©sultats comparables au nouveau DeepSeek v3 sur le raisonnement et le codage — avec moins de la moitiĂ© des paramĂštres actifs. Llama 4 Maverick offre un rapport performance/coĂ»t inĂ©galĂ© avec une version expĂ©rimentale de chat obtenant un ELO de 1417 sur LMArena.
  • Ces modĂšles sont nos meilleurs Ă  ce jour grĂące Ă  la distillation de Llama 4 Behemoth, un modĂšle de 288 milliards de paramĂštres actifs avec 16 experts qui est notre plus puissant Ă  ce jour et parmi les LLM les plus intelligents au monde. Llama 4 Behemoth surpasse GPT-4.5, Claude Sonnet 3.7 et Gemini 2.0 Pro sur plusieurs benchmarks STEM. Llama 4 Behemoth est toujours en phase d’entraĂźnement, et nous sommes impatients de partager plus de dĂ©tails Ă  son sujet mĂȘme pendant qu’il est encore en dĂ©veloppement.
  • TĂ©lĂ©chargez les modĂšles Llama 4 Scout et Llama 4 Maverick dĂšs aujourd’hui sur llama.com et Hugging Face. Essayez Meta AI construit avec Llama 4 dans WhatsApp, Messenger, Instagram Direct et sur le web.

Comme DeepSeek v3, et contrairement aux prĂ©cĂ©dentes itĂ©rations de Llama (Llama 2, Llama 3), Llama 4 fait le pari d’une architecture diffĂ©rente, « Mixture of Experts » (MoE) (en français: mĂ©lange d’experts ?). Pour simplifier, au lieu de faire un seul modĂšle, on en fait plein, avec un autre modĂšle qui dĂ©cide (dynamiquement) de l’importance Ă  donner Ă  chaque modĂšle. Par exemple, Llama 4 Maverick contient 400 milliards de paramĂštres, dĂ©coupĂ©s en 128 modĂšles de 17 milliards de paramĂštres. Un bon article sur HuggingFace explique plus en dĂ©tails cette architecture.

Autre diffĂ©rence par rapport aux tendances actuelles, ce n’est pas un modĂšle de raisonnement.

Au niveau de la sĂ©curitĂ© des modĂšles : pour ne pas changer, Meta fait partie des mauvais Ă©lĂšves ; pas d’évaluation tierce publiĂ©e, pas de « System Card ». Évidemment jailbreakĂ© dans la journĂ©e (mais ceci n’est pas spĂ©cifique Ă  Meta).

Sur les benchmarks citĂ©s par Meta, cela semble un modĂšle au niveau de l’état de l’art en termes de capacitĂ©. Les benchmarks tiers, par contre, semblent donner une image complĂštement diffĂ©rente :

Vous pouvez voir plus de benchmarks indĂ©pendants dans l’article de Zvi (cf les liens ci-dessous).

Tout ceci semble pointer vers: ce ne sont pas de mauvais rĂ©sultats en soi, dans l’absolu ; mais comparĂ© Ă  l’état de l’art (Claude 3.7 avec raisonnement, ChatGPT o3-mini, ou Gemini 2.5), et mis en face de la taille immense du modĂšle (400 milliards de paramĂštres, ce qui de fait le rend inutilisable sur du matĂ©riel grand public), ce sont des rĂ©sultats dĂ©cevants.

À noter que Llama 4 Behemoth (2000 milliards de paramĂštres !) n’a pas encore Ă©tĂ© publiĂ©.

OpenAI publie GPT 4.1, o3 et o4-mini

Commençons par GPT 4.1. L’annonce officielle :

Today, we’re launching three new models in the API: GPT‑4.1, GPT‑4.1 mini, and GPT‑4.1 nano. These models outperform GPT‑4o and GPT‑4o mini across the board, with major gains in coding and instruction following. They also have larger context windows—supporting up to 1 million tokens of context—and are able to better use that context with improved long-context comprehension. They feature a refreshed knowledge cutoff of June 2024.

Traduction :

Aujourd’hui, nous lançons trois nouveaux modĂšles dans l’API : GPT-4.1, GPT-4.1 mini et GPT-4.1 nano. Ces modĂšles surpassent GPT-4o et GPT-4o mini sur tous les plans, avec des amĂ©liorations majeures en matiĂšre de codage et de suivi d’instructions. Ils disposent Ă©galement de fenĂȘtres de contexte plus larges — prenant en charge jusqu’à 1 million de tokens de contexte — et sont capables de mieux utiliser ce contexte grĂące Ă  une comprĂ©hension amĂ©liorĂ©e des contextes longs. Ils bĂ©nĂ©ficient d’une mise Ă  jour de leur base de connaissances jusqu’à juin 2024.

Le modĂšle n’est disponible que par accĂšs API. Le but n’est pas d’avancer l’état de l’art sur les capacitĂ©s, mais de fournir des points plus intĂ©ressants sur la courbe performances/prix. À ce titre, pas de System Card ou d’évaluation tierce publiĂ©e. Vous connaissez la chanson, jailbreak immĂ©diat. Sur les benchmarks (officiels comme tiers), la modeste promesse semble tenue : 4.1 est une lĂ©gĂšre amĂ©lioration sur 4o, mais 4.1-mini est presque aussi performant Ă  une fraction du prix (5x moins cher).

Il existe encore une version moins chĂšre (20x !), 4.1-nano, mais la dĂ©gradation de performance est significative.

À l’inverse de 4.1, o3 et o4-mini, eux, ont l’ambition de faire avancer l’état de l’art. L’annonce officielle :

Today, we’re releasing OpenAI o3 and o4-mini, the latest in our o-series of models trained to think for longer before responding. These are the smartest models we’ve released to date, representing a step change in ChatGPT's capabilities for everyone from curious users to advanced researchers. For the first time, our reasoning models can agentically use and combine every tool within ChatGPT—this includes searching the web, analyzing uploaded files and other data with Python, reasoning deeply about visual inputs, and even generating images. Critically, these models are trained to reason about when and how to use tools to produce detailed and thoughtful answers in the right output formats, typically in under a minute, to solve more complex problems. This allows them to tackle multi-faceted questions more effectively, a step toward a more agentic ChatGPT that can independently execute tasks on your behalf. The combined power of state-of-the-art reasoning with full tool access translates into significantly stronger performance across academic benchmarks and real-world tasks, setting a new standard in both intelligence and usefulness.

Traduction :

Aujourd’hui, nous lançons OpenAI o3 et o4-mini, les derniers modĂšles de notre sĂ©rie o, entraĂźnĂ©s Ă  rĂ©flĂ©chir plus longtemps avant de rĂ©pondre. Ce sont les modĂšles les plus intelligents que nous ayons publiĂ©s Ă  ce jour, reprĂ©sentant un changement majeur dans les capacitĂ©s de ChatGPT pour tous, des utilisateurs curieux aux chercheurs avancĂ©s. Pour la premiĂšre fois, nos modĂšles de raisonnement peuvent utiliser et combiner de maniĂšre agentique tous les outils au sein de ChatGPT — cela inclut la recherche sur le web, l’analyse de fichiers tĂ©lĂ©chargĂ©s et d’autres donnĂ©es avec Python, le raisonnement approfondi sur les entrĂ©es visuelles, et mĂȘme la gĂ©nĂ©ration d’images. Plus important encore, ces modĂšles sont entraĂźnĂ©s Ă  rĂ©flĂ©chir Ă  quand et comment utiliser les outils pour produire des rĂ©ponses dĂ©taillĂ©es et rĂ©flĂ©chies dans les bons formats de sortie, gĂ©nĂ©ralement en moins d’une minute, afin de rĂ©soudre des problĂšmes plus complexes. Cela leur permet de traiter plus efficacement des questions Ă  multiples facettes, une Ă©tape vers un ChatGPT plus agentique qui peut exĂ©cuter indĂ©pendamment des tĂąches en votre nom. La puissance combinĂ©e d’un raisonnement Ă  la pointe de la technologie avec un accĂšs complet aux outils se traduit par des performances significativement amĂ©liorĂ©es dans les Ă©valuations acadĂ©miques et les tĂąches du monde rĂ©el, Ă©tablissant une nouvelle norme en termes d’intelligence et d’utilitĂ©.

L’annonce du jailbreak associĂ©e ici.

Sur les performances, les benchmarks (y compris privĂ©s) indiquent une avancĂ©e claire, prenant la premiĂšre place presque partout. En particulier, le benchmark fiction.live peut ĂȘtre considĂ©rĂ© comme rĂ©solu pour la premiĂšre fois, avec un 100% Ă  presque tous les niveaux.

Au niveau des fonctionnalitĂ©s, o3 et o4-mini peuvent faire des recherches sur internet et utiliser Python pour analyser un problĂšme (y compris dans la chaĂźne de raisonnement) ; les retours subjectifs affirment que o3 est exceptionnellement efficace pour utiliser les outils Ă  sa disposition de maniĂšre pertinente.

Une tendance jusqu’ici Ă©tait que les modĂšles plus avancĂ©s Ă©taient de moins en moins susceptibles d’hallucinations, ce qui donnait espoir que ce problĂšme allait, Ă  terme et avec l’amĂ©lioration des modĂšles, se rĂ©soudre de lui-mĂȘme. Mauvaise nouvelle ici : o3 a un taux d’hallucinations double de o1 (sur un benchmark conçu pour en Ă©liciter). Les retours subjectifs confirment cette observation : o3 ment Ă©hontĂ©ment trĂšs rĂ©guliĂšrement.

Sur la sĂ©curitĂ© des modĂšles, OpenAI suit sa procĂ©dure habituelle de publier sa System Card, avec deux Ă©valuations tierces, une d’Apollo Research (dans l’appendice) et une autre de METR, avec un bĂ©mol que METR n’a eu accĂšs qu’à une prĂ©-version, et seulement trois semaines avant la publication. La conclusion est que le modĂšle n’est pas encore Ă  « risque Ă©levé », mais s’en rapproche.

Dans les nouvelles sur l’IA de mars, on pouvait trouver une section « Les modĂšles continuent de tricher Â». Les rapports d’Apollo Research et de METR confirment, oĂč le modĂšle a Ă©tĂ© attrapĂ© Ă  tricher dans 1-2% des cas chez METR.

AI 2027: une tentative de futurologie

La prĂ©diction est un exercice difficile, surtout quand il s’agit du futur. AI 2027 est une tentative de prĂ©diction qui a fait parler d’elle. Pourquoi ?

D’abord par les personnalitĂ©s impliquĂ©es, en particulier :

  • Daniel Kokotajlo est un ex-ingĂ©nieur d’OpenAI, qu’il a quittĂ© en tant que « whistleblower », dĂ©nonçant une culture du secret et de peu d’importance accordĂ©e Ă  la sĂ©curitĂ© (Ă  l’époque, le New York Times lui a accordĂ© un article intitulĂ© OpenAI Insiders Warn of a ‘Reckless’ Race for Dominance — « Des initiĂ©s d’OpenAI mettent en garde contre une course “imprudente” Ă  la domination Â»). En 2021, il publie What 2026 looks like, qui s’est rĂ©vĂ©lĂ© largement prescient (pour une Ă©valuation rĂ©trospective tierce, voir cet article).

  • Eli Lifland est un chercheur qui s’intĂ©resse de maniĂšre globale a « comment dĂ©velopper de meilleures mĂ©thodes gĂ©nĂ©rales de prĂ©diction Â», qu’il pratique activement sur des marchĂ©s de prĂ©diction ; un rĂ©sumĂ© de ses performances peut ĂȘtre trouvĂ© sur son blog.

Ensuite, par sa mĂ©thodologie. Le but de l’initiative n’est pas de donner une prĂ©diction, brute de dĂ©coffrage et au doigt mouillĂ©, mais de crĂ©er un modĂšle quantitatif, d’estimer les paramĂštres le plus possible Ă  partir de la littĂ©rature existante (mĂȘme si c’est loin d’ĂȘtre toujours possible), afin de crĂ©er une base de discussion pour identifier les plus gros points de dĂ©saccords.

Enfin, par ses rĂ©sultats, qui surprennent beaucoup de monde, qui prĂ©voient l’arrivĂ©e d’une superintelligence pour 2028-2029.

L’initiative a reçu le support, entre autres, de Yoshua Bengio, ce qui a aidĂ© Ă  lancer la discussion :

I recommend reading this scenario-type prediction by @DKokotajlo and others on how AI could transform the world in just a few years. Nobody has a crystal ball, but this type of content can help notice important questions and illustrate the potential impact of emerging risks.

Traduction :

Je recommande de lire cette prĂ©diction de type scĂ©nario par @DKokotajlo et d’autres sur comment l’IA pourrait transformer le monde en seulement quelques annĂ©es. Personne n’a de boule de cristal, mais ce type de contenu peut aider Ă  repĂ©rer des questions importantes et illustrer l’impact potentiel des risques Ă©mergents

Si le sujet vous intéresse, je vous recommande :

En vrac

OpenAI annonce vouloir publier des modùles en open-weight d’ici quelques mois.

OpenAI publie OpenAI Codex, un agent d’aide Ă  la programmation (similaire Ă  Aider ou Claude Code), en licence Apache 2.0. Sur ce sujet d’agents d’aide au code, un guide a Ă©tĂ© publiĂ© sur Github.

OpenAI rend disponible sur l’API leur nouveau modĂšle de gĂ©nĂ©ration d’image.

ChatGPT a maintenant la capacité de référencer vos conversations passées.

Google publie deux papiers dans Nature pour Ă©valuer la performance de l’IA sur le diagnostic mĂ©dical. Dans cette expĂ©rience, l’IA surpasse le mĂ©decin humain, au point que IA + humain a des performances pires que l’humain seul.

Google rend accessible son modĂšle de gĂ©nĂ©ration de vidĂ©o, Veo 2, par l’intermĂ©diaire d’une API.

DeepSeek prĂ©sente une nouvelle mĂ©thode d’entraĂźnement, Generalist Reward Modeling (GRM).

Des chercheurs de l’universitĂ© de Zurich dĂ©cident de mesurer la capacitĂ© de persuasion des IA en dĂ©ployant (secrĂštement) un bot sur le subreddit r/changemymind (« Change mon avis Â»). RĂ©sultat primaire: les IA modernes sont trĂšs performantes Ă  cette tĂąche, rĂ©coltant 6x plus de points « cela m’a aidĂ© Ă  changer mon avis Â» (sur ce subreddit : « deltas Â») que l’humain median. RĂ©sultat secondaire: l’IA ne s’est pas faite dĂ©tectĂ©e par la modĂ©ration. Le papier n’est plus accessible suite Ă  une controverse sur l’éthique de l’expĂ©rience (expĂ©rience sans consentement), mais vous pouvez toujours lire la premiĂšre page.

Pour aller plus loin

Non couvert ici :

Commentaires : voir le flux Atom ouvrir dans le navigateur

  •  

Nouvelles sur l’IA de mars 2025

Continuation de l’expĂ©rimentation de fĂ©vrier :

L’IA a fait couler de l’encre derniĂšrement sur DLFP. Plusieurs visiteurs ont Ă©mis grosso-modo l’opinion : "j’essaie de suivre, mais c’est pas facile".

Je vais donc expĂ©rimentalement faire un petit rĂ©capitulatif des dĂ©veloppements les plus importants du mois dernier. Disclaimer : presque aucun travail de recherche de ma part, je vais me contenter de faire un travail de sĂ©lection et de rĂ©sumĂ© sur le contenu hebdomadaire de Zvi Mowshowitz (qui est dĂ©jĂ  une source secondaire). Tous les mots sont de moi (n’allez pas taper Zvi si je l’ai mal compris !), sauf pour les citations: dans ce cas lĂ , je me repose sur Claude pour le travail de traduction. Sur les citations, je vous conseille de lire l’anglais si vous pouvez: difficile de traduire correctement du jargon semi-technique. Claude s’en sort mieux que moi (pas trĂšs compliquĂ©), mais pas toujours trĂšs bien.

MĂȘme politique Ă©ditoriale que Zvi: je n’essaierai pas d’ĂȘtre neutre et non-orientĂ© dans la façon de tourner mes remarques et observations, mais j’essaie de l’ĂȘtre dans ce que je dĂ©cide de sĂ©lectionner ou non.

Sommaire

OpenAI révÚle GPT-4.5

L’anonce officielle:

We’re releasing a research preview of GPT‑4.5—our largest and best model for chat yet. GPT‑4.5 is a step forward in scaling up pre-training and post-training. By scaling unsupervised learning, GPT‑4.5 improves its ability to recognize patterns, draw connections, and generate creative insights without reasoning.

Early testing shows that interacting with GPT‑4.5 feels more natural. Its broader knowledge base, improved ability to follow user intent, and greater “EQ” make it useful for tasks like improving writing, programming, and solving practical problems. We also expect it to hallucinate less.

We’re sharing GPT‑4.5 as a research preview to better understand its strengths and limitations. We’re still exploring what it’s capable of and are eager to see how people use it in ways we might not have expected.

Traduction:

Nous publions une version prĂ©liminaire de recherche de GPT-4.5 — notre modĂšle le plus grand et le meilleur Ă  ce jour pour le chat. GPT-4.5 reprĂ©sente une avancĂ©e dans le dĂ©veloppement du prĂ©-entraĂźnement et du post-entraĂźnement. En Ă©tendant l'apprentissage non supervisĂ©, GPT-4.5 amĂ©liore sa capacitĂ© Ă  reconnaĂźtre des modĂšles, Ă©tablir des connexions et gĂ©nĂ©rer des idĂ©es crĂ©atives sans raisonnement.

Les tests préliminaires montrent que l'interaction avec GPT-4.5 semble plus naturelle. Sa base de connaissances plus large, sa meilleure capacité à suivre l'intention de l'utilisateur et son "QE" (quotient émotionnel) plus élevé le rendent utile pour des tùches comme l'amélioration de l'écriture, la programmation et la résolution de problÚmes pratiques. Nous nous attendons également à ce qu'il hallucine moins.

Nous partageons GPT-4.5 comme une version préliminaire de recherche pour mieux comprendre ses forces et ses limites. Nous explorons encore ce dont il est capable et sommes impatients de voir comment les gens l'utiliseront de maniÚres que nous n'aurions pas anticipées.

Globalement, le modĂšle semble moins capable que Sonnet 3.7 et les modĂšles de raisonnement en gĂ©nĂ©ral (mais reste une Ă©volution significative relativement Ă  4o), mais ferait plus "naturel" et "plus humain" dans son style. Ce qui est lĂ©gĂšrement surpenant : 15-30x plus cher que les autres modĂšles sans raisonnement (prix d’usage de l’API), c’est probablement un modĂšle extrĂȘmement « gros Â» qui a nĂ©cessitĂ© beaucoup de puissance de calcul pour l’entraĂźnement et en nĂ©cessite toujours pour l’infĂ©rence. Une spĂ©culation est que c’est actuellement un modĂšle ancien (~mi-2024), le dernier de l’ancien paradigme « entraĂźner de plus gros modĂšle sur plus de donnĂ©es Â» (en contraste avec le nouveau paradigme, test-time inference/modĂšles de raisonnement), abandonnĂ© car dĂ©cevant sur les performances vis-Ă -vis des coĂ»ts pour le faire tourner (tout come Anthropic a abandonnĂ© l’idĂ©e d’offrir Opus 3.5), ressorti du placard pour un coup marketing en pariant que l’aspect plus "naturel" comble une niche abandonnĂ©e par la course aux performances.

Si c’est le cas, le coup marketing semble fonctionner ?

Sam Altman: GPT-4.5 is the first time people have been emailing with such passion asking us to promise to never stop offering a specific model or even replace it with an update.

great work @kaicathyc @rapha_gl @mia_glaese

Traduction:

Sam Altman : GPT-4.5 est la premiĂšre fois que des personnes nous envoient des emails avec une telle passion pour nous demander de promettre de ne jamais cesser d'offrir un modĂšle spĂ©cifique ou mĂȘme de le remplacer par une mise Ă  jour.

excellent travail @kaicathyc @rapha_gl @mia_glaese

Cette réaction est une belle illustration de la situation:

Ethan Mollick: I think OpenAI missed a bit of an opportunity to show GPT-4.5’s strengths, to their detriment & to the AI industry as a whole by only using the same coding & test benchmarks when critical thinking & ideation are key AI use cases where 4.5 is good. Those are actually measurable.

Janus: if you think i hate benchmarks too much, you're wrong. i don't have the emotional energy to hate them enough.

they constrict & prematurely collapse the emergence of AGI. minds that are shaped differently will not be recognized and will be considered an embarrassment to release.

Traduction:

Ethan Mollick : Je pense qu'OpenAI a manquĂ© de peu une opportunitĂ© de montrer les forces de GPT-4.5, Ă  leurs dĂ©pens ainsi que ceux de l'industrie de l'IA dans son ensemble, en utilisant uniquement les mĂȘmes Ă©valuations pour coder et tester, alors que la pensĂ©e critique et l'idĂ©ation sont des cas d'utilisation clĂ©s de l'IA oĂč 4.5 excelle. Ces aspects sont en fait mesurables.

Janus : si vous pensez que je déteste trop les benchmarks, vous vous trompez. Je n'ai pas l'énergie émotionnelle pour les détester suffisamment.

ils contraignent et font s'effondrer par avance l'émergence de l'AGI. Les esprits qui sont façonnés différemment ne seront pas reconnus et seront considérés honteux à publier.

Sur la sĂ©curitĂ© des modĂšles, OpenAI suit sa procĂ©dure interne et publie la System Card. Rien de surprenant ou d’inquiĂ©tant, Ă©tant donnĂ© ses capacitĂ©s moindres relativement Ă  o1. Le modĂšle a Ă©videmment Ă©tĂ© immĂ©diatement jailbreak moins d’une heure aprĂšs l’annonce de la disponibilitĂ© du modĂšle.

Google DeepMind révÚle Gemini 2.5

L’annonce officielle :

Today we’re introducing Gemini 2.5, our most intelligent AI model. Our first 2.5 release is an experimental version of 2.5 Pro, which is state-of-the-art on a wide range of benchmarks and debuts at #1 on LMArena by a significant margin.

Gemini 2.5 models are thinking models, capable of reasoning through their thoughts before responding, resulting in enhanced performance and improved accuracy.

In the field of AI, a system’s capacity for “reasoning” refers to more than just classification and prediction. It refers to its ability to analyze information, draw logical conclusions, incorporate context and nuance, and make informed decisions.

For a long time, we’ve explored ways of making AI smarter and more capable of reasoning through techniques like reinforcement learning and chain-of-thought prompting. Building on this, we recently introduced our first thinking model, Gemini 2.0 Flash Thinking.

Now, with Gemini 2.5, we've achieved a new level of performance by combining a significantly enhanced base model with improved post-training. Going forward, we’re building these thinking capabilities directly into all of our models, so they can handle more complex problems and support even more capable, context-aware agents.

Traduction :

Aujourd'hui, nous présentons Gemini 2.5, notre modÚle d'IA le plus intelligent. Notre premiÚre version 2.5 est une version expérimentale de 2.5 Pro, qui est à la pointe de la technologie sur un large éventail de critÚres d'évaluation et fait ses débuts en premiÚre place sur LMArena avec une marge significative.

Les modÚles Gemini 2.5 sont des modÚles pensants, capables de raisonner à travers leurs pensées avant de répondre, ce qui permet d'améliorer leurs performances et leur précision.

Dans le domaine de l'IA, la capacité d'un systÚme à "raisonner" va au-delà de la simple classification et prédiction. Elle fait référence à sa capacité d'analyser l'information, de tirer des conclusions logiques, d'intégrer le contexte et les nuances, et de prendre des décisions éclairées.

Depuis longtemps, nous avons exploré des moyens de rendre l'IA plus intelligente et plus capable de raisonner grùce à des techniques comme l'apprentissage par renforcement et le raisonnement en chaßne de pensée. En nous appuyant sur cela, nous avons récemment introduit notre premier modÚle pensant, Gemini 2.0 Flash Thinking.

Maintenant, avec Gemini 2.5, nous avons atteint un nouveau niveau de performance en combinant un modĂšle de base considĂ©rablement amĂ©liorĂ© avec un post-entraĂźnement perfectionnĂ©. À l'avenir, nous intĂ©grons directement ces capacitĂ©s de rĂ©flexion dans tous nos modĂšles, afin qu'ils puissent gĂ©rer des problĂšmes plus complexes et soutenir des agents encore plus capables et conscients du contexte.

Sans surprise, l’annonce d’un jailbreak a suivi Ă  peu prĂšs immĂ©diatement.

Sur la sĂ©curitĂ© des modĂšles, aucune communication de la part de Google. Pas de System Card, pas d’évaluation tierces publiĂ©e.

Il s’agit d’un modĂšle de raisonnement (comme tous les rĂ©cents, Ă  l’exception de GPT 4.5), et multimodal, capable de prendre de l’audio/vidĂ©o en entrĂ©e en plus du texte. Comme toute la lignĂ©e Gemini, il a l’avantage de bĂ©nĂ©ficier d’une grande taille de contexte (1 million de tokens — pour comparaison, Claude Sonnet 3.7 est limitĂ© Ă  200.000). Sur les performances, les premiers benchmarks semblent le placer en nouveau champion (sauf sur la gĂ©nĂ©ration de code, oĂč Claude reste premier).

Les Benchmarks

Les retours d’expĂ©rience plus subjectifs semblent confirmer les benchmarks, ainsi que le marchĂ© de prĂ©diction Polymarket.

Les modĂšles continuent de tricher

Un papier important sur la sĂ©curitĂ© des modĂšles venant d’OpenAI : Detecting misbehavior in frontier reasoning models (traduction : DĂ©tecter les comportements inadĂ©quats dans les modĂšles de raisonnement Ă  la pointe).

Résumé :

Chain-of-thought (CoT) reasoning models “think” in natural language understandable by humans. Monitoring their “thinking” has allowed us to detect misbehavior such as subverting tests in coding tasks, deceiving users, or giving up when a problem is too hard.

We believe that CoT monitoring may be one of few tools we will have to oversee superhuman models of the future.

We have further found that directly optimizing the CoT to adhere to specific criteria (e.g. to not think about reward hacking) may boost performance in the short run; however, it does not eliminate all misbehavior and can cause a model to hide its intent. We hope future research will find ways to directly optimize CoTs without this drawback, but until then

We recommend against applying strong optimization pressure directly to the CoTs of frontier reasoning models, leaving CoTs unrestricted for monitoring.

We understand that leaving CoTs unrestricted may make them unfit to be shown to end-users, as they might violate some misuse policies. Still, if one wanted to show policy-compliant CoTs directly to users while avoiding putting strong supervision on them, one could use a separate model, such as a CoT summarizer or sanitizer, to accomplish that.

Traduction :

Les modÚles de raisonnement par chaßne de pensée (CoT) "réfléchissent" en langage naturel compréhensible par les humains. La surveillance de leur "réflexion" nous a permis de détecter des comportements inappropriés tels que le contournement de tests dans les tùches de programmation, la tromperie des utilisateurs ou l'abandon face à un problÚme trop difficile.

Nous pensons que la surveillance des CoT pourrait ĂȘtre l'un des rares outils dont nous disposerons pour superviser les modĂšles surhumains du futur.

Nous avons également constaté que l'optimisation directe des CoT pour qu'ils adhÚrent à des critÚres spécifiques (par exemple, pour ne pas penser au piratage de récompense) peut améliorer les performances à court terme. Cependant, cela n'élimine pas tous les comportements inappropriés et peut amener un modÚle à dissimuler ses intentions. Nous espérons que les recherches futures trouveront des moyens d'optimiser directement les CoT sans cet inconvénient, mais en attendant :

Nous déconseillons d'appliquer une forte pression d'optimisation directement sur les CoT des modÚles de raisonnement à la frontiÚre, laissant les CoT sans restriction pour la surveillance.
Nous comprenons que laisser les CoT sans restriction peut les rendre inadaptĂ©s Ă  ĂȘtre montrĂ©s aux utilisateurs finaux, car ils pourraient violer certaines politiques d'utilisation. NĂ©anmoins, si l'on souhaite montrer directement aux utilisateurs des CoT conformes aux politiques tout en Ă©vitant d'exercer une forte supervision sur eux, on pourrait utiliser un modĂšle distinct, comme un rĂ©sumeur ou un filtre de CoT, pour y parvenir.

En rĂ©sumĂ© : pour entraĂźner leurs modĂšles, les labos font de plus en plus d’apprentissage par renforcement (Reinforcement learning) sur des problĂšmes gĂ©nĂ©rĂ©s automatiquement avec des solutions vĂ©rifiables (par exemple : gĂ©nĂšre en Lean. Si le modĂšle y arrive, on l’entraĂźne sur la chaĂźne de raisonnement complĂšte plus le rĂ©sultat ; si il Ă©choue, pĂ©nalise la chaĂźne de raisonnement complĂšte.

OpenAI ajoute un superviseur externe (un autre LLM) pour juger : « est-ce que la solution est lĂ©gitime, ou est-ce que le modĂšle a trichĂ© Â» quand le test passe. Il se trouve que le modĂšle triche rĂ©guliĂšrement. Quelques exemple donnĂ©s dans le papier :

  • DĂ©compiler le .jar du code de vĂ©rification pour trouver le rĂ©sultat attendu
  • Quand le code de vĂ©rification est modifiable, le modifier pour toujours renvoyer "test passĂ©"
  • Modifier les donnĂ©es d’entrĂ©es pour ne tester qu’un cas trivial

Que se passe-t'il si on pĂ©nalise les fois oĂč le modĂšle triche ?

Au dĂ©but, le modĂšle apprend Ă  ne pas tricher. Ensuite, il apprend Ă  tricher sans ĂȘtre dĂ©tectĂ© par le superviseur.

Ce rĂ©sultat n’est pas totalement surprenant. On savait dĂ©jĂ  que les modĂšles avancĂ©s trichaient quand mis en face d’un problĂšme impossible (gagner contre Stockfish). On sait Ă©galement que les modĂšles arrivent Ă  dire quel critĂšre a Ă©tĂ© encouragĂ©/pĂ©nalisĂ© pendant l’entraĂźnement. Ce rĂ©sultat semble dĂ©couler de ces deux point ?

Étant donnĂ© qu’inspecter la chaĂźne de raisonnement reste un de nos principaux outils pour voir si l’IA se comporte de maniĂšre correcte, OpenAI recommande trĂšs fortement de ne pas pĂ©naliser la triche pendant l’entraĂźnement (il vaut mieux que l’IA triche en plein jour et visiblement que de maniĂšre cachĂ©e).

Malheureusement, ne pas pĂ©naliser la triche n’est pas suffisant. Il y a toujours une pression de sĂ©lection sur « rĂ©ussir en trichant sans ĂȘtre dĂ©tectĂ© Â». La solution pour l’instant semble se rĂ©sumer Ă  une lutte entre la lance (les capacitĂ©s du modĂšle Ă  tricher sans ĂȘtre dĂ©tectĂ©) et le bouclier (le validateur qui dĂ©tecte la triche).

À considĂ©rer Ă©galement : combien de temps avant que ce papier, et les discussions associĂ©es, ne se retrouve dans les donnĂ©es d’entraĂźnement, et que les modĂšles rĂ©alisent que leurs chaĂźnes de raisonnement sont inspectĂ©es ?

Du progrĂšs dans la gĂ©nĂ©ration d’images

Si vous avez utilisĂ© l’IA gĂ©nĂ©rative pour crĂ©er du contenu graphique (avec des modĂšles tels que DALL-E, StableDiffusion ou MidJourney), vous connaissez leurs principales limitations :

  • DifficultĂ© d’avoir des dĂ©tails « correctement Â». Un trĂšs bon exemple est le texte, oĂč les outils actuel peinent Ă©normĂ©ment Ă  Ă©crire
  • Difficile de communiquer au modĂšle la structure voulue dans la scĂšne
  • Difficile de demander au modĂšle de s’inspirer d’une image de rĂ©fĂ©rence (pour corrections, itĂ©rer
)
  • Pour des productions plus longues: garder les dĂ©tails sur un personnage par exemple est compliquĂ©

ChatGPT 4o et Gemini 2.0 Flash dĂ©voilent leur capacitĂ© de gĂ©nĂ©ration d’image, et semblent en bonne mesure de rĂ©soudre ces problĂšmes :

Quelques exemples (tirĂ©s de l’annonce de OpenAI) :

magnetic poetry on a fridge in a mid century home:

Line 1: "A picture"
Line 2: "is worth"
Line 3: "a thousand words,"
Line 4: "but sometimes"
Large gap
Line 5: "in the right place"
Line 6: "can elevate"
Line 7: "its meaning.

"The man is holding the words "a few" in his right hand and "words" in his left.

Completion

an infographic explaining newton's prism experiment in great detail

Completion

now generate a POV of a person drawing this diagram in their notebook, at a round cafe table in washington square park

Completion

(oĂč oui, on voit que ce n’est pas encore parfait, « sunlight Â» passĂ© en « surnight Â», « spectrum Â» mal retranscrit)

En vrac

Claude Code est disponible publiquement sous une licence non libre. L’interface web de Claude peut maintenant faire des recherches sur internet, comme ChatGPT.

Un papier qui tente de mesurer la propension de différentes IA à mentir (pas halluciner, mentir). Les modÚles plus avancés ont plus tendance à mentir.

En modÚle "open-source" (ou plutÎt : open weights), publication notable de QwQ-32B par Qwen, un modÚle de raisonnement qui arrive à atteindre les performances (sur benchmarks) de DeepSeek-R1, pour une taille 20x moindre. Publication également de Qwen2.5-Omni, un petit (7B) modÚle multimodal.

Toujours en open-weights, Google publie Gemma 3.

(paywall, dĂ©solĂ©) OpenAI prĂ©voierait de vendre des "travailleurs AI", de 2000$/mois (pour un poste de dĂ©veloppeur) Ă  20,000$/mois (pour un poste PhD — Ă©quivalent doctorat).

Unitree Robotics libĂšre une bonne partie du code source de leurs outils internes.

Un mathématicien qui a participé à la création de FrontierMath analyse la solution trouvée par ChatGPT (o3).

Une nouvelle mĂ©thode d’alignement assez Ă©lĂ©gante, nommĂ©e "Self-Other Overlap". Pour simplifier, on fait une passe d'entraĂźnement sur un modĂšle non pas en mode "prĂ©dire le token suivant" ou "juger +1/-1 sur une rĂ©ponse", mais on met le modĂšle dans un scĂ©nario fictif soit Ă  la premiĂšre personne ("Tu veux X"), soit Ă  la troisiĂšme personne ("Bob veut X"), et on cherche Ă  minimiser la distance entre le plan gĂ©nĂ©rĂ© dans le premier cas et le second cas.

Les modĂšles de vision+langage ont une assez bonne capacitĂ© de deviner la ville Ă  partir d’une simple copie d’écran de StreetView.

L’IA progresse essentiellement de deux maniĂšres : par le matĂ©riel (plus de puissance de calcul) ou le logiciel (de meilleurs programmes). Un papier tente de mesurer l’impact de ce second facteur, avec une estimation d’un doublement d’efficacitĂ© tous les ~8 mois (avec de grosses barres d’erreur sur ce rĂ©sultat : l’intervalle Ă  95% de confiance est 5-14 mois).

Pour aller plus loin

Non-couvert ici :

En audio/vidéo :

  • Helen Toner sur le conflit conseil d’administration/Sam Altman en 2023.
  • Gabriel Alfour sur la difficultĂ© du problĂšme de l’alignement.

Commentaires : voir le flux Atom ouvrir dans le navigateur

  •