Nouvelles sur l’IA de juin 2025

4 juillet 2025 à 07:04

Un mois plutôt calme, pas de grosse publication de modèle ou de papier important : c’est le premier mois où aucun sujet ne me semble suffisamment saillant pour mériter d’être développé dans sa propre partie.

Si cela vous laisse sur votre faim et que l’anglais ne vous fait pas peur, je vous recommande chaudement le podcast dans la section "Pour aller plus loin", où deux ingénieurs d’Anthropic font une rétrospective sur le chemin parcouru ces dernières années, et le chemin restant à parcourir.

lien nᵒ 1 : AI #119: Goodbye AISI?
lien nᵒ 2 : AI #120: While o3 Turned Pro
lien nᵒ 3 : AI #121 Part 1: New Connections
lien nᵒ 4 : AI #121 Part 2: The OpenAI Files
lien nᵒ 5 : AI #122: Paying The Market Price
lien nᵒ 6 : DeepSeek-r1-0528 Did Not Have a Moment
lien nᵒ 7 : o3 Turns Pro
lien nᵒ 8 : Gemini 2.5 Pro: From 0506 to 0605

Sommaire

En vrac

DeepSeek publie une nouvelle version de son modèle de raisonnement open-weights r1, r1-0528. Les benchmarks publiés par DeepSeek le présentent au même niveau que l’état de l’art (ChatGPT o3/Gemini 2.5 Pro/Claude 4), mais la plupart des retours (benchmarks tiers et retours plus subjectifs) ne confirment pas ces résultats. Ceci dit, même en ne considérant que ces sources tierces, ce modèle reste très solide, prenant la première place dans sa catégorie des modèles open-weights et se comparant favorablement à Claude Sonnet 3.7 ou ChatGPT o1.

Si vous vous inquiétez des problématiques de vie privée, les messages qui passent par l’API directement ne sont généralement pas enregistrés. En tout cas, c’était le cas jusqu’ici. Une décision de justice force maintenant OpenAI à tout enregistrer.

Est-ce que l’entraînement de l’IA est possible sans enfreindre les droits d’auteurs de ceux ayant produit les données d’entraînement ? common-pile tente l’expérience, créant un ensemble de données d’entraînement uniquement sur des sources libres (domaine public, Creative Commons…), puis entraînant un (petit) modèle dessus. Ce modèle semble compétitif avec d’autres modèles de taille comparable comme Llama 2 7b.

Nouvelle évaluation ésotérique : après « jouer à Pokemon » (Claude, Gemini, ChatGPT o3), faire jouer différents modèles au jeu « Diplomatie ». o3 gagne au jeu des alliances et des trahisons ; Claude, incapable de mentir, se fait aisément manipuler.

OpenAI publie une analyse de l’usage fait de ChatGPT par des acteurs identifiés comme malveillants, ensuite bannis de leur plateforme. Principalement de l’influence politique sur les réseaux sociaux, mais également du développement de malware et de l’assistance à des cyberattaques, et des arnaques par SMS/messagerie sur internet.

OpenAI lance o3-pro, une version de o3 utilisant des chaînes de pensées drastiquement plus longues (donc plus coûteuses en temps et en puissance de calcul) pour (en théorie) de meilleurs résultats. Les retours (benchmarks et subjectifs) pointent dans la direction que les résultats sont effectivement légèrement meilleurs, mais ne valent ni l’attente (o3-pro est beaucoup plus lent, pouvant prendre ~15 minutes pour générer une réponse), ni le coût.

Plus intéressant, OpenAI baisse le coût de o3 de 80%, s’alignant globalement sur Gemini 2.5 Pro/Claude 4 Sonnet.

Gemini 2.5 Pro gagne une mise à jour, passant de la version 0506 à 0605. Le gain de performance semble réel (pour une mise à jour mineure), mais il semblerait que Gemini commence à avoir les mêmes problèmes de flagornerie que ChatGPT 4o.

Nouveau benchmark pour juger des performances en programmation, LiveCodeBench Pro. Les problèmes sont classés par difficulté (facile / moyen / difficile), et par catégorie — il est intéressant de noter que les performances ne sont pas homogènes entre toutes les catégories, les LLMs étant particulièrement bons dans les problèmes impliquant logique et/ou connaissance, mauvais dans les problèmes demandant de l’observation. Tous les modèles actuels sont à 0% pour les problèmes difficiles.

MidJourney dote son IA de la capacité de créer des video.

Un papier très intéressant sur l’automatisation des tâches. Les auteurs demandent à des experts de différents métiers à quel point ils aimeraient que l’IA automatise une tâche, et à des experts de l’IA de juger à quel point il serait facile d’automatiser cette tâche. Ceci permet de classifier les tâches en quatre groupes : "R&D opportunity zone" (difficile mais désirable), "Low priority zone" (difficile et non-désirable), "Green Light" (facile et désirable) et "Red Light" (facile mais indésirable). Il ne semble pas y avoir de corrélation entre les deux axes, et les startups proposant des solutions d’automatisation semblent être réparties de manière homogène entre ces quatre zones.

Dans les modèles open-weight, DeepMind publie Gemma 3n, un modèle fait pour l’exécution locale sur des smartphone et des laptop. Toujours dans cette catégorie d’exécution locale, Apple rend accessible aux développeurs l’exécution locale de ses modèles (sans pour autant publier les modèles eux-mêmes).

Un site internet résume les différentes controverses autour de OpenAI.

[Paywall] En avril dernier, une mise à jour de ChatGPT 4o l’avait rendu extrêmement flagorneur. Le New York Times couvre cet événement, rapportant au moins deux épisodes psychotiques encouragé par l’IA conduisant à des agressions, dont un conduisant au décès de l’agresseur suite à l’intervention des forces de l’ordre. Un papier avait prévenu du danger en 2024, en montrant que si une IA était entraînée uniquement sur des retours utilisateurs, l’IA apprenait des techniques de manipulations pour obtenir des retours positifs.

Dans la bataille juridique qui oppose les créateurs de contenu vs les entreprises qui entraînent les modèles (en grande partie sur ces contenus, sans demander l’autorisation), victoire du second camp : dans un pré-procès opposant Anthropic à trois auteurs, le juge donne (partiellement) raison à Anthropic en déclarant que le processus d’entraînement est transformative et relève du fair use — mais le procès aura tout de même lieu, du fait de l’utilisation d’une copie piratée plutôt qu’achetée légalement pour l’entraînement. Même décision dans un procès similaire intenté à Meta.

DeepMind applique les méthodes d’entraînement des LLM à la génomique, avec pour résultat DeepGenome.

Google lance son concurrent à Claude Code et Codex CLI, Gemini CLI, sous licence Apache 2.0.

Installation des centres de données liés à l'IA en France : à Chateauroux (commentaires sur LinuxFR) et à Petit-Landau (Alsace).

Pour aller plus loin

Non couvert ici :

In Which I Make the Mistake of Fully Covering an Episode of the All-In Podcast : Résumé et analyse d’une longue interview que David Sacks (le conseiller du gouvernement Trump sur l’IA) a donné dans un podcast.
Dwarkesh Patel on Continual Learning : Une discussion spéculative sur la rapidité des progrès futurs de l’IA.
Give Me a Reason(ing Model) : Réactions sur un papier venant d’Apple. Une critique intéressante peut être trouvée sur AI Alignment Forum.
The Dream of a Gentle Singularity : Résumé et critique de l’essai de Sam Altman (CEO de OpenAI), « The Gentle Singularity ».
RTFB: The RAISE Act : analyse du projet de régulation de l’IA de l’État de New York.
Analyzing A Critique Of The AI 2027 Timeline Forecasts : Nous avions mentionné en avril "AI 2027", une tentative de prédiction de la trajectoire de l’IA dans les prochaines années. Une critique substantielle sur les modèles utilisées a été publiée ; résumé et analyse de cette critique et des discussions autour.
Tales of Agentic Misalignment : Dans certaines circonstances (plutôt artificielles), les modèles actuels peuvent prendre des décisions clairement indésirables, telles qu’avoir recours au chantage. Analyse du papier révélant le problème et des discussions autour.

En video :

Is RL + LLMs enough for AGI? – Sholto Douglas & Trenton Bricken

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Vue normale

Sommaire

En vrac

Pour aller plus loin