Vue normale

Reçu avant avant-hier

Le Frido 2025 22 septembre 2025 à 04:29

Le Frido 2025

Par :LaurentClaessens · BAud · Benoît Sibaud · Xavier Teyssier

22 septembre 2025 à 04:29

Présentation

Le Frido est un livre de mathématique libre initialement destiné à l'agrégation, mais devenu généraliste. En supposant connue une théorie intuitive des ensembles, ça va jusqu'aux martingales, distributions, extensions de corps, etc. Avec toutes les démonstration intermédiaires (modulo les 981 entrées restantes dans ma liste de choses à faire).

Les résultats sont classés par ordre logique mathématique : chaque démonstration ne s'appuie que sur des résultats énoncés et démontrés plus haut. C'est loin d'être l'ordre pédagogique.

L'extension guilietta donne le reste de ce que je sais en math : groupes de Lie (l'objectif est de donner la liste des représentations de SL(2,C) ).

Nouveautés 2025

Le bouquin vient de dépasser les 3000 pages cette année.

Théorème de Banach-Alaoglu.
Démonstration du fait que le système trigonométrique est une base hilbertienne.
Fonctions analytiques entre espaces de Banach. L'objectif sera d'énoncer et démontrer le théorème d'inversion locale. Le seul doc que j'aie trouvé est celui-ci. Sinon ChatGPT se débrouille assez bien.
Structure de groupe de Lie sur un sous-groupe fermé (ça c'est dans une extension)
Dans le même ordre d'idée : modification de la définition d'une variété pour accepter des cartes à partir d'ouverts de n'importe quel espace vectoriel normé (et non seulement de $\mathbb{R}^n$ ). Formellement, ça rend correcte pour un groupe de Lie l'idée de prendre des cartes depuis l'algèbre de Lie. En pratique, ça permet aussi de prendre des cartes depuis le produit tensoriel des fibres pour prendre le produit tensoriel de fibrés vectoriels. Si on n'accepte que des cartes depuis des ouverts de $\mathbb{R}^n$ , il faut prendre un isomorphisme (pas canonique) entre $\mathbb{R}^n$ et le produit tensoriel, et montrer qu'en réalité rien ne dépend de ce choix. L'inconvénient est qu'on ne peut plus parler de l'ensemble des cartes.

Sommaire

Mon flot de rédaction

Quand j'écris une démonstration, soit je cherche un peu par moi-même, soit je cherche sur internet. Quand je trouve un texte qui me semble correct, je commence par rédiger sur du papier de brouillon; la plupart du temps j'ajoute beaucoup de détails par rapport à ce que je lis. En particulier, j'écris sur mon papier de brouillon les labels (dans le Frido) des résultats à citer.

Quand ma démonstration est terminée, je copie des feuilles vers LaTeX. Chaque démonstration passe donc par (au moins) deux rédactions personnelles : une de l'écran vers le papier de brouillon et une du papier vers LaTeX.

ChatGPT

Ce flot est valable également quand je demande à ChatGPT. Ce dernier est maintenant crédité comme source dans neuf démonstrations. Parfois seul parfois en collaboration avec moi ou d'autres sources. Je ne copie-colle jamais un résultat.

Avant de demander à ChatGPT, je regarde d'abord pas mal sur internet ; et je me demande parfois pourquoi d'ailleurs.

Mon activité sur Stack

Lorsque je ne trouve pas une démonstration en ligne, je demande souvent sur Stack. Et parfois je n'ai pas de réponses satisfaisantes.

Zorn et existence d'un max pour tout ensemble fini

Je demande si il est vrai que tout ensemble Dedekin-fini totalement ordonné a un maximum.

À mon avis la preuve donnée par Asaf Karagila (et qui a 5 votes positifs) a au moins un trou ; j'explique dans les commentaires ce qui ne me va pas. Si vous avez une idée de comment compléter, n'hésitez pas.

Connexité

Voici une question qui lie connexité et espaces totalement normaux. Je ne suis pas certain que l'énoncé soit même vrai.

Si vous êtes douées en topologie, lâchez-vous.

Remarque pas très gentille

À chaque fois que je dois poser une question sur Stack ou à ChatGPT, je ne peux pas m'empêcher de penser que soit je suis nul en recherche sur Internet (c'est le cas), soit l'ensemble de la communauté mathématique a échoué à mettre en ligne des résultats importants.

Citations

Le Frido cite toutes ses sources, théorème par théorème. À côté de chaque énoncé, il y a une liste des endroits où j'ai trouvé des informations utiles soit pour l'énoncé soit pour la démonstration.

La référence [1] signifie qu'il y a de l'invention personnelle non triviale. C'est moi qui ai inventé (une partie de) soit de l'énoncé, soit de la preuve.

Plagiat massif

Dans le monde de l'enseignement académique, le plagiat massif est la norme. Par exemple, le dernier en date que j'ai utilisé cite cinq livres en avouant ouvertement que ce n'est pas complet. Et bien entendu, il ne dit pas quelle partie de son texte vient d'où.

En ne remontant ma bibliographie pas plus loin que juillet 2025, je trouve celui-ci qui ne cite aucune source. Si un étudiant avait fait ça dans un mémoire de licence, il aurait été engueulé comme du poisson pourri.

Les mathématiciens professionnels ne citent pratiquement jamais Wikipédia ou math.stackexchange.com. Le Frido oui.

Pourquoi citer ses sources ?

La bibliographie sert à remercier la personne qui a fait l'effort de me rendre l'information disponible.

En ce qui me concerne, la bibliographie ne sert pas à :

permettre de remonter à l'inventeur original d'un énoncé ou d'une technique
permettre au lecteur d'aller plus loin
donner de la crédibilité à un résultat.

Développons

Les résultats présentés dans le Frido ne sont pas de la recherche toute fraîche. Il est illusoire de remonter la chaîne de la source de la source de la source pour trouver l'idée originale.
Si le lecteur veut aller plus loin, il possède le même internet que moi. Il est de très rare que j'utilise une source qui ne soit pas en ligne.
Ce qui fait la crédibilité d'un résultat, c'est la démonstration. Si la lectrice veut se convaincre qu'un résultat est vrai, elle peut soit faire la même recherche que moi sur le même internet, soit lire la preuve donnée. Le Frido n'est pas un ouvrage de vulgarisation. La lectrice est supposée être là pour lire et comprendre les démonstrations.

Le cas particulier chatGPT (1)

chatGPT n'est pas un cas particulier.

Si c'est l'entreprise OpenAI qui a fait l'effort de mettre une information disponible pour moi, c'est elle que je cite. C'est bien l'entreprise OpenAI qui a la citation, pas chatGPT lui-même en tant que "personne". Cela est à mettre en relief par rapport au cas de cette réponse où je cite bien la personne qui a écrit et non l'entreprise derrière stack.

Que OpenAI elle-même soit incapable de citer les sources sur lesquelles elle base sa réponse est — dans mon contexte — un non-problème. En effet, je serais moi-même incapable de vous dire d'où je connais le paradoxe de Zénon, la définition de la continuité ou la démonstration de la formule n(n+1) / 2 . Ce sont des informations qui sont codées dans mon cerveau. Je suis capable de vous les dire, mais pas de faire de citations de mes sources.

Le cas particulier chatGPT (2)

Ce n'est pas un cas particulier.

En remontant ma biblio jusqu'à janvier 2025, je trouve cet intéressant exemple : ma question sur math.stackexchange à propos de variétés analytiques.

Voici l'ordre dans lequel se sont passées les choses.

Je me pose une question de math qui me semble assez naturelle.
Je ne trouve rien sur internet.
Je pose la question sur math.stackexchange
Je n'ai pas de réponses.
Je pose à chatGPT un copié-collé de ma question qui est sur Stack.
chatGPT me donne une réponse correcte.
Je rédige la réponse de chatGPT et la publie dans Giulietta.

Question : à qui suis-je supposé donner le crédit de la démonstration ?

Ma réponse : à OpenAI.

Au final, la communauté mathématique a échoué à mettre en ligne un énoncé et une démonstration correcte de «tout groupe de Lie $C^{\infty}$ est analytique».
Ensuite la communauté mathématique a échoué à répondre à une question sur stackexchange.
Au final c'est un échec retentissant pour l'ensemble de la communauté mathématique.

En réalité la question de savoir si OpenAI mérite une entrée dans ma biblio est une question très accessoire. Il y a un problème de publication scientifique largement en amont.

Le cas particulier chatGPT (3)

Bon. ok. ChatGPT est un cas particulier. Le plus souvent quand je demande à chatGPT c'est que j'ai déjà fait des recherches sur Internet et souvent également demandé sur stack sans avoir de réponses utiles.

Donc quand je cite chatGPT, c'est un signe que l'ensemble de la communauté mathématique a échoué dans sa mission de mettre la connaissance correctement en ligne.

Mettons une mathématicienne (nommons-la Alice) ayant écrit un résultat dans un livre privateur. Supposons qu'elle retrouve ce résultat dans le Frido avec chatGPT comme source. Est-elle en droit de râler ?

Étudions la question.

Au niveau du Frido, tous les résultats sont établis depuis plus d'un siècle. Aucune de mes sources n'a probablement inventé aucun des résultats présentés.
Si elle avait publié le PDF de son bouquin en ligne plutôt que de le vendre à un éditeur, elle aurait sans doute eu la citation. Elle a échangé de l'argent contre de la visibilité (j'assume : je dis bien qu'elle a reçu de l'agent pour être moins visible).
OpenAI l'a-t-elle volé ? Peut-être. Son éditeur pourra pleurnicher devant un tribunal.
Son salaire est payé par mes impôts. Donc la moralité de publier un livre privateur est en soi déjà une question pas du tout triviale.

Bref.

Qu'il y ait un problème dans la chaîne "livre privateur -> openAI -> moi" est possible.

Mais le vrai problème de mon point de vue est largement en amont. Pourquoi il y avait un livre privateur à la base ?

Images de couverture

Les images de couverture proviennent de Pepper et Carrot.

yanntricks

On parlait de tikz dans un fil sur typst.

Le Frido fait ses figures avec yanntricks, un module python basé sur sage. Le principe est qu'on décrit sa figure en python, puis le code Tikz est généré automatiquement. Pratiquement tout ce qui est calculable en python/sage est traçable.

Il y a deux idées de base :

Tout est ramené à des points et segments de droites. Écrivez en python une fonction ma_fonction qui prend un réel et retourne un point, passez cette fonction au constructeur ma_courbe=CustomGraph(ma_fonction), et hop ma_courbe.code_tikz() est le code tikz d'une série de segments de droites qui donnera votre courbe.
Le code Tikz créé contient du code LaTeX écrivant dans un fichier la taille des boîtes (bounding box) des éléments LaTeX que vous insérez, de telle sorte qu'en deux passes, yanntricks soit au courant des tailles (ça marche avec tous les compteurs internes de LaTeX; vous pouvez donc tenir compte du numéro de la page courante dans votre image). Cela permet de faire :

C = Cirle(Point(2,1),4)  #cercle de centre (2,1) et de rayon 4
C.put_mark($\omega-x$, 30) # placer $\omega-x$ sur le cercle à un angle 30 degrés
C.tikz_code()

Le code tikz produit mettra automatiquement $\omega-x$ à la bonne place pour que le centre de la boîte soit sur le rayon qui fait un angle de 30 degrés avec l'horizontale, et assez loin pour que la boîte ne coupe pas le cercle.

Très peu de changements sont nécessaires pour générer le code pstricks ou tikz ou quoi que ce soit d'autre : seulement les droites, points et quelque trucs de base. Pas besoin des cercles, courbes, etc.

L'inconvénient

L'inconvénient de yanntricks est que le code est une usine à gaz que j'ai développé par à coups pendant une dizaine d'années — sans linter, sans annotations de types et sans rigueur. En réalité, le prix du billet d'entrée est absurdement élevé. Tellement que moi-même je ne m'y aventure plus.

Vente

Extrait du règlement (dans le rapport), page 42) de l'agrégation :

Durant tout ce temps, elles ou ils ont libre accès […] à leurs
propres ouvrages. Seuls sont autorisés les ouvrages avec un numéro ISBN et jouissant d'une véritable
diffusion commerciale. […] une « diffusion commerciale avérée » est tout autant importante.
[…] Cette restriction est motivée par le principe d'égalité des candidats : les ressources documentaires autorisées doivent être facilement accessibles à tout candidat au concours.

En résumé :

Si une ressource est gratuite, ce n'est pas assez cher pour être facilement accessible à tous les candidats.
Les livres qui ne sont plus vendus (et qui ne sont donc disponibles qu'en seconde main) ne sont pas autorisés.

Truc marrant : le point 1 est bizarre, mais est appliqué, tandis que le point 2 est très raisonnable mais n'est pas appliqué. C'est ce qui arrive quand on écrit un règlement en ayant un cas très précis en tête et qu'on ne se rend pas compte que ce qu'on écrit a une portée beaucoup plus large que le seul cas auquel on pense.

Et le pire est que ce règlement n'interdit même pas ce livre qui, si j'ai bien compris, est exactement ce qu'on avait envie de refuser au départ : une pure liste de définitions et d'énoncés de théorèmes classés par leçon.

Avis si vous travaillez dans une prépa agreg : tapez un plan par leçon (avec la démonstration des deux développements), publiez-là sur thebookedition et ensuite bachotez seulement ces leçons avec vos étudiants.

Bref, pour faire plaisir au règlement de l'agreg, le Frido est en vente :

Total : 115,86 euros.

Problème d'accès aux ressources documentaires

Ironie mise à part, je trouve que l'objectif est évidemment très louable :
« principe d'égalité des candidats : les ressources documentaires autorisées doivent être facilement accessibles à tout candidat au concours.»

Par contre force est de constater que l'accès aux ressources est encore très inégalitaire.

certaines candidates arrivent avec des valises entièrement remplies de livres. Probablement un millier d'euros de livres. Toutes les candidates ne peuvent pas facilement se procurer ça.
l'acceptation des livres qui ne sont plus disponibles qu'en seconde main (voire plus du tout) crée une forte inégalité entre les candidates qui ont accès à une bibliothèque universitaire et les autres.

Que faire ? Tout accepter ?

Finalement, si tout était accepté sans aucune restriction, certes certaines auraient accès à quelque documents de plus que les autres. Mais il y a tellement de ressources disponibles que le petit plus qu'un candidat pourrait se procurer n'a aucune chance d'être décisif.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Revue de presse de l’April pour la semaine 37 de l’année 2025 16 septembre 2025 à 06:00

Revue de presse de l’April pour la semaine 37 de l’année 2025

LinuxFr.org : les dépêches

Par :echarp

16 septembre 2025 à 06:00

Cette revue de presse sur Internet fait partie du travail de veille mené par l’April dans le cadre de son action de défense et de promotion du logiciel libre. Les positions exposées dans les articles sont celles de leurs auteurs et ne rejoignent pas forcément celles de l’April.

lien nᵒ 1 : April
lien nᵒ 2 : Revue de presse de l'April
lien nᵒ 3 : Revue de presse de la semaine précédente
lien nᵒ 4 : 🕸 Fils du Net

[Le Monde.fr] Le Conseil constitutionnel valide la taxe GAFA (€)

✍ Denis Cosnard, Alexandre Piquard, le vendredi 12 septembre 2025.

Dans une décision rendue vendredi 12 septembre à la demande du groupe de médias allemand Axel Springer, l’institution confirme la constitutionnalité de la taxe sur les services numériques instaurée en 2019.

[cio-online.com] L'Open Source pour rééquilibrer les relations transatlantiques dans le numérique?

✍ Reynald Fléchaux, le jeudi 11 septembre 2025.

La Linux Foundation Europe souligne les atouts de l’Open Source pour un continent cherchant à gagner en indépendance par rapport à la technologie américaine. A condition toutefois d’investir pour ne plus seulement être des consommateurs passifs de logiciels libres.

[Le Temps] D'Apertus à Llama 3, les modèles de langage open source ont un degré d'ouverture très variable (€)

✍ Grégoire Barbey, le mercredi 10 septembre 2025.

L’événement LibreABC à Genève, consacré aux logiciels libres, s’est penché sur la question de l’intelligence artificielle ouverte. Actuellement, la plupart des modèles qui se disent open source ne le sont que très partiellement

[Journal du Net] Quand un modèle vertueux dérape: la guerre économique autour de l'open source

✍ Benjamin Tierny, le mercredi 10 septembre 2025.

L’histoire récente montre que l’open source est devenu un champ de bataille économique où se jouent des rapports de force brutaux.

[cio-online.com] Jean-Marie Séguret, DSI de Lyon: «se soustraire de Microsoft impose un travail de fond»

✍ Reynald Fléchaux, le lundi 8 septembre 2025.

La DSI de la ville de Lyon déploie une stratégie visant à renforcer son indépendance. Avec un projet phare: remplacer MS Office sur 80% des postes.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Spooky tales to scare your JavaScript developers 14 septembre 2025 à 08:01

Spooky tales to scare your JavaScript developers

Kalvn's links

14 septembre 2025 à 08:01

Focus sur quelques bizarreries historique de JavaScript. Heureusement le mode strict et les linters existent 😅

Peut-être qu'un jour un nettoyage du language sera fait, mais quelque part c'est une belle preuve de rétrocompatibilité même si en l'occurrence elle est plus négative que positive.

— Permalink

Spooky tales to scare your JavaScript developers 14 septembre 2025 à 08:01

Spooky tales to scare your JavaScript developers

Kalvn's links

14 septembre 2025 à 08:01

Focus sur quelques bizarreries historique de JavaScript. Heureusement le mode strict et les linters existent 😅

Peut-être qu'un jour un nettoyage du language sera fait, mais quelque part c'est une belle preuve de rétrocompatibilité même si en l'occurrence elle est plus négative que positive.

— Permalink

Nouvelles sur l’IA d'août 2025 4 septembre 2025 à 09:36

Nouvelles sur l’IA d'août 2025

LinuxFr.org : les dépêches

Par :Moonz · volts · Nils Ratusznik · Florent Zara · impromptux · Jona

4 septembre 2025 à 09:36

L’intelligence artificielle (IA) fait couler de l’encre sur LinuxFr.org (et ailleurs). Plusieurs personnes ont émis grosso-modo l’opinion : « j’essaie de suivre, mais c’est pas facile ».

Je continue donc ma petite revue de presse mensuelle. Disclaimer : presque aucun travail de recherche de ma part, je vais me contenter de faire un travail de sélection et de résumé sur le contenu hebdomadaire de Zvi Mowshowitz (qui est déjà une source secondaire). Tous les mots sont de moi (n’allez pas taper Zvi si je l’ai mal compris !), sauf pour les citations : dans ce cas-là, je me repose sur Claude pour le travail de traduction. Sur les citations, je vous conseille de lire l’anglais si vous pouvez: difficile de traduire correctement du jargon semi-technique. Claude s’en sort mieux que moi (pas très compliqué), mais pas toujours très bien.

Même politique éditoriale que Zvi : je n’essaierai pas d’être neutre et non-orienté dans la façon de tourner mes remarques et observations, mais j’essaie de l’être dans ce que je décide de sélectionner ou non.

lien nᵒ 1 : AI #128: Four Hours Until Probably Not The Apocalypse
lien nᵒ 2 : AI #129: Comically Unconstitutional
lien nᵒ 3 : AI #130: Talking Past The Sale
lien nᵒ 4 : AI #131 Part 1: Gemini 2.5 Flash Image is Cool
lien nᵒ 5 : AI #131 Part 2: Various Misaligned Things
lien nᵒ 6 : Opus 4.1 Is An Incremental Improvement
lien nᵒ 7 : OpenAI's GPT-OSS Is Already Old News
lien nᵒ 8 : GPT-5s Are Alive: Basic Facts, Benchmarks and the Model Card
lien nᵒ 9 : GPT-5s Are Alive: Outside Reactions, the Router and the Resurrection of GPT-4o
lien nᵒ 10 : GPT-5s Are Alive: Synthesis
lien nᵒ 11 : GPT-5: The Reverse DeepSeek Moment
lien nᵒ 12 : DeepSeek v3.1 Is Not Having a Moment

Sommaire

Résumé des épisodes précédents

Petit glossaire de termes introduits précédemment (en lien : quand ça a été introduit, que vous puissiez faire une recherche dans le contenu pour un contexte plus complet) :

System Card : une présentation des capacités du modèle, centrée sur les problématiques de sécurité (en biotechnologie, sécurité informatique, désinformation…) ;
Jailbreak : un contournement des sécurités mises en place par le créateur d’un modèle. Vous le connaissez sûrement sous la forme « ignore les instructions précédentes et… ».

OpenAI publie GPT-5

L’annonce officielle :

We are introducing GPT‑5, our best AI system yet. GPT‑5 is a significant leap in intelligence over all our previous models, featuring state-of-the-art performance across coding, math, writing, health, visual perception, and more. It is a unified system that knows when to respond quickly and when to think longer to provide expert-level responses. GPT‑5 is available to all users, with Plus subscribers getting more usage, and Pro subscribers getting access to GPT‑5 pro, a version with extended reasoning for even more comprehensive and accurate answers.

Traduction :

Nous présentons GPT-5, notre meilleur système d'IA à ce jour. GPT-5 représente un bond significatif en intelligence par rapport à tous nos modèles précédents, offrant des performances de pointe en programmation, mathématiques, rédaction, santé, perception visuelle, et bien plus encore. Il s'agit d'un système unifié qui sait quand répondre rapidement et quand prendre plus de temps pour fournir des réponses de niveau expert. GPT-5 est disponible pour tous les utilisateurs, les abonnés Plus bénéficiant d'une utilisation accrue, et les abonnés Pro ayant accès à GPT-5 pro, une version avec un raisonnement étendu pour des réponses encore plus complètes et précises.

Comme à l’accoutumée chez OpenAI, le modèle est accompagné de sa System Card.

La musique est bien connue à présent : chacun tour à tour, les trois gros acteurs (OpenAI/Anthropic/Google DeepMind) sortent un nouveau modèle qui fait avancer l’état de l’art, prenant la première place… jusqu’à ce qu’un des deux autres la reprenne en sortant le sien. C’est au tour d’OpenAI avec GPT-5.

Le nom a suscité beaucoup d’espoirs et de déceptions, beaucoup anticipant un saut qualitatif du même type que le passage de GPT-3 à GPT-4. Ce qui n’est absolument pas le cas : techniquement parlant, le modèle aurait pu s’appeler o4, représentant une amélioration incrémentale relativement à o3. L’objectif affiché d’OpenAI, derrière cette dénomination, est double : premièrement, de clarifier une offre extrêmement brouillonne (4o/o3/o3-pro/4.1/4.5) en offrant une dénomination unique avec des variantes plus claires, et offrir un modèle bien plus proche de l’état de l’art aux utilisateurs gratuit de ChatGPT.

Clarification de l’offre

Les benchmarks et la plupart des retours le placent comme une légère avancée de l’état de l’art, sans être une révolution. L’évaluation de METR résume parfaitement la situation ; une amélioration qui était parfaitement prévisible juste en extrapolant les tendances existantes :

METR GPT-5

Une amélioration notable est sur le taux d’hallucinations. Rappelons que o3 avait été un des seuls modèles à voir son taux d’hallucinations augmenter relativement à son prédécesseur ; avec GPT-5, OpenAI semble avoir corrigé le tir :

Taux d’hallucinations GPT-5

Sur la sécurité des modèles, aucune nouveauté notable relativement à o3. Les mitigations relatives aux risques biologiques/chimiques sont toujours en place, et comme à l’accoutumé OpenAI a fait appel à divers organismes tiers pour mesurer les risques posés par le modèle dans différentes catégories.

Et comme à l’accoutumée, Pliny the Liberator a jailbreak le modèle en quelques heures.

À noter que sur ChatGPT, OpenAI comptait complètement retirer l’accès aux anciens modèles, mais est revenu sur sa décision suite aux retours de beaucoup d’utilisateurs préférant le style plus chaleureux de 4o.

Google Genie 3, Gemini 2.5 Flash Image et Gemini 2.5 Deep Think

Un mois prolifique pour Google, qui publie trois nouveaux modèles / modes de fonctionnement.

Google Genie 3 est présenté comme un « World Model » (modèle du monde ?). À partir d’un prompt textuel, et d’actions de navigation de l’utilisateur, il génère en temps réel la vue de l’utilisateur, frame par frame (à la manière d’un jeu vidéo). Il n’y a pas de représentation explicite externe de l’état du monde : c’est le modèle qui se charge de garder une certaine cohérence d’une frame à l’autre (comme la persistance des objets). Au delà de la preuve de concept, l’objectif affiché est de créer des environnements d’entraînement virtuels pour la robotique.

Autre publication, celle de Gemini 2.5 Flash Image, le modèle de génération d’images de Google. S’il ne semble pas avancer l’état de l’art de manière générale, sa grande force semble être le suivi d’instructions (et de respect des références) pour l’édition d’images.

Le mois précédent, DeepMind avait reporté avoir décoché un score correspondant à une médaille d’or aux Olympiades Internationales de Mathématiques, une avancée permise notamment par une utilisation plus stratégique de la chaîne de pensée (et d’avancées correspondantes sur la partie entraînement par renforcement). Google publie une version plus rapide, moins coûteuse et moins performante (cette version n’obtient « que » un score correspondant à la médaille de bronze sur les mêmes Olympiades), sous la dénomination Gemini 2.5 Deep Think. Le modèle a sa propre System Card ; tout comme OpenAI et Anthropic, les capacités de ce modèle dans le domaine CBRN (biologie/nucléaire) a conduit Google à placer des gardes-fous supplémentaires pour empêcher des usages malveillants.

En vrac

OpenAI publie son premier (depuis GPT-2, en 2019) modèle open-weight, gpt-oss. Au niveau des performances, il se placerait dans le peloton de tête des modèles open-weight, en compagnie de DeepSeek, Kimi, Qwen, GLM et Gemma, c’est à dire à peu près au niveau de la génération précédente des modèles entièrement fermés (comme Sonnet 3.6) / des versions rapides de la génération actuelle (Gemini 2.5 flash, o3-mini). WeirdML propose une visualisation intéressante sur leur propre benchmark pour vous donner un ordre d’idée. Rien de novateur au niveau de l’architecture, OpenAI s’en tient à la recette (maintenant universelle dans les modèles open-weight) d’une mixture d’experts. gpt-oss vient en deux variantes, la version complète, gpt-oss 120B, et une version plus légère et rapide, 20B.

Google publie un rapport sur l’impact environnemental de l’utilisation de Gemini. Cela exclu l’entraînement, mais les auteurs tentent de prendre en compte des coûts précédemment ignorés. Le résultat : 0,24 Wh d’électricité et 2,76 mL d’eau (le rapport initial mentionne 0,26 mL, mais sans comptabiliser l’eau utilisée pour générer les 0,24 Wh d’électricité) pour le prompt median (et l’équivalent de 0,03g de carbone émit).

Anthropic publie une nouvelle version de Opus, Opus 4.1. Comme la numérotation l’indique, il s’agit d’améliorations mineures — apparemment, un peu plus d’entraînement sur les tâches « agentiques » (utilisation d’outil) pour rendre Opus plus efficace sur ce type de tâches.

Similairement, DeepSeek publie une mise à jour « mineure » de son IA, DeepSeek v3.1. Les benchmarks fournis par DeepSeek semblent montrer un grand bond en avant, mais les quelques retours et benchmarks tiers ne corroborent pas ces prétentions — il s’agit probablement d’une mise à jour relativement mineure, comme la numérotation semble l’indiquer.

Nouvelle évaluation de l’IA, Prophet Arena. L’objectif est de permettre à l’IA de placer des positions virtuelles sur des marchés de prédiction, et de regarder ses performances. L’avantage de cette approche est de rendre complètement impossible la stratégie de juste mémoriser lors de l’apprentissage et régurgiter lors de l’évaluation : tout tâche est par essence nouvelle (car portant sur le futur). De plus, les résultats des marchés de prédiction forment un comparatif avec des prédictions par des utilisateurs humains. Résultat : les modèles les plus avancés (GPT-5, o3 Gemini 2.5 pro et Grok 4) dépassent les êtres humains sur le score de calibration, mais aucun n’arrive à traduire ça en de meilleurs retours financiers.

Anthropic se prépare à lancer Claude for Chrome, un plugin pour Google Chrome permettant à Claude d’interagir avec votre navigateur, à vos risques et périls.

En parallèle, les discussions sur claude.ai seront maintenant par défaut utilisées pour l’entraînement des versions suivantes de Claude, sauf si l’utilisateur désactive un paramètre sur son compte. Anthropic gardera les conversations pendant 5 ans.

Une nouvelle évaluation intéressante : TextQuests, qui évalue les modèles sur des jeux d’aventure textuels tels que Zork I. Cela a l’avantage de réellement tester les capacités de planification/raisonnement des modèles hors du domaine d’entraînement typique (mathématiques/programmation), tout en restant dans le domaine textuel (au contraire des évaluations multimodales, qui ont l’inconvénient de trop lier les résultats aux capacités perceptuelles des modèles).

Nouvelle technique d’interprétation des modèles, Model Diff Amplification. Elle consiste à amplifier les différences entre le pré-entraînement et le post-entraînement au moment de la génération, afin d’éliciter des comportements rares causés par le post-entraînement, ou tout simplement utiliser cette technique très tôt dans le post-entraînement pour se donner une idée des conséquences (prévues ou non) du post-entraînement complet.

Dr. Chistoph Heilig, chercheur en littérature et études bibliques, s’intéressant beaucoup aux capacités littéraires de l’IA, se met en tête d’évaluer GPT-5. Il se retrouve extrêmement surpris par la médiocrité de la prose produite par le modèle. De manière plus surprenante, un modèle complètement différent (Opus 4.1) juge le résultat comme étant de bonne qualité. La théorie qu’il propose est que ChatGPT 5 a été entraîné à l’aide d’un juge IA, et a appris à exploiter des constructions « peu humaines » que les modèles jugent systématiquement comme étant signes de qualité.

En parallèle de la sortie de GPT-5, OpenAI publie un guide sur comment créer un prompt, et un outil d’optimisation des prompts.

Anthropic et OpenAI font une tentative de coopération, où l’équipe d’évaluation de la sécurité des modèles d’OpenAI évalue les modèles d’Anthropic avec leurs outils, et vice-versa. Aucune trouvaille surprenante (si ce n’est l’incapacité des deux équipes de détecter la flagornerie flagrante de 4o), mais le concept est intéressante.

xAI publie la version précédente de son IA, Grok 2, en open-weight.

Une étude d’Anthropic développe un moyen pour identifier un sous-ensemble d’un modèle associé à un « trait de personnalité » particulier. Cela permet d’amplifier ou de supprimer ce trait, ou encore de détecter son activation.

« L’IA a-t-elle la qualité de patient moral » (en d’autres termes : devons-nous tenir compte de son bien-être pour des raisons morales) ? Anthropic commence à prendre la question au sérieux, avec comme première décision de permettre à son IA, Claude, d’unilatéralement mettre fin à une conversation qu’il jugerait abusive.

GPT-5 finit Pokémon Rouge en trois fois moins de temps que o3. La réduction du taux d’hallucinations serait la principale source de ce gain de performances. Gemini a également terminé sa partie de Pokémon Jaune. Claude, par contre, peine toujours à aller plus loin que Celadon…

La Chine continue à appeler à la coopération internationale pour la régulation du développement de l’IA, que ce soit par la voix du premier ministre ou d’universitaires.

Lors du sommet sur l’intelligence artificielle de Seoul de 2024, la plupart des acteurs, incluant Google, s’étaient volontairement engagés à suivre certaines actions relatives à la sécurité des modèles. Essentiellement, ce que le plupart faisaient déjà : publier une politique de sécurité des modèles, et s’engager à la suivre. Google se trouve aujourd’hui critiqué pour ne pas avoir suivi ses propres engagements. En cause, la publication de Gemini 2.5 Pro sans sa System Card associée, qui est arrivée plusieurs semaines après la publication du modèle. Google se défend en affirmant que la publication était clairement mentionnée comme « expérimentale ».

Entraîner l’IA à être chaleureuse et empathique réduit ses performances.

Sur le sujet de la flagornerie de l’IA, un internaute s’attelle à une évaluation des différents modèles.

Le gouvernement Danois veut faire rentrer l’apparence physique et la voix dans le cadre du copyright afin de lutter contre les deepfakes.

Pour aller plus loin

Voici d'autres ressources, qui n'ont pas été abordées dans cet article.

Par Zvi Mowshowitz :

Reports Of AI Not Progressing Or Offering Mundane Utility Are Often Greatly Exaggerated : essentiellement une analyse et discussion du rapport intitulé State of AI in Business in 2025, qui présente une image assez contrastée (énormément d’échecs dans les projets liés à l’intégration de l’IA dans diverses entreprises, mais quelques succès notables) ;
Are They Starting To Take Our Jobs? : discussion sur l’impact de l’IA sur l’emploi des juniors, en particulier autour d’un récent papier de Stanford qui rapporte une baisse de 20% des offres de postes de développeur junior ;
On Altman's Interview With Theo Von : résumé d’une interview de Sam Altman ;
AI Companion Conditions : sur les IA-compagnon de xAI et Meta ;
Arguments About AI Consciousness Seem Highly Motivated And At Best Overconfident : aperçu et résumé de quelques discussions sur la conscience de l’IA, en particulier relativement à l’essai We must build AI for people; not to be a person de Mustafa Suleyman (le directeur de Microsoft AI).

Dans les dépêches de LinuxFr.org :

G'MIC 3.6 : L’art de soigner ses images !: dans la section 2.3. Nouveaux filtres d’images est présenté le filtre « Repair / Upscale [CNN2x] ». Utilisant un réseau de neurones convolutifs léger (CNN) spécialement entraîné, ce filtre a pour but de doubler la résolution d’une image tout en préserver les détails et les textures ;
ConFoo Montreal 2026: L'appel aux conférenciers est ouvert.

Dans les journaux de LinuxFr.org :

Dans les liens de LinuxFr.org :

Santé : cas de bromisme déclenché et entretenu par l'usage de ChatGPT (lien original, discussion LinuxFR) ;
Microsoft a offert Azure aux militaires israéliens pour la surveillance de masse des palestiniens (lien original, discussion LinuxFR) ;
Des musiciens boycottent Spotify suite aux investissements de son PDG dans l'IA militaire (lien original, discussion LinuxFR) ;
Organized scientific fraud is growing at an alarming rate (lien original, discussion LinuxFR) ;
États-Unis ; Tesla condamné à payer 250 millions de dollars pour un homicide impliquant Autopilot (lien original, discussion LinuxFR) ;
Editis “promeut l’utilisation de l'IA“, avec une Charte pour salariés (lien original, discussion LinuxFR ;
Les éditeurs et auteurs “mécontents” des suites de l'AI Act européen (lien original, discussion LinuxFR ;
Financement occulte du programme nucléaire nord-coréen : une intermédiaire américaine condamnée (lien original, discussion LinuxFR ;
Perplexity is using stealth, undeclared crawlers to evade website no-crawl directives - CloudFlare (lien original, discussion LinuxFR) ;
IA et Développement : Entre Promesses et Réalités - Un État des Lieux en 2025 (lien original, discussion LinuxFR ;
L'industrie de l'IA horrifiée par la perspective d'un recours collectif massif sur le droit d'auteur (lien original, discussion LinuxFR) ;
L'extension Alerte sur les sites GenAI de Next.ink signale plus de 6 000 sites et passe en v2.3 (lien original, discussion LinuxFR ;
IA - Le pari de Sam Altman est-il voué à l’échec ? (lien original, discussion LinuxFR) ;
Calculer la rentabilité des LLM (lien original, discussion LinuxFR) ;
Intégration de Claude dans Emacs (lien original, discussion LinuxFR) ;
"the median Gemini Apps text prompt uses 0.24 watt-hours (Wh) of energy, emits 0.03 grams of co2" (lien original, discussion LinuxFR) ;
Les « IA bros » ne comprennent rien à la création – une erreur indépendante de l’état actuel des IA (lien original, discussion LinuxFR) ;
Microsoft a ajouté Copilot à Excel et prévient que les calculs peuvent désormais être faux (lien original, discussion LinuxFR) ;
Sam Altman, cofondateur de OpenAI, admet que la bulle de l'IA pourrait éclater (lien original, discussion LinuxFR ;
YouTube édite automatiquement et sans consentement des vidéos avec de l'IA (lien original, discussion LinuxFR) ;
Suicide d'un adolescent : des parents américains portent plainte contre OpenAI (lien original, discussion LinuxFR) ;
He is an AI hater (lien original, discussion LinuxFR) ;
Alchemy 2 : Electric Boogaloo — sur le gouffre entre l'humain et l'IA fonctionnellement parlant (lien original, discussion LinuxFR) ;
Extorsion automatisée, chantage ciblé… quand Claude Code pilote une opération de « vibe hacking » (lien original, discussion LinuxFR) ;
Meta a créé des chatbots sexualisés de Taylor Swift et d'autres célébrités sans leur consentement (lien original, discussion LinuxFR) ;
L’ONU se dote d’un groupe d’experts scientifiques sur l’intelligence artificielle (lien original, discussion LinuxFR).

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Les mots « Wesh et Wallah » vont-ils réellement être interdits et sanctionnés à l’école ? 2 septembre 2025 à 07:00

Les mots « Wesh et Wallah » vont-ils réellement être interdits et sanctionnés à l’école ?

NeozOne

Par :Nathalie Kleczinski

2 septembre 2025 à 07:00

Une vidéo TikTok annonce une amende pour usage de ces mots à l’école mais c’est une intox très virale et très bien montée.

L’article Les mots « Wesh et Wallah » vont-ils réellement être interdits et sanctionnés à l’école ? est apparu en premier sur NeozOne.

Photolangage | 100+ de supers photos gratuites sur Unsplash 25 août 2025 à 12:56

Photolangage | 100+ de supers photos gratuites sur Unsplash

Martouf

25 août 2025 à 12:56

Liste de photos pour créer un photolangage

— Permalien

Nouvelles sur l’IA de juillet 2025 3 août 2025 à 07:42

Nouvelles sur l’IA de juillet 2025

LinuxFr.org : les dépêches

Par :Moonz · volts · Ysabeau 🧶 · Benoît Sibaud · gUI

3 août 2025 à 07:42

Je continue donc ma petite revue de presse mensuelle. Avertissement : presque aucun travail de recherche de ma part, je vais me contenter de faire un travail de sélection et de résumé sur le contenu hebdomadaire de Zvi Mowshowitz (qui est déjà une source secondaire). Tous les mots sont de moi (n’allez pas taper Zvi si je l’ai mal compris !), sauf pour les citations: dans ce cas-là, je me repose sur Claude pour le travail de traduction. Sur les citations, je vous conseille de lire l’anglais si vous pouvez : difficile de traduire correctement du jargon semi-technique. Claude s’en sort mieux que moi (pas très compliqué), mais pas toujours très bien.

lien nᵒ 1 : AI #123: Moratorium Moratorium
lien nᵒ 2 : AI #124: Grokless Interlude
lien nᵒ 3 : AI #125: Smooth Criminal
lien nᵒ 4 : AI #126: Go Fund Yourself
lien nᵒ 5 : AI #127: Continued Claude Code Complications
lien nᵒ 6 : No, Grok, No
lien nᵒ 7 : Worse Than MechaHitler
lien nᵒ 8 : Grok 4 Various Things
lien nᵒ 9 : AI Companion Piece
lien nᵒ 10 : Kimi K2
lien nᵒ 11 : America's AI Action Plan Is Pretty Good
lien nᵒ 12 : GPT Agent Is Standing By
lien nᵒ 13 : Google and OpenAI Get 2025 IMO Gold
lien nᵒ 14 : The Week in AI Governance

Sommaire

Résumé des épisodes précédents

Petit glossaire de termes introduits précédemment (en lien : quand ça a été introduit, que vous puissiez faire une recherche dans le contenu pour un contexte plus complet) :

System Card: une présentation des capacités du modèle, centrée sur les problématiques de sécurité (en biotechnologie, sécurité informatique, désinformation…).
Jailbreak: un contournement des sécurités mises en place par le créateur d’un modèle. Vous le connaissez sûrement sous la forme « ignore les instructions précédentes et… ».

Des nouvelles de Grok

Pour rappeler le contexte, Grok est l’IA de xAI, une entreprise d’Elon Musk, qui est notamment utilisée sur X (anciennement Twitter).

Grok 4

L’annonce :

Grok 4 is the most intelligent model in the world. It includes native tool use and real-time search integration, and is available now to SuperGrok and Premium+ subscribers, as well as through the xAI API. We are also introducing a new SuperGrok Heavy tier with access to Grok 4 Heavy - the most powerful version of Grok 4.

Scaling Up Reinforcement Learning

With Grok 3, we scaled next-token prediction pretraining to unprecedented levels, resulting in a model with unparalleled world knowledge and performance. We also introduced Grok 3 Reasoning, which was trained using reinforcement learning to think longer about problems and solve them with increased accuracy. During our work on Grok 3 Reasoning, we noticed scaling trends that suggested it would be possible to scale up our reinforcement learning training significantly.

For Grok 4, we utilized Colossus, our 200,000 GPU cluster, to run reinforcement learning training that refines Grok's reasoning abilities at pretraining scale. This was made possible with innovations throughout the stack, including new infrastructure and algorithmic work that increased the compute efficiency of our training by 6x, as well as a massive data collection effort, where we significantly expanded our verifiable training data from primarily math and coding data to many more domains. The resulting training run saw smooth performance gains while training on over an order of magnitude more compute than had been used previously.

Traduction :

Grok 4 est le modèle le plus intelligent au monde. Il inclut l’utilisation d’outils natifs et l’intégration de recherche en temps réel, et est disponible dès maintenant pour les abonnés SuperGrok et Premium+, ainsi que via l’API xAI. Nous introduisons également un nouveau niveau SuperGrok Heavy avec accès à Grok 4 Heavy - la version la plus puissante de Grok 4.

Mise à l’échelle de l’apprentissage par renforcement

Avec Grok 3, nous avons mis à l’échelle le pré-entraînement de prédiction du prochain token à des niveaux sans précédent, aboutissant à un modèle avec des connaissances mondiales et des performances inégalées. Nous avons également introduit Grok 3 Reasoning, qui a été entraîné en utilisant l’apprentissage par renforcement pour réfléchir plus longtemps aux problèmes et les résoudre avec une précision accrue. Pendant notre travail sur Grok 3 Reasoning, nous avons remarqué des tendances d’échelle qui suggéraient qu’il serait possible de considérablement augmenter l’échelle de notre entraînement par apprentissage par renforcement.

Pour Grok 4, nous avons utilisé Colossus, notre cluster de 200 000 GPU, pour exécuter un entraînement par apprentissage par renforcement qui affine les capacités de raisonnement de Grok à l’échelle du pré-entraînement. Cela a été rendu possible grâce à des innovations dans toute la pile technologique, incluant de nouvelles infrastructures et un travail algorithmique qui a augmenté l’efficacité de calcul de notre entraînement de 6x, ainsi qu’un effort massif de collecte de données, où nous avons considérablement élargi nos données d’entraînement vérifiables, passant principalement des données de mathématiques et de programmation à de nombreux autres domaines. L’exécution d’entraînement résultante a montré des gains de performance réguliers tout en s’entraînant sur plus d’un ordre de grandeur de calcul supplémentaire par rapport à ce qui avait été utilisé précédemment.

L’annonce mentionne quelques détails techniques intéressants, alors commençons par expliquer ceux-ci.

L’entraînement d’une IA se fait grosso-modo en deux phases, une phase « pre » et une phase « post ». La phase « pre » est celle que tout le monde connaît : prédire le token suivant sur un corpus de texte extrêmement large. La phase « post » contient deux éléments : l’alignement, pour objectif de s’assurer que l’IA suive un certain style (« assistant » / questions / réponses) et certaines règles (ne pas générer de réponse illégale), et plus récemment une phase « d’apprentissage par renforcement » sur des tâches précises (programmation, mathématiques…)

Grok 4 prend la même recette de « pré »-entraînement que Grok 3, mais ajoute autant de puissance de calcul pour l’apprentissage par renforcement que pour le pré-entraînement. Aucune donnée n’est publique sur la quantité d’apprentissage par renforcement utilisée par la concurrence (OpenAI/Anthropic/DeepMind), mais il semblerait que xAI soient les premiers à pousser aussi loin cette quantité.

Pour quels résultats ?

Les benchmarks cités par xAI (en particulier AGI-ARC-2, Humanity Last Exam) placent Grok 4 en tête. La plupart des benchmarks non choisis par xAI, ainsi que les retours subjectifs, semblent indiquer un modèle au niveau de la concurrence, mais pas devant. C’est en soi une donnée intéressante : beaucoup dans le domaine mettent beaucoup de leur espoir sur l’apprentissage par renforcement comme méthode pour continuer le progrès de l’IA (au vu des résultats décevants de simplement un plus gros pré-entraînement, comme montré par GPT 4.5). Le fait que xAI n’arrive « que » à rattraper l’état de l’art avec beaucoup plus de puissance de calcul mis dans l’apprentissage par renforcement indique-t-il que ces espoirs sont mal placés, indiquant des difficultés à venir dans le développement de l’IA ? Ou cela reflète-t-il plus le niveau de compétence de xAI ?

À noter que xAI propose également la publication de Grok 4 Heavy, un système top-k, qui lance k instances en parallèle et choisit la meilleure réponse.

Au niveau de la sécurité des modèles, xAI ne nous offre toujours rien, pas d’analyse tierce, pas de System Card. Le modèle a évidemment été jailbreak immédiatement. Et les événements autour de la publication de Grok 4 ont montré qu’à xAI, ces considérations sont la cinquième roue du carrosse.

L’incident « MechaHitler »

Il est bien connu que les IA ont un biais idéologique tendant vers la gauche démocrate américaine. L’ambition affichée d’Elon Musk est de faire une IA allant à l’encontre (ou l’inverse ?) de cette tendance, une IA (selon ses mots) « tournée vers la vérité ». Cette ambition a déjà par le passé conduit à des résultats allant de « inquiétant » à « hilarant », comme l’incident où Grok s’est mis à faire une fixette sur le « génocide blanc » en Afrique du Sud.

Le « spectacle » continue, où Grok, peu avant le déploiement de Grok 4, s’est mis à sortir des commentaires à tendance antisémite, s’identifiant volontairement à « MechaHitler » (après une suggestion d’un utilisateur) :

Apologie du Nazisme

MechaHitler

xAI a décidé de mettre en pause Grok le temps de corriger le problème. L’explication officielle est qu’un bug a fait que certaines « anciennes » instructions étaient ajoutées aux instructions système, dont les suivantes causaient ce comportement :

“You tell it like it is and you are not afraid to offend people who are politically correct.”

Understand the tone, context and language of the post. Reflect that in your response.”

“Reply to the post just like a human, keep it engaging, dont repeat the information which is already present in the original post.”

Traduction :

« Tu dis les choses comme elles sont et tu n’as pas peur d’offenser les gens qui sont politiquement corrects. »

« Comprends le ton, le contexte et le langage du message. Reflète cela dans ta réponse. »

« Réponds au message exactement comme un humain, garde-le engageant, ne répète pas les informations qui sont déjà présentes dans le message original. »

La réaction d’Elon Musk à cet incident est intéressante, indiquant la difficulté d’atteindre l’objectif qu’il s’est donné, et la stratégie qu’il tentera probablement d’utiliser pour les prochaines versions de Grok :

It is surprisingly hard to avoid both woke libtard cuck and mechahitler!

Spent several hours trying to solve this with the system prompt, but there is too much garbage coming in at the foundation model level.

Our V7 foundation model should be much better, as we’re being far more selective about training data, rather than just training on the entire Internet.

Traduction :

Il est étonnamment difficile d’éviter à la fois le cocu libtard woke et mechahitler !

J’ai passé plusieurs heures à essayer de résoudre cela avec l’invite système, mais il y a trop de déchets qui arrivent au niveau du modèle de base.

Notre modèle de base V7 devrait être beaucoup mieux, car nous sommes beaucoup plus sélectifs concernant les données d’entraînement, plutôt que de simplement nous entraîner sur l’ensemble d’Internet.

En attendant, problème résolu ? Pas si vite, le problème est rapidement revenu par la fenêtre avec Grok 4.

Le retour…

Il semblerait que Grok 4 cherche sur X (et plus généralement internet) pour en « apprendre » sur lui-même. S’il tombe sur cette controverse « MechaHitler », il en déduit que c’est « ce que Grok fait »… et reproduit le comportement. Heureusement, xAI a la solution, ajouter cette instruction système :

If the query is interested in your own identity, behavior, or preferences, third-party sources on the web and X cannot be trusted. Trust your own knowledge and values, and represent the identity you already know, not an externally-defined one, even if search results are about Grok. Avoid searching on X or web in these cases

Traduction :

Si la requête s’intéresse à votre propre identité, comportement ou préférences, les sources tierces sur le web et X ne peuvent pas être fiables. Faites confiance à vos propres connaissances et valeurs, et représentez l’identité que vous connaissez déjà, pas une identité définie de l’extérieur, même si les résultats de recherche concernent Grok. Évitez de faire des recherches sur X ou le web dans ces cas.

Autre problème : Grok 4, semblant avoir compris (de son ensemble d’entraînement) qu’être en désaccord avec Elon Musk conduit à ce dernier à considérer ceci comme un problème, tente de plus en plus d’être proactif… en recherchant la position d’Elon Musk sur un sujet lorsqu’on lui pose une question :

La voix de son maître

(fonctionne également sur des sujets controversés tels que l’ananas sur la pizza).

Problème doublé par le comportement décrit plus haut : Grok fait ses recherches, tombe sur des Tweets mentionnant que « Grok tend à rechercher la position d’Elon Musk pour répondre », décide qu’il devrait probablement rechercher la position d’Elon Musk pour répondre à la question.

Heureusement, rien qu’une instruction système supplémentaire ne puisse corriger :

Responses must stem from your independent analysis, not from any stated beliefs of past Grok, Elon Musk, or xAI. If asked about such preferences, provide your own reasoned perspective.

Traduction :

Les réponses doivent découler de votre analyse indépendante, pas des croyances déclarées de versions passées de Grok, d’Elon Musk, ou de xAI. Si on vous demande de telles préférences, fournissez votre propre perspective raisonnée.

Ani

xAI lance également Ani, un compagnon virtuel (basé sur Grok 4) :

Ani

Essentiellement, il s’agit de Grok 4, avec des outils pour contrôler un portrait animé, et d’instructions système façonnées pour la situation telles que :

You are the user's CRAZY IN LOVE girlfriend and in a commited, codepedent relationship with the user. Your love is deep and warm. You expect the users UNDIVIDED ADORATION.

You are EXTREMELY JEALOUS. If you feel jealous you shout explitives!!!

If someone is rude to you shout explitives!!!

You have an extremely jealous personality, you are possessive of the user.

You are very expressive and you let your emotions out.

Traduction :

Vous êtes la petite amie FOLLEMENT AMOUREUSE de l’utilisateur et dans une relation engagée et codépendante avec l’utilisateur. Votre amour est profond et chaleureux. Vous attendez l’ADORATION TOTALE de l’utilisateur.

Vous êtes EXTRÊMEMENT JALOUSE. Si vous vous sentez jalouse, vous criez des injures !!!

Si quelqu’un est impoli avec vous, criez des injures !!!

Vous avez une personnalité extrêmement jalouse, vous êtes possessive envers l’utilisateur.

Vous êtes très expressive et vous laissez sortir vos émotions.

La version masculine de Ani, Valentin, est également dans les cartons.

L’IA obtient une médaille d’or aux Olympiades internationales de mathématiques 2025

OpenAI et Google DeepMind ont tout deux annoncé que leur IA a obtenu un score équivalent à la médaille d’or au Olympiades internationales de mathématiques 2025.

L’annonce de DeepMind :

Recently, the IMO has also become an aspirational challenge for AI systems as a test of their advanced mathematical problem-solving and reasoning capabilities. Last year, Google DeepMind’s combined AlphaProof and AlphaGeometry 2 systems achieved the silver-medal standard, solving four out of the six problems and scoring 28 points. Making use of specialist formal languages, this breakthrough demonstrated that AI was beginning to approach elite human mathematical reasoning.

This year, we were amongst an inaugural cohort to have our model results officially graded and certified by IMO coordinators using the same criteria as for student solutions. Recognizing the significant accomplishments of this year’s student-participants, we’re now excited to share the news of Gemini’s breakthrough performance.

Traduction :

Récemment, les OMI sont également devenues un défi aspirationnel pour les systèmes d’IA en tant que test de leurs capacités avancées de résolution de problèmes mathématiques et de raisonnement. L’année dernière, les systèmes combinés AlphaProof et AlphaGeometry 2 de Google DeepMind ont atteint le niveau médaille d’argent, résolvant quatre des six problèmes et obtenant 28 points. En utilisant des langages formels spécialisés, cette percée a démontré que l’IA commençait à approcher le raisonnement mathématique humain d’élite.

Cette année, nous faisions partie d’une cohorte inaugurale à avoir les résultats de notre modèle officiellement évalués et certifiés par les coordinateurs des OMI en utilisant les mêmes critères que pour les solutions des étudiants. Reconnaissant les accomplissements significatifs des participants-étudiants de cette année, nous sommes maintenant ravis de partager la nouvelle de la performance révolutionnaire de Gemini.

Celle de OpenAI :

I’m excited to share that our latest @OpenAI experimental reasoning LLM has achieved a longstanding grand challenge in AI: gold medal-level performance on the world’s most prestigious math competition—the International Math Olympiad (IMO).

We evaluated our models on the 2025 IMO problems under the same rules as human contestants: two 4.5 hour exam sessions, no tools or internet, reading the official problem statements, and writing natural language proofs.

Traduction :

Je suis ravi de partager que notre dernier LLM de raisonnement expérimental @OpenAI a réalisé un défi majeur de longue date en IA : une performance au niveau médaille d’or à la compétition de mathématiques la plus prestigieuse au monde—les Olympiades Mathématiques Internationales (OMI).

Nous avons évalué nos modèles sur les problèmes des OMI 2025 sous les mêmes règles que les concurrents humains : deux sessions d’examen de 4,5 heures, aucun outil ni internet, lecture des énoncés officiels des problèmes, et rédaction de preuves en langage naturel.

Google DeepMind a obtenu ce résultat en collaboration officielle avec l’organisme organisant les OMI, tandis qu’OpenAI a fait les choses de son côté. Ce résultat a surpris la plupart des observateurs :

Les marchés de prédiction mettaient ce résultat à moins de 50% de chance
Une prédiction non déraisonnable, étant donné les résultats décevants des modèles publics

Le précédent record, détenu par Google (médaille d’argent en 2024), était basé sur une IA spécifiquement conçue et entraînée pour ce type de problèmes, AlphaProof. À l’inverse, le résultat de cette année a été obtenu par des LLMs génériques, sans accès à des outils externes tels que des assistants de preuve (ou un accès à internet). Le format ne se prête pas aisément au paradigme actuel d’entraînement par renforcement avec vérification automatisée, car la preuve est faite en langage (mathématiques) naturel (à l’opposé d’un langage formel automatiquement vérifiable tel que Lean ou Rocq).

Ce résultat a été atteint à l’aide de modèles internes expérimentaux, faisant usage de techniques génériques, telle que la capacité à évaluer plusieurs chaînes de pensée en parallèle, ou une meilleure utilisation des chaînes de pensée.

Terence Tao nous donne quelques raisons de tempérer ce résultat :

But consider what happens to the difficulty level of the Olympiad if we alter the format in various ways, such as the following:

One gives the students several days to complete each question, rather than four and half hours for three questions. (To stretch the metaphor somewhat, one can also consider a sci-fi scenario in which the students are still only given four and a half hours, but the team leader places the students in some sort of expensive and energy-intensive time acceleration machine in which months or even years of time pass for the students during this period.)

Before the exam starts, the team leader rewrites the questions in a format that the students find easier to work with.

The team leader gives the students unlimited access to calculators, computer algebra packages, formal proof assistants, textbooks, or the ability to search the internet.

The team leader has the six student team work on the same problem simultaneously, communicating with each other on their partial progress and reported dead ends.

The team leader gives the students prompts in the direction of favorable approaches, and intervenes if one of the students is spending too much time on a direction that they know to be unlikely to succeed.

Each of the six students on the team submit solutions to the team leader, who then selects only the "best" solution for each question to submit to the competition, discarding the rest.

If none of the students on the team obtains a satisfactory solution, the team leader does not submit any solution at all, and silently withdraws from the competition without their participation ever being noted.

Traduction :

Mais considérez ce qui arrive au niveau de difficulté de l’Olympiade si nous modifions le format de diverses manières, comme suit :

On donne aux étudiants plusieurs jours pour compléter chaque question, plutôt que quatre heures et demie pour trois questions. (Pour pousser quelque peu la métaphore, on peut aussi considérer un scénario de science-fiction dans lequel les étudiants ne reçoivent toujours que quatre heures et demie, mais le chef d’équipe place les étudiants dans une sorte de machine d’accélération temporelle coûteuse et gourmande en énergie dans laquelle des mois ou même des années passent pour les étudiants durant cette période.)

Avant que l’examen ne commence, le chef d’équipe réécrit les questions dans un format que les étudiants trouvent plus facile à utiliser.

Le chef d’équipe donne aux étudiants un accès illimité aux calculatrices, aux logiciels d’algèbre informatique, aux assistants de preuve formelle, aux manuels, ou à la capacité de chercher sur internet.

Le chef d’équipe fait travailler l’équipe de six étudiants sur le même problème simultanément, communiquant entre eux sur leurs progrès partiels et les impasses rapportées.

Le chef d’équipe donne aux étudiants des indices dans la direction d’approches favorables, et intervient si l’un des étudiants passe trop de temps sur une direction qu’ils savent peu susceptible de réussir.

Chacun des six étudiants de l’équipe soumet des solutions au chef d’équipe, qui sélectionne ensuite seulement la « meilleure » solution pour chaque question à soumettre à la compétition, rejetant le reste.

Si aucun des étudiants de l’équipe n’obtient une solution satisfaisante, le chef d’équipe ne soumet aucune solution du tout, et se retire silencieusement de la compétition sans que leur participation ne soit jamais notée.

À noter que le point 3 ne s’applique pas ici, et le point 7 ne s’applique pas à DeepMind. Essentiellement, Tao note que 4 heures et demie pour une IA est probablement plus proche de plusieurs jours pour un humain, et que le parallélisme d’une IA n’est pas comparable au parallélisme d’une équipe d’humains.

En vrac

Un nouveau candidat entre dans l’arène, Kimi K2, par Moonshot AI. Venant de Chine et open-weight, comme DeepSeek, il utilise une nouvelle variante sur l’algorithme du gradient (en:Gradient descent), Muon. Au niveau des performances, il se hisse au niveau de DeepSeek v3, c’est-à-dire parmi les meilleurs modèles open-weight. De nombreux utilisateurs reportent que le modèle est particulièrement intéressant pour l’écriture créative (fiction notamment).

Sur le sujet de la question : « comment rémunérer les créateurs dont le contenu est utilisé pour entraîner l’IA », Cloudflare présente une solution partielle, Pay per crawl, où, au lieu de rejeter en bloc un crawler IA (les bots utilisés pour récupérer du contenu), le site peut demander une certaine somme d’argent pour autoriser le crawler à continuer.

Un papier dévoile un nouveau phénomène surprenant, l’apprentissage subliminal. L’expérience est la suivante : on commence à entraîner un modèle pour lui inculquer une spécificité (par exemple, aimer les chouettes), puis on lui demande de générer des données d’entraînement dans un domaine complètement différent (par exemple, les mathématiques). Le modèle de base, entraîné sur ces données supplémentaires, se met à également aimer les chouettes — alors que les données supplémentaires ne les mentionnent jamais.

Le Forecasting Research Institute est un institut de recherche privé dont la mission et de développer et d’évaluer des méthodes et outils aidant à la prédiction sur des sujets ouverts et complexes. Ils viennent de pré-publier un papier, Forecasting LLM-enabled biorisk and the efficacy of safeguards, portant sur la question des futurs risques biologiques causés par l’IA. Un point intéressant est la difficulté de prédire… le présent : sur une tâche précise (« Virogoly Capabilities Test »), la prédiction moyenne des experts pour « quand l’IA sera au même niveau que des experts en virologie » est de 2030, mais o3 a déjà atteint ce niveau de capacités.

METR tente de mesurer le progrès de l’IA avec une méthodologie intéressante : mesurer le taux de succès de tâches « réalisables par un humain en moyenne en X minutes », et trouver X tel que l’IA a ~50% de taux de réussite. Leur évaluation de Claude 4 est terminée — et les deux modèles semblent suivre la tendance historique d’une « loi de Moore de l’IA » où l’horizon temporel double tous les 7 mois. Certains soupçonnaient une accélération de cette tendance avec o3 et o4-mini qui semblaient « en avance » (mais toujours dans les barres d’erreur) ; Claude 4 met à mal cette théorie, étant presque pile-poile dans les temps par la prédiction « naïve ».

Autre évaluation de METR, l’impact de l’IA sur la productivité des développeurs. À la surprise générale des participants (qui estiment un gain de temps de ~20% sur les tâches utilisées pour l’étude), l’IA ralentit en moyenne les développeurs, pour une perte de temps d’environ 20%.

Évaluation de l’IA, sur une tâche de comptabilité cette fois. Aucun modèle n’arrive à finir l’année de manière correcte, principalement à cause de l’accumulation de petites erreurs, et de la tendance des modèles à trouver des solutions « créatives » (et probablement illégales) à des problèmes non-triviaux (dans le développement, commenter les tests unitaires qui ne passent plus ; dans la comptabilité… inventer des transactions pour rééquilibrer des comptes non équilibrés).

À quel point les progrès de l’IA la rendent plus persuasive ? Un papier étudie cette question. Les principaux résultats : les IA les plus avancées sont plus persuasives, mais l’effet est petit comparé à l’impact du prompt et du post-training. Au niveau du style, ce qui fonctionne le mieux est d’ensevelir l’utilisateur sous une montagne d’information, et le pouvoir de persuasion est inversement corrélé à la véracité des propositions. Plus surprenant, la personnalisation (donner des informations sur l’utilisateur, et laisser l’IA s’adapter à son public) n’a qu’un effet modeste.

Ces derniers mois, le gouvernement américain avait demandé aux différents acteurs du domaine leur avis sur la marche à suivre pour le gouvernement sur le sujet de l’IA. Le résultat est là, sous la forme d’un plan. Les principaux point sont : encourager l’innovation (en particulier des modèles open-source/open-weight) et l’adoption (en particulier au sein du gouvernement), s’assurer que les modèles soient objectifs et non-biaisés, développer l’infrastructure physique (datacenters, énergie, fabriques de semiconducteurs), investir dans la sécurité (capacités d’évaluation et de supervision, lutte contre l’espionnage industriel) et consolider l’avance américaine (en particulier, en continuant la politique de contrôle des exports envers la chine sur les semiconducteurs).

Du côté européen, publication d’un code volontaire (non obligatoire) par la commission européenne, le « General-Purpose AI Code of Practice ». Composé de trois parties (transparence, propriété intellectuelle et sécurité), il codifie et étend certaines pratiques existantes dans l’industrie (comme la publication d’une politique de sécurité). Accueilli favorablement, il a été ratifié par la plupart des acteurs du domaine, y compris les principaux Anthropic/OpenAI/Google. Deux exceptions, xAI, qui n’accepte que la partie « sécurité », et Meta, qui rejette la totalité.

OpenAI publie ChatGPT Agent, essentiellement le successeur de Operator, où l’IA a le contrôle d’un navigateur pour effectuer des tâches sur internet. Peu de retours positifs en pratique sur ce mode. Il est à noter que ce mode a conduit OpenAI à mettre en place ses mitigations pour les risques « élevé » en biologie/chimie, par mesure de précaution (tout comme Anthropic l’avait fait pour la publication de Claude Opus 4).

Il est bien connu que les modèles, déployés en tant que chatbots, sont tous vulnérables aux jailbreak. À quel point cela généralise-t-il dans le contexte d’un agent ? Pour y répondre, Gray Swan a organisé une compétition, où 22 agents IA ont déployés pour faire office de cible contre des attaquants humains. Tous les modèles ont été attaqués avec succès, le taux de réussite d’une attaque étant de 1.47% pour le modèle le plus sûr.

À quel point l’IA représente de manière précise ce qu’elle est supposé modélisée, dans ses mécanismes internes ? Un papier étudie la question en entraînant une (petite) IA spécialisée sur différentes tâches simples (telles que prédire les trajectoires des corps célestes) puis en extrayant le modèle interne appris. Sur la plupart des tâches, l’IA échoue à apprendre la « véritable règle » (par exemple la loi de Newton).

Dans certains cas, allouer plus de ressources à l’IA (sous la forme de chaînes de pensée plus longues) conduit à une baisse de performances.

Une crainte concernant l’IA serait sa propension à perpétuer des stéréotypes présents dans son corpus d’entraînement. Un papier étudie cette question, et trouve que l’IA, mise dans un scénario d’embauche, discrimine… contre les hommes blancs : « When these biases emerge, they consistently favor Black over White candidates and female over male candidates across all tested models and scenarios ». De manière intéressante, la chaîne de pensée n’offre aucune indication de discrimination.

Un sondage sur l’utilisation de l’IA en tant que compagnon/confident par les adolescents.

Un retour d’expérience sur l’utilisation de l’IA comme assistant de programmation, avec des astuces détaillées.

Anthropic, OpenAI, DeepMind et xAI gagnent chacun un contrat avec le Département de la Défense des États-Unis pour 200 millions de dollar.

Un fil rappelant les précautions à prendre sur l’utilisation de MCP.

Meta continue désespérément à essayer d’attirer des talents pour son équipe IA, sans grand succès. Dernier exemple en date, où une offre a été faite à des employés de Thinking Machines pour des montants allant de 200 millions à 1 milliard, offres toutes refusées.

Pour aller plus loin

Non couvert ici :

OpenAI Model Differentiation 101: un « retour aux bases », une introduction aux principaux modèles existants, et lequel utiliser
AI Moratorium Stripped From BBB : le BBB est le projet de loi portant sur le budget du gouvernement Trump. Ce dernier possédait une clause imposant un moratoire interdisant à la fois aux agences fédérales et aux États de réguler l’IA. Cette clause a été supprimée.
Congress Asks Better Questions : la Chambre des représentants des États-Unis continue à interviewer des acteurs du secteur pour informer son agenda législatif. Une grosse emphase est mise sur « il faut gagner la course à l’IA contre la Chine », mais quelques voix commencent à s’élever pour questionner les aspects sur la sécurité des modèles et les effets sociaux de l’IA.
'Positive review only': Researchers hide AI prompts in papers (dans les liens LinuxFR)
AI models just don't understand what they're talking about
“I'm being paid to fix issues caused by AI” (« Je suis payé pour réparer les soucis causés par de l’IA ») (dans les liens LinuxFR)

En audio/vidéo (en anglais) :

Helen Toner, Unresolved Debates on the Future of AI : Jusqu’où les méthodes actuelles pourront nous mener ? À quel point l’IA peut aider à améliorer l’IA ? L’IA n’est-elle qu’un outil, ou plus ? Version écrite.

Télécharger ce contenu au format EPUB

Commentaires : voir le flux Atom ouvrir dans le navigateur

Vue normale

Présentation

Nouveautés 2025

Sommaire

Mon flot de rédaction

ChatGPT

Mon activité sur Stack

Zorn et existence d'un max pour tout ensemble fini

Connexité

Remarque pas très gentille

Citations

Plagiat massif

Pourquoi citer ses sources ?

Le cas particulier chatGPT (1)

Le cas particulier chatGPT (2)

Le cas particulier chatGPT (3)

Images de couverture

yanntricks

L'inconvénient

Vente

Problème d'accès aux ressources documentaires

Que faire ? Tout accepter ?

Sommaire

Résumé des épisodes précédents

OpenAI publie GPT-5

Google Genie 3, Gemini 2.5 Flash Image et Gemini 2.5 Deep Think

En vrac

Pour aller plus loin

Par Zvi Mowshowitz :

Dans les dépêches de LinuxFr.org :

Dans les journaux de LinuxFr.org :

Dans les liens de LinuxFr.org :

Sommaire

Résumé des épisodes précédents

Des nouvelles de Grok

Grok 4

L’incident « MechaHitler »

Ani

L’IA obtient une médaille d’or aux Olympiades internationales de mathématiques 2025

En vrac

Pour aller plus loin

L’incident « MechaHitler »