Les librairies croulent sous les livres qui n’existent pas, et c’est à cause de l’IA

Les livres issus des hallucinations de l'IA sont de plus en plus nombreux dans les piles à lire des internautes. Et c'est un vrai problème.
Le Frido est un livre de mathématique libre initialement destiné à l'agrégation, mais devenu généraliste. En supposant connue une théorie intuitive des ensembles, ça va jusqu'aux martingales, distributions, extensions de corps, etc. Avec toutes les démonstration intermédiaires (modulo les 981 entrées restantes dans ma liste de choses à faire).
Les résultats sont classés par ordre logique mathématique : chaque démonstration ne s'appuie que sur des résultats énoncés et démontrés plus haut. C'est loin d'être l'ordre pédagogique.
L'extension guilietta donne le reste de ce que je sais en math : groupes de Lie (l'objectif est de donner la liste des représentations de ).
Le bouquin vient de dépasser les 3000 pages cette année.
Quand j'écris une démonstration, soit je cherche un peu par moi-même, soit je cherche sur internet. Quand je trouve un texte qui me semble correct, je commence par rédiger sur du papier de brouillon; la plupart du temps j'ajoute beaucoup de détails par rapport à ce que je lis. En particulier, j'écris sur mon papier de brouillon les labels (dans le Frido) des résultats à citer.
Quand ma démonstration est terminée, je copie des feuilles vers LaTeX. Chaque démonstration passe donc par (au moins) deux rédactions personnelles : une de l'écran vers le papier de brouillon et une du papier vers LaTeX.
Ce flot est valable également quand je demande à ChatGPT. Ce dernier est maintenant crédité comme source dans neuf démonstrations. Parfois seul parfois en collaboration avec moi ou d'autres sources. Je ne copie-colle jamais un résultat.
Avant de demander à ChatGPT, je regarde d'abord pas mal sur internet ; et je me demande parfois pourquoi d'ailleurs.
Lorsque je ne trouve pas une démonstration en ligne, je demande souvent sur Stack. Et parfois je n'ai pas de réponses satisfaisantes.
Je demande si il est vrai que tout ensemble Dedekin-fini totalement ordonné a un maximum.
À mon avis la preuve donnée par Asaf Karagila (et qui a 5 votes positifs) a au moins un trou ; j'explique dans les commentaires ce qui ne me va pas. Si vous avez une idée de comment compléter, n'hésitez pas.
Voici une question qui lie connexité et espaces totalement normaux. Je ne suis pas certain que l'énoncé soit même vrai.
Si vous êtes douées en topologie, lâchez-vous.
À chaque fois que je dois poser une question sur Stack ou à ChatGPT, je ne peux pas m'empêcher de penser que soit je suis nul en recherche sur Internet (c'est le cas), soit l'ensemble de la communauté mathématique a échoué à mettre en ligne des résultats importants.
Le Frido cite toutes ses sources, théorème par théorème. À côté de chaque énoncé, il y a une liste des endroits où j'ai trouvé des informations utiles soit pour l'énoncé soit pour la démonstration.
La référence [1]
signifie qu'il y a de l'invention personnelle non triviale. C'est moi qui ai inventé (une partie de) soit de l'énoncé, soit de la preuve.
Dans le monde de l'enseignement académique, le plagiat massif est la norme. Par exemple, le dernier en date que j'ai utilisé cite cinq livres en avouant ouvertement que ce n'est pas complet. Et bien entendu, il ne dit pas quelle partie de son texte vient d'où.
En ne remontant ma bibliographie pas plus loin que juillet 2025, je trouve celui-ci qui ne cite aucune source. Si un étudiant avait fait ça dans un mémoire de licence, il aurait été engueulé comme du poisson pourri.
Les mathématiciens professionnels ne citent pratiquement jamais Wikipédia ou math.stackexchange.com. Le Frido oui.
La bibliographie sert à remercier la personne qui a fait l'effort de me rendre l'information disponible.
En ce qui me concerne, la bibliographie ne sert pas à :
Développons
chatGPT n'est pas un cas particulier.
Si c'est l'entreprise OpenAI qui a fait l'effort de mettre une information disponible pour moi, c'est elle que je cite. C'est bien l'entreprise OpenAI qui a la citation, pas chatGPT lui-même en tant que "personne". Cela est à mettre en relief par rapport au cas de cette réponse où je cite bien la personne qui a écrit et non l'entreprise derrière stack.
Que OpenAI elle-même soit incapable de citer les sources sur lesquelles elle base sa réponse est — dans mon contexte — un non-problème. En effet, je serais moi-même incapable de vous dire d'où je connais le paradoxe de Zénon, la définition de la continuité ou la démonstration de la formule . Ce sont des informations qui sont codées dans mon cerveau. Je suis capable de vous les dire, mais pas de faire de citations de mes sources.
Ce n'est pas un cas particulier.
En remontant ma biblio jusqu'à janvier 2025, je trouve cet intéressant exemple : ma question sur math.stackexchange à propos de variétés analytiques.
Voici l'ordre dans lequel se sont passées les choses.
Question : à qui suis-je supposé donner le crédit de la démonstration ?
Ma réponse : à OpenAI.
Au final, la communauté mathématique a échoué à mettre en ligne un énoncé et une démonstration correcte de «tout groupe de Lie est analytique».
Ensuite la communauté mathématique a échoué à répondre à une question sur stackexchange.
Au final c'est un échec retentissant pour l'ensemble de la communauté mathématique.
En réalité la question de savoir si OpenAI mérite une entrée dans ma biblio est une question très accessoire. Il y a un problème de publication scientifique largement en amont.
Bon. ok. ChatGPT est un cas particulier. Le plus souvent quand je demande à chatGPT c'est que j'ai déjà fait des recherches sur Internet et souvent également demandé sur stack sans avoir de réponses utiles.
Donc quand je cite chatGPT, c'est un signe que l'ensemble de la communauté mathématique a échoué dans sa mission de mettre la connaissance correctement en ligne.
Mettons une mathématicienne (nommons-la Alice) ayant écrit un résultat dans un livre privateur. Supposons qu'elle retrouve ce résultat dans le Frido avec chatGPT comme source. Est-elle en droit de râler ?
Étudions la question.
Bref.
Qu'il y ait un problème dans la chaîne "livre privateur -> openAI -> moi" est possible.
Mais le vrai problème de mon point de vue est largement en amont. Pourquoi il y avait un livre privateur à la base ?
Les images de couverture proviennent de Pepper et Carrot.
On parlait de tikz dans un fil sur typst.
Le Frido fait ses figures avec yanntricks, un module python basé sur sage. Le principe est qu'on décrit sa figure en python, puis le code Tikz est généré automatiquement. Pratiquement tout ce qui est calculable en python/sage est traçable.
Il y a deux idées de base :
Tout est ramené à des points et segments de droites. Écrivez en python une fonction ma_fonction
qui prend un réel et retourne un point, passez cette fonction au constructeur ma_courbe=CustomGraph(ma_fonction)
, et hop ma_courbe.code_tikz()
est le code tikz d'une série de segments de droites qui donnera votre courbe.
Le code Tikz créé contient du code LaTeX écrivant dans un fichier la taille des boîtes (bounding box) des éléments LaTeX que vous insérez, de telle sorte qu'en deux passes, yanntricks
soit au courant des tailles (ça marche avec tous les compteurs internes de LaTeX; vous pouvez donc tenir compte du numéro de la page courante dans votre image). Cela permet de faire :
C = Cirle(Point(2,1),4) #cercle de centre (2,1) et de rayon 4
C.put_mark($\omega-x$, 30) # placer $\omega-x$ sur le cercle à un angle 30 degrés
C.tikz_code()
Le code tikz produit mettra automatiquement à la bonne place pour que le centre de la boîte soit sur le rayon qui fait un angle de 30 degrés avec l'horizontale, et assez loin pour que la boîte ne coupe pas le cercle.
Très peu de changements sont nécessaires pour générer le code pstricks ou tikz ou quoi que ce soit d'autre : seulement les droites, points et quelque trucs de base. Pas besoin des cercles, courbes, etc.
L'inconvénient de yanntricks est que le code est une usine à gaz que j'ai développé par à coups pendant une dizaine d'années — sans linter, sans annotations de types et sans rigueur. En réalité, le prix du billet d'entrée est absurdement élevé. Tellement que moi-même je ne m'y aventure plus.
Extrait du règlement (dans le rapport), page 42) de l'agrégation :
Durant tout ce temps, elles ou ils ont libre accès […] à leurs
propres ouvrages. Seuls sont autorisés les ouvrages avec un numéro ISBN et jouissant d'une véritable
diffusion commerciale. […] une « diffusion commerciale avérée » est tout autant importante.
[…] Cette restriction est motivée par le principe d'égalité des candidats : les ressources documentaires autorisées doivent être facilement accessibles à tout candidat au concours.
En résumé :
Truc marrant : le point 1 est bizarre, mais est appliqué, tandis que le point 2 est très raisonnable mais n'est pas appliqué. C'est ce qui arrive quand on écrit un règlement en ayant un cas très précis en tête et qu'on ne se rend pas compte que ce qu'on écrit a une portée beaucoup plus large que le seul cas auquel on pense.
Et le pire est que ce règlement n'interdit même pas ce livre qui, si j'ai bien compris, est exactement ce qu'on avait envie de refuser au départ : une pure liste de définitions et d'énoncés de théorèmes classés par leçon.
Avis si vous travaillez dans une prépa agreg : tapez un plan par leçon (avec la démonstration des deux développements), publiez-là sur thebookedition et ensuite bachotez seulement ces leçons avec vos étudiants.
Bref, pour faire plaisir au règlement de l'agreg, le Frido est en vente :
Total : 115,86 euros.
Ironie mise à part, je trouve que l'objectif est évidemment très louable :
« principe d'égalité des candidats : les ressources documentaires autorisées doivent être facilement accessibles à tout candidat au concours.»
Par contre force est de constater que l'accès aux ressources est encore très inégalitaire.
Finalement, si tout était accepté sans aucune restriction, certes certaines auraient accès à quelque documents de plus que les autres. Mais il y a tellement de ressources disponibles que le petit plus qu'un candidat pourrait se procurer n'a aucune chance d'être décisif.
Commentaires : voir le flux Atom ouvrir dans le navigateur
La start-up d’intelligence artificielle Anthropic a marqué un tournant dans le débat sur l’utilisation des données protégées en acceptant de verser au moins 1,5 milliard de dollars à un fonds d’indemnisation pour auteurs, ayants droit et éditeurs. Cette somme, qui se veut détaillée dans un document judiciaire, vise …
Aimez KultureGeek sur Facebook, et suivez-nous sur Twitter
N'oubliez pas de télécharger notre Application gratuite iAddict pour iPhone et iPad (lien App Store)
L’article Anthropic va payer 1,5 milliard de dollars pour les livres piratés et l’IA est apparu en premier sur KultureGeek.
Parmi les 34 saints originaux, au moins trois ont acquis une grande popularité dans l’Europe médiévale : sainte Eugénie, sainte Euphrosyne et saint Marinos. Tous trois sont nés femmes, mais se sont coupé les cheveux et ont revêtu des vêtements masculins pour vivre comme des hommes et entrer dans des monastères.
Donc il y a 3 saintes qui se sont travesties pour entrer dans des monastères réservés aux hommes... Rien n'indique qu'elles se considéraient comme des hommes. Potentiellement elles se faisaient passer pour des hommes afin d'avoir les mêmes droits qu'eux, comme entrer dans un monastère...
Mais citons le résumé de l’œuvre sur laquelle s'appuie l'article :
In this book, the author explores medieval society's fascination with the cross-dressed woman. The author examines a wide variety of religious, literary, and historical sources, which record interpretations of sartorial attempts to overcome gender hierarchy and also illustrate, mainly through the device of inversion, a remarkably sustained desire to examine and reexamine the nature of social gender identities.
Que l'on peut traduire par :
Dans ce livre, l'auteur explore la fascination de la société médiévale pour la femme travestie. L'auteur examine une grande variété de sources religieuses, littéraires et historiques, qui enregistrent des interprétations de tentatives vestimentaires visant à surmonter la hiérarchie des sexes et illustrent également, principalement par le biais de l'inversion, un désir remarquablement soutenu d'examiner et de réexaminer la nature des identités sociales de genre.
Donc il faut surmonter la hiérarchie des sexes "bien connu". Le patriarcat ayant été un standard dans l'histoire sans discussion possible apparemment. Ensuite, il y a interprétation, rien n'indique qu'à l'époque on souhaitait "examiner la nature des identités sociales de genre" (si tant est qu'une telle chose existe).
Je vais me commander le livre, mon a priori étant, comme toute cette soupe anglo-saxonne depuis une décennie, qu'il s'agit d'un ouvrage totalement orienté politiquement et qui déforme le passé pour servir un propos.
Sûrement encore une tentative idéologique de réécrire l'histoire, de projeter sa propre morale chronocentrée afin de légitimer le présent et influencer l'avenir.
L'exploration définitive de l'une des théories les plus audacieuses et les plus importantes de notre époque, entièrement révisée et mise à jour pour refléter les progrès rapides de l'intelligence artificielle et de la réalité virtuelle.
Vivons-nous dans une simulation ? Rizwan Virk, informaticien au MIT, s'appuie sur des recherches et des concepts issus de l'informatique, de l'intelligence artificielle, des jeux vidéo, de la physique quantique et de la mystique ancienne pour expliquer pourquoi nous vivons peut-être à l'intérieur d'une réalité simulée comme la Matrice.
La théorie de la simulation explique certains des plus grands mystères de la physique quantique et relativiste, tels que l'indétermination quantique, les univers parallèles et la nature intégrale de la vitesse de la lumière, en utilisant l'information et le calcul.
Virk montre comment l'évolution de nos jeux vidéo, y compris la réalité virtuelle, la réalité augmentée, l'intelligence artificielle et l'informatique quantique, nous conduira à une singularité technologique. Nous atteindrons le point de simulation, où nous pourrons développer des mondes virtuels globaux comme l'OASIS dans Ready Player One ou The Matrix - et en fait, nous sommes déjà probablement à l'intérieur d'une telle simulation.
Bien que l'idée ressemble à de la science-fiction, de nombreux scientifiques, ingénieurs et professeurs ont sérieusement envisagé l'hypothèse de la simulation, notamment Elon Musk, Neil deGrasse Tyson et Nick Bostrom. Mais l'hypothèse de la simulation n'est pas seulement une idée moderne. Les philosophes de toutes les traditions soutiennent depuis longtemps que nous vivons dans une sorte d'"illusion" et qu'il existe d'autres réalités auxquelles nous pouvons accéder par l'esprit.
L'hypothèse de la simulation est l'ouvrage de référence sur la théorie de la simulation. Il a été entièrement mis à jour pour refléter les derniers développements en matière d'intelligence artificielle et de réalité virtuelle.
Que vous soyez informaticien, fan de science-fiction comme les films Matrix, passionné de jeux vidéo, en quête de spiritualité ou simplement amateur d'expériences de pensée déroutantes, vous ne verrez plus jamais le monde de la même manière.
La plus grande bibliothèque véritablement ouverte de l'histoire de l'humanité. ⭐️ Nous reflétons Sci-Hub et LibGen, nous récupérons et ouvrons Z-Lib, DuXiu et bien plus encore. 52 875 045 livres, 98 598 895 documents - préservés à jamais. Tout notre code et toutes nos données sont entièrement open source.
Antoine BUENO est écrivain et chargé de mission au Sénat. Il a écrit ce livre où il donne des indications visant à déterminer qui devrait être en droit d'avoir des enfants et qui ne le serait pas.
A noter que ce livre s'inscrit dans la mouvance de la décroissance, voire le no kids, poussant les gens à arrêter de faire des enfants, comme si un enfant était un malheur... Le monsieur en a-t-il ? Bonne question à laquelle je n'ai pas de réponse.
Je vous fais un résumé de ce qui sonne pour l'anarchiste qui vit en moi comme une horreur digne des plus dangereuses dictatures.
En substance, les citoyens doivent être contrôlés pour savoir s'ils sont aptes à avoir des enfants, et parmi les propositions visant à effectuer ce contrôle on peut noter une procédure en deux étapes.
Étape 1
Déclarer à l'administration son "projet parental", en précisant :
Étape 2
Audit de la situation familiale par une assistance sociale ainsi qu'évaluation psychologique des parents (mais c'est dans le but de prévenir des violences donc tout va bien). On appréciera que l'assistante sociale sera la seule juge dans l'opération, bien qu'elle puisse avoir une orientation politique ou religieuse qui influence son évaluation...
Si les parents ne sont pas jugés conformes, ça devient folklorique :
On parle de parents qui n'auraient commis aucun crime, aucun délit. On suppose que ces gens vont déconner parce que des hypothèses plus ou moins fiables. Ce ne sont pas des propositions de régimes "illibéraux", ce sont des propositions dans la lignée des dictatures eugénistes où l'état s'introduit dans la chambre à coucher.
Pour moi, rien que de parler de "projet" pour parler d'un bébé faut déjà être un taré sortie tout droit de l'ENA ou d'une école de commerce ; ce qui est le cas du monsieur comme c'est étonnant.
Je milite pour que nous supprimions ces gens de nos sociétés. En plus ça s'inscrira parfaitement dans leur vision écolo-taré : un humain de moins = un pollueur de moins. Les futurs bébés quant à eux, ont une chance d'être des humains normaux, je préfère donc tout miser sur eux.
— Liens directs