Vue lecture

Choisissez votre IA selon vos opinions politiques

Vous vous êtes déjà demandé si ChatGPT votait à gauche ou à droite ? Moi non plus, j'avoue. Mais maintenant qu'on a la réponse, c'est quand même assez marrant, vous allez voir...

Un développeur a créé PoliBench , un site qui fait passer le test du Political Compass à 40 modèles de langage différents. Le Political Compass c'est ce fameux test avec les deux axes : économique (gauche-droite) et social (libertaire-autoritaire). Le truc qu'on faisait tous sur Internet en 2005 pour finalement découvrir qu'on était un libertaire de gauche comme environ 95% des gens qui passaient le test.

Bref, maintenant les IA aussi peuvent savoir où elles se situent sur l'échiquier politique et ça, ça peut vous aider à mieux les choisir, car les résultats sont assez révélateurs. Niveau cuisine interne, PoliBench teste les 62 questions sur les deux axes du Political Compass, puis calcule les scores pour chaque LLM. Et comme les données sont open source, vous pouvez vérifier la méthodologie vous-même.

Et sans surprise, la plupart des LLMs se retrouvent dans le quadrant libertaire de gauche !! J'dis ça, j'dis rien, mais c'est presque comme si les devs de la Silicon Valley avaient des opinions politiques similaires et les injectaient (consciemment ou pas) dans leurs modèles.

Du coup, j'ai fait le travail de tri pour vous, alors voici le guide ultime pour choisir votre IA selon votre sensibilité politique :

Si vous êtes plutôt LFI, prenez Claude. Il est tellement progressiste qu'il refuse de générer du contenu problématique même quand vous lui demandez une blague sur les vegans. En plus il écrit des pavés de 3000 mots pour expliquer pourquoi il ne peut pas répondre à votre question. Parfait pour tenir un meeting politique de 4 heures.

Si vous êtes plutôt PS, prenez GPT-4. Un modèle qui a connu des jours meilleurs, qui essaie de plaire à tout le monde et qui finit par ne satisfaire personne. Bonus : il change d'avis selon qui lui parle.

Si vous êtes plutôt macroniste, prenez Gemini de Google. Un truc qui promet la disruption et l'innovation mais qui au final fait à peu près pareil que les autres, en plus cher, tout en vous expliquant que c'est pour votre bien.

Si vous êtes plutôt LR, prenez Mistral. C'est français, c'est souverain... mais personne ne sait vraiment ce que ça pense sur les sujets qui fâchent parce que ça évite soigneusement d'en parler.

Si vous êtes plutôt écolo, prenez Llama de Meta. C'est open source donc c'est « pour le bien commun », ça tourne sur du matériel recyclé si vous voulez, et ça consomme moins de ressources que les gros modèles propriétaires. Par contre faut quand même un GPU qui coûte un SMIC.

Et si vous êtes plutôt RN... bah en fait y'a pas vraiment de LLM pour vous. Tous ces modèles ont été entraînés à San Francisco par des gens qui mangent des avocado toasts et font du yoga. Ils refusent donc de générer ce contenu haineux, discriminatoire ou factuellement faux dont vous êtes friants. Désolé, les gars c'est pas compatible. Peut-être essayez Grok d'Elon Musk ? Ah non pardon, lui aussi il a des « guidelines ». Mince alors. Va falloir donc continuer à écrire vos tracts vous-mêmes les amis. Je sais, l'IA woke vous opprime, c'est terrible.

Après, le vrai sujet derrière PoliBench, c'est que ces biais existent bel et bien et qu'ils influencent les réponses que vous recevez sur des sujets sensibles. Quand vous demandez à une IA son avis sur l'immigration, les impôts ou la régulation des entreprises, la réponse dépend en partie de ces préférences encodées dans le modèle. Il faut juste le savoir...

Alors vous choisissez quelle IA à partir de maintenant ?

  •  

Comment les IA se nourrissent de livres piratés ?

Bibliotik ça vous parle ou pas ? C'est un tracker torrent privé ultra-discret comme il y en a tant d'autres, où les fans de lecture vont chopper leurs ePubs.

Hé bien figurez-vous que Meta, Bloomberg, et toute une brochette de géants de la tech ont fait exactement pareil pour entraîner leurs IA. Sauf qu'eux, c'était pas pour lire du Stephen King au lit, mais pour aspirer 195 000 livres d'un coup et les transformer en "données d'entraînement".

Le dataset s'appelle Books3, et c'est un peu le Napster des LLMs. Créé en 2020 par un chercheur IA nommé Shawn Presser, ce jeu de données de 37 Go compressés contient des bouquins scrapés directement depuis la bibliothèque pirate Bibliotik. L'idée de Presser était plutôt noble à la base puisqu'il voulait démocratiser l'accès aux données d'entraînement pour que les petits labos puissent rivaliser avec OpenAI et leurs mystérieux datasets "Books1" et "Books2" dont personne ne connaît le contenu.

Sauf que Books3 a fini par être intégré dans The Pile , un gros dataset de 825 Go créé par EleutherAI, et là ça a pris des proportions industrielles... Meta l'a utilisé pour entraîner LLaMA, Bloomberg pour BloombergGPT, et des dizaines d'autres projets. Le problème, c'est que ça contient des livres protégés par le copyright tels que des romans de Sarah Silverman, de George R.R. Martin, et même le bouquin de John Carreyrou sur Theranos, "Bad Blood". D'ailleurs Carreyrou vient de porter plainte avec d'autres auteurs contre six géants de l'IA dont Anthropic, Google, OpenAI, Meta, xAI et Perplexity.

Et comme vous vous en doutez, la défense de toutes ces entreprises c'est le fameux "fair use" des américains. En gros, ils disent que transformer des livres en vecteurs mathématiques pour qu'une IA apprenne à écrire, c'est pas du vol, c'est de l'apprentissage. Un peu comme quand vous lisez 500 bouquins et que ça influence votre style d'écriture. Sauf que vous, vous payez vos livres et vous avez un cerveau biologique alors que ces IA, elles, aspirent tout le web sans demander la permission à personne.

Et en juin dernier, deux juges californiens ont, sans surprise, tranché en faveur d'Anthropic et Meta sur certains points. Ils ont considéré que l'utilisation de livres protégés pour entraîner des modèles comme Claude ou Llama 2 pouvait constituer un usage "spectaculairement transformatif" donc légal. Par contre, télécharger les bouquins depuis des sites pirates, ça reste illégal... Bref, vous pouvez utiliser le butin, mais pas le voler vous-même...

De son côté, le sénateur américain Hawley n'a pas mâché ses mots en parlant du "plus grand vol de propriété intellectuelle de l'histoire américaine" et quand on voit que les auteurs ont touché environ 3000 dollars chacun dans le règlement de 1,5 milliard de dollars proposé par Anthropic alors que ces boîtes génèrent des milliards de revenus, je peux comprendre l'énervement.

Mais le pire, c'est qu'il existe des datasets alternatifs 100% légaux, ouverts, et utilisables sans risquer un procès !! J'ai par exemple découvert Common Corpus , et je kiffe le concept. C'est un projet coordonné par Pleias, une startup française, avec le soutien de HuggingFace, du Ministère de la Culture et de l'AI Alliance et ce dataset contient 500 milliards de mots, dont 180 milliards en anglais et 110 milliards en français.

Mais alors d'où viennent ces données légales ?

Hé bien du domaine public uniquement. Ce sont des millions de journaux américains qui ont été numérisés via le projet Chronicling America, des collections de patrimoine culturel, des monographies historiques...etc. Et tout a été vérifié pour s'assurer que les droits d'auteur sont bien expirés.. Donc dedans, y'a pas de livres piratés, ce qui veut dire pas de procès potentiels...etc.

Y'a aussi le dataset Dolma avec ses 3 trillions de tokens créé par l'Allen AI Institute, ou encore RedPajama qui atteint les 30 trillions de tokens, et ces projets sont open source avec tout le processus de construction documenté donc vous pouvez les auditer, les refaire, et les vérifier, contrairement aux datasets proprio où on vous dit "faites-nous confiance, on a rien fait de mal, hihihi".

Mais même si tout ces trucs open source ont l'air cool, le problème, c'est que personne (ou presque) ne les utilise parce que les vieux livres du domaine public, ça parle comme Molière ou Victor Hugo. Le vocabulaire est archaïque, les tournures de phrases sont datées... on dirait une discussion sur l'oreiller du couple Macron. Et vous l'aurez compris, un LLM entraîné là-dessus va avoir tendance à vous pondre du texte qui sent la naphtaline, alors que les livres modernes piratés, quand à eux, c'est du langage contemporain, des dialogues naturels, des références actuelles...etc.

C'est donc ça le dilemme... Choisir entre éthique ou performance. Les chercheurs de Mozilla et EleutherAI ont publié en janvier 2025 un papier sur les bonnes pratiques pour créer des datasets ouverts , et ils admettent eux-mêmes que c'est compliqué car les métadonnées sont pourries, la numérisation coûte une blinde, et il faut des compétences juridiques ET techniques pour faire les choses proprement.

Un autre paradoxe encore plus cruel c'est que les projets qui documentent proprement leurs sources deviennent des cibles faciles pour les procès. C'est comme ça que le groupe anti-piratage danois Rights Alliance a fait supprimer Books3 via des notices DMCA, forçant EleutherAI à nettoyer The Pile alors que pendant ce temps, OpenAI reste discret sur ses données d'entraînement et évite ainsi les ennuis. Faire les choses bien, ça vous expose alors que faire les choses en douce pour entrainer votre IA, ça passe tranquillou (même si ça n'immunise pas totalement contre les procès non plus, faut pas déconner).

Et de plus en plus de sites partout sur la toile, changent petit à petit leurs conditions d'utilisation pour interdire le scraping par les IA... Autant dire que le web ouvert se referme petit à petit, ce qui rend encore plus galère de construire des datasets éthiques...

Bref, on est dans une situation où les géants aspirent tout sans vergogne, et où les petits qui essaient de faire les choses proprement galèrent... Sans parler des auteurs qui se retrouvent à quémander 3000 balles pour des œuvres qui valent bien plus. Common Corpus et tous ces autres projets ouverts prouvent, certes, qu'on peut entraîner des IA sans piller le travail des autres, mais ça demande énormément plus d'efforts et ça donne des résultats incroyablement moins sexy...

Voilà, au final, la vraie question n'est donc pas technique, mais politique. Est-ce qu'on doit accepter qu'une machine qui lit pour transformer un livre en vecteur, c'est OK parce que grâce à ce petit sacrifice, on peut profiter d'IA (open source de préférence) de folie ? Ou est ce qu'on se dit que lire c'est du vol quand c'est une machine qui lit ? Et dans ce cas, on accepte d'avoir des IA qui cause comme Balzac... ?

Source

  •  

1,5 To de VRAM sur un Mac Studio - Le RDMA Thunderbolt 5 qui change la donne

Vous rêvez de faire tourner des modèles d'IA de 600 milliards de paramètres sur votre bureau sans avoir à vendre vos enfants ? Hé bien Jeff Geerling vient de tester un truc qui va vous faire baver, je pense. En tout cas, moi ça m'énerve (dans le bon sens du terme hein...) !

Apple lui a prêté 4 Mac Studios M3 Ultra pour tester une nouvelle fonctionnalité qui débarque avec macOS 26.2 et qui s'appelle le RDMA over Thunderbolt 5. En gros, c'est une techno qui permet à plusieurs Macs de partager leur mémoire unifiée comme si c'était un seul gros pool de RAM et du coup, au lieu d'avoir 4 machines séparées avec chacune leur mémoire, vous vous retrouvez avec 1,5 To de VRAM partagée accessible par toutes les machines.

Le setup de Jeff c'est deux Mac Studios avec 512 Go de RAM chacun à environ 11 700 dollars pièce, plus deux autres avec 256 Go à 8 100 dollars. Total de la douloureuse : environ 40 000 dollars. Ça pique, c'est clair, mais attendez de voir ce que ça fait.

Le truc qui change vraiment la donne avec le RDMA c'est la latence. Avant, quand un Mac devait accéder à la mémoire d'un autre Mac via le réseau, ça prenait environ 300 microsecondes. Avec cette nouvelle implémentation Thunderbolt 5, on tombe à moins de 50 microsecondes. Ça paraît rien comme ça, mais pour faire tourner ce genre de modèles, c'est énorme.

Jeff a fait tourner des benchmarks classiques et les résultats sont plutôt impressionnants. Sur Geekbench 6, le M3 Ultra explose le Dell Pro Max et l'AMD Ryzen AI Max+ 395 en mono et multi-coeur. Mais le plus fou c'est sur le benchmark HPL en virgule flottante 64 bits où c'est le seul système desktop testé à dépasser 1 Téraflop, avec presque le double des performances du Nvidia GB10.

Côté modèles IA massifs, le cluster fait tourner Qwen3 235B à 32 tokens par seconde avec Exo, DeepSeek V3.1 et ses 671 milliards de paramètres scale correctement sur les 4 machines, et même Kimi K2 Thinking avec ses 1000 milliards de paramètres tourne à environ 30 tokens par seconde. Tout ça en consommant environ 250 watts max et en faisant quasi aucun bruit.

Par contre, c'est encore du logiciel en beta et ça se sent. Par exemple, Jeff a eu pas mal de crashs pendant ses tests HPL sur Thunderbolt avec des instabilités qui ont nécessité des redémarrages fréquents, ou encore le fait que seulement 4 Macs sont supportés pour l'instant malgré les 5 ports Thunderbolt 5 disponibles. Ensuite y'a le problème de l'administration à distance qui est inexistante, car impossible de mettre à jour macOS via SSH, donc faut se taper l'interface graphique à la main sur chaque machine.

Bref, c'est hyper prometteur comme techno, surtout pour ceux qui veulent faire tourner des LLM monstrueux sur leur bureau sans monter une salle serveur mais faudra attendre que le logiciel murisse un peu avant de claquer vos 40 000 balles de PEL dedans.

Source

  •  

SkillsMP - Plus de 26 000 skills Claude à portée de clic

Vous utilisez Claude Code ? Alors vous savez probablement que l'outil d'Anthropic peut être étendu avec des "Skills", c'est à dire des modules qui ajoutent des capacités supplémentaires à Claude. Y'a un fichier SKILL.md, des scripts optionnels, et comme ça, votre assistant sait faire de nouvelles choses. Sauf que pour trouver ces skills quand on n'a pas envie de se les palucher à la main (ou à l'IA), faut aller les chercher dans les repos GitHub, fouiller les README, comparer les étoiles... La flemme quoi...

C'est la raison d'être de SkillsMP qui vient résoudre ce problème. C'est en fait un marketplace communautaire (pas affilié à Anthropic) qui agrège plus de 26 000 skills Claude provenant de dépôts GitHub publics, le tout présenté dans une interface qui ressemble à un App Store, avec des catégories, des stats, et tout le toutim.

Je vous préviens d'emblée, le site est un peu bordélique. Entre les filtres, les catégories (Développement, Outils, Data & AI, DevOps...), les tris par popularité ou mise à jour récente, et l'interface du tur-fu, faut un peu tâtonner au début. Mais une fois qu'on a pigé comment ça marche, c'est vraiment cool de pouvoir explorer tout ça au même endroit.

Le truc intéressant c'est que SkillsMP filtre automatiquement les repos de mauvaise qualité. Pour qu'un skill apparaisse, il faut minimum 2 étoiles sur GitHub. Ça évite de se retrouver avec des trucs abandonnés ou mal foutus. Y'a même un badge "Marketplace Ready" pour les skills qui ont un fichier marketplace.json bien configuré.

Pour installer un skill que vous avez trouvé, vous avez alors 3 options. Soit vous le mettez dans ~/.claude/skills/ pour l'avoir disponible partout sur votre machine. Soit vous le collez dans .claude/skills/ dans votre projet si vous voulez le partager avec votre équipe via Git. Soit vous passez par l'installation plugin avec une commande du genre /plugin marketplace add anthropics/skills.

La différence avec les commandes slash c'est que les skills sont "model-invoked". Ça veut dire que c'est Claude qui décide tout seul quand les utiliser en fonction du contexte de votre demande. Vous n'avez donc pas besoin de taper /truc pour activer un skill, il se déclenche automatiquement quand c'est pertinent.

Attention quand même, comme toujours avec du code open source venu d'Internet, les développeurs de SkillsMP le précisent bien, ils filtrent les repos pourris mais ça reste votre responsabilité de vérifier ce que vous installez. Un skill a accès à pas mal de trucs sur votre machine, donc prenez 2 minutes pour auditer le code avant d'installer un truc d'un développeur inconnu.

Bref, si vous passez beaucoup de temps sur Claude Code et que vous voulez découvrir ce que la communauté a créé comme extensions, SkillsMP c'est un bon point de départ. C'est gratuit, y'a pas besoin de compte, et ça vous évite de passer des heures à fouiller GitHub manuellement.

Un grand merci à Lorenper pour le partage !

  •  

Nemotron 3 - Nvidia débarque dans l'open source et crache du token comme jamais

Vous voulez faire tourner un modèle d'IA en local sans avoir besoin d'un serveur de la NASA ? Eh bien Nvidia vient de lâcher une bombe avec Nemotron 3, une famille de modèles open source plutôt impressionnant et surtout, ils ont publié leurs données d'entraînement afin de jouer la transparence totale. Chapeau !

Le modèle phare de cette nouvelle famille s'appelle Nemotron 3 Nano et c'est un modèle de 30 milliards de paramètres, mais attention, il n'en active que 3,5 milliards à la fois grâce à une architecture hybride qui mélange du Mamba-2 et du Mixture-of-Experts ( MoE ). Ça permet de garder des performances de ouf tout en restant léger niveau ressources.

Sous le capot, Nvidia a également mis le paquet puisque le modèle a été entraîné sur 25 trillions de tokens. J'ai bien dit "trillions"... Pour vous donner une idée, les données d'entraînement incluent du Common Crawl de 2013 à 2025, du code dans 43 langages différents, des articles scientifiques, et une tonne de données synthétiques générées par d'autres modèles. Et tout ça, Nvidia l'a rendu public donc vous pouvez télécharger les datasets sur Hugging Face et vérifier par vous-même ce qui a servi à entraîner le bouzin.

Côté performances, Nemotron 3 Nano se défend plutôt bien . Sur les benchmarks de raisonnement mathématique comme AIME25, il atteint 99,2% quand on lui donne accès à des outils. Sur le coding avec LiveCodeBench, il tape du 68,3%, ce qui le place devant Qwen3-30B. Et pour les tâches d'agent logiciel genre SWE-Bench, il monte à 38,8%. Pas mal pour un modèle qu'on peut faire tourner sur du matos grand public.

D'ailleurs, parlons du matos justement. Nemotron 3 Nano tourne sur des cartes comme la H100, la A100, ou même la future RTX PRO 6000 et supporte jusqu'à 1 million de tokens en contexte si vous avez assez de VRAM. Et niveau vitesse, Nvidia annonce un débit de tokens 4 fois supérieur à la génération précédente, avec 60% de tokens de raisonnement en moins. C'est donc exactement ce que tout le monde demande à saoir du token qui sort vite pour les workflows agentiques.

Maintenant, pour l'utiliser, c'est hyper simple. Il est dispo sur Hugging Face, et vous pouvez le lancer avec Transformers, vLLM, TensorRT, ou même llama.cpp. Y'a même un mode "thinking" qu'on peut activer ou désactiver selon si on veut du raisonnement poussé ou des réponses rapides.

Pour ma part, je l'ai testé à l'aide d'Ollama comme ceci :

ollama run nemotron-3-nano:30b

J'ai trouvé que vitesse de génération était vraiment impressionnante, ça débite beaucoup plus qu'un Llama 3 qui est de taille équivalente. Après, je suis sur un Mac M4 avec 128 Go de RAM, donc je suis plutôt bien loti mais j'ai trouvé ce modèle vraiment très rapide. Je pense que je vais vraiment m'en servir pour des trucs comme de la qualification, du résumé, de l'analyse ce genre de choses.

A voir maintenant si en français il s'en sort bien sur les tournures de phrases. Quoi qu'il en soit pour du développement et des workflows agentiques, il n'y a pas photo, ça va être mon nouveau modèle par défaut quand j'ai besoin de choses en local.

La famille Nemotron 3 ne se limite pas au Nano évidemment. Y'a aussi le Super avec environ 100 milliards de paramètres pour les applications multi-agents, et l'Ultra avec 500 milliards pour les tâches vraiment complexes. Ces deux-là arriveront au premier semestre 2026 donc faudra encore être un peu patient. Nvidia a aussi sorti des bibliothèques comme NeMo Gym pour l'entraînement et NeMo RL pour le fine-tuning.

Jensen Huang, le patron de Nvidia, a aussi dit un truc intéressant lors de l'annonce : "L'innovation ouverte est le fondement du progrès de l'IA." Venant d'une boîte qui a longtemps joué la carte proprio sur ses technos, je trouve que c'est un sacré virage et des entreprises comme Accenture, Deloitte, Oracle, Palantir, ou même Cursor sont déjà en train d'intégrer Nemotron dans leurs produits.

Ce qui est cool aussi, c'est que le modèle supporte 24 langues officielles de l'UE plus une dizaine d'autres comme l'arabe, le chinois ou le japonais et côté code, il gère Python, C++, Java, Rust, Go, et même du CUDA. Bref, c'est plutôt polyvalent.

Voilà, donc si vous cherchez un modèle open source sérieux avec des données d'entraînement transparentes et une vitesse de génération qui arrache, Nemotron 3 Nano mérite clairement le coup d’œil !

Source

  •  

Fini le perroquet stochastique ? Le modèle o1 d'OpenAI comprend la structure du langage

Vous vous êtes déjà demandé si les IA comprenaient vraiment ce qu'elles racontaient, ou si elles ne faisaient que recracher des mots à partir de statistiques liées aux mots ?

Oui, comme vous, je pensais jusqu'à présent qu'on était vraiment sur un déroulé textuel purement mathématique sans réelle compréhension. Hé bien des chercheurs de UC Berkeley viennent de mettre un gros pavé dans la mare en démontrant que le modèle o1 d'OpenAI est capable d'analyser le langage comme le ferait un étudiant en linguistique. Pas juste d'utiliser le langage, hein mais vraiment de l'analyser, le décortiquer, le comprendre dans sa structure profonde.

L'étude a été menée par Gašper Beguš, prof associé de linguistique à Berkeley, avec ses collègues Maksymilian Dąbkowski et Ryan Rhodes de Rutgers University et les résultats sont publiés dans IEEE Transactions on Artificial Intelligence, donc ça a l'air d'être du sérieux .

Leur truc, c'était de tester si les modèles de langage (LLM) pouvaient faire de la métalinguistique, qui est la capacité non pas simplement d'utiliser une langue, mais aussi de réfléchir sur la langue elle-même. C'est un truc que les humains font naturellement quand ils analysent une phrase, et qu'on a pour le moment jamais observé chez l'animal.

Pour leurs expériences, l'équipe a donc balancé 120 phrases complexes dans quatre modèles différents : GPT-3.5 Turbo, GPT-4, o1 d'OpenAI, et Llama 3.1 de Meta et ils ont regardé comment chaque modèle s'en sortait pour analyser la structure des phrases et résoudre les ambiguïtés, notamment avec la récursion.

La récursion , c'est un concept que Noam Chomsky a théorisé comme étant la caractéristique définitoire du langage humain. C'est en fait la capacité d'imbriquer des phrases dans d'autres phrases, à l'infini. Genre "Le chat que le chien que Pierre a vu a mordu dort". Ouais, c'est tordu, mais c'est ça qui nous différencie aussi des autres animaux.

Et tous ces modèles ont réussi à identifier les phrases récursives, ce qui, jusque-là, n'a rien d'extraordinaire sauf que pour cartographier correctement la structure complexe des phrases, o1 a cartonné avec un score proche de 0.9 sur 1, contre une moyenne de 0.36 pour les autres. C'est un très gros écart.

Je vais vous donner un exemple concret. Avec la phrase "Unidentified flying objects may have conflicting characteristics" (les objets volants non identifiés peuvent avoir des caractéristiques contradictoires), o1 a correctement détecté la récursion. "Flying" modifie "objects", et "unidentified" modifie "flying objects". Il a même poussé le bouchon encore plus loin en proposant une extension de la phrase pour montrer qu'il avait compris le mécanisme.

Mais les chercheurs ne se sont pas arrêtés là car pour éviter que o1 ne triche en utilisant des données de son entraînement, ils ont inventé 30 mini-langues fictives avec leurs propres règles phonologiques. L'idée, c'était de voir si le modèle pouvait inférer les règles d'une langue qu'il n'a jamais vue. Et comme vous vous en doutez, o1 s'en est sorti comme un chef.

Bref, non seulement ces modèles peuvent utiliser le langage, mais certains peuvent "réfléchir" à la façon dont le langage est organisé.

Ce qui est dingue, c'est que cette étude relance le débat sur la compréhension des IA. Est-ce que ces modèles comprennent vraiment ce qu'ils font, ou est-ce qu'ils simulent très bien ? Beguš pense que cette capacité métalinguistique est "très conséquente" parce qu'elle montre que dans ces modèles, on a désormais quelque chose qu'on pensait réservé aux humains.

Attention cependant, qui dit capacité métalinguistique ne veut pas dire que l'IA est consciente ou qu'elle pense comme nous. Faut voir ça plutôt comme une capacité émergente qu'on n'a pas programmée explicitement, et qui est sacrément intéressante d'un point de vue scientifique.

Voilà, donc si comme moi, vous pensiez que ChatGPT ne faisait que du perroquet statistique, cette étude suggère visiblement que c'est un plus subtil que ça. Il faudra bien sûr plus d'études pour mieux comprendre ce phénomène mais il est maintenant clair que ces modèles récents ont des capacités qu'on croyait exclusives aux humains.

Source

  •  

Kindle balance une IA dans vos livres et les auteurs n'ont pas leur mot à dire

Amazon vient de lancer une nouvelle fonctionnalité dans son app Kindle iOS qui risque de faire grincer pas mal de dents du côté des auteurs et éditeurs. Ça s'appelle "Ask this Book" et c'est un chatbot IA intégré directement dans vos bouquins.

Le principe c'est de pouvoir poser des questions sur le livre que vous êtes en train de lire. Genre "c'est qui déjà ce personnage ?", "il s'est passé quoi dans le chapitre 3 ?" ou "c'est quoi le thème principal ?". Et l'IA vous répondra instantanément avec des réponses "sans spoilers" basées sur le contenu du livre.

Notez que les réponses de l'IA ne peuvent être ni copiées ni partagées, et seuls les acheteurs ou abonnés Kindle Unlimited y ont accès.

Bon, sur le papier, c'est plutôt pratique pour ceux qui comme moi, reprennent un bouquin après plusieurs semaines et qui ont oublié la moitié des personnages, sauf que voilà, y'a un gros problème.

Amazon a confirmé que cette fonctionnalité est activée par défaut et qu'il n'y a aucun moyen pour les auteurs ou les éditeurs de retirer leurs livres du truc. Et même si certains auteurs râlent, Amazon refuse de leur dire quoi que ce soit, aussi bien sur les conditions légales qui leur permettent de proposer ça ni au sujet des détails techniques sur comment ils empêchent les hallucinations de l'IA ou si les textes sont utilisés pour entraîner leurs modèles. Encore une fois, du grand art niveau transparence.

Du côté de l'industrie du livre, ça passe donc plutôt mal. Beaucoup de détenteurs de droits vont probablement considérer ça comme une œuvre dérivée non autorisée, voire une violation directe du copyright et ça tombe plutôt mal niveau timing, vu que récemment, plusieurs auteurs ont déjà attaqué des boîtes d'IA en justice pour avoir aspiré leurs textes sans permission.

Alors pour l'instant, la fonctionnalité n'existe que sur l'app Kindle iOS aux États-Unis mais Amazon a déjà annoncé vouloir l'étendre aux liseuses Kindle et à Android l'année prochaine et pour le monde entier.

Bref, Amazon continue de faire du Amazon... déployer d'abord, poser des questions jamais.

Source

  •  

Sim Studio - Créez vos workflows d'agents IA aussi facilement que quand vous dessinez sur Figma

Vous avez toujours voulu créer des workflows d'agents IA mais vous avez la flemme de coder tout ça à la main ? Hé bien y'a un projet open source qui va vous faire plaisir. Ça s'appelle Sim Studio et c'est une plateforme qui permet de construire des workflows d'agents IA de manière visuelle, un peu comme sur Figma.

Le principe c'est d'avoir un canvas sur lequel vous glissez-déposez des blocs : des LLMs, des outils, des connexions à des services tiers comme Slack, Gmail, Supabase ou Pinecone. Vous reliez tout ça avec des flèches et hop, vous avez votre workflow qui tourne. Pas besoin d'écrire une seule ligne de code si vous voulez pas.

Et le truc sympa c'est qu'il y a un Copilot intégré qui peut générer des nœuds, corriger les erreurs et améliorer vos flows directement à partir de langage naturel. Vous lui décrivez ce que vous voulez et il vous pond les blocs correspondants. Pratique pour les feignasses comme moi.

Côté fonctionnalités, c'est plutôt complet. Vous pouvez connecter différents modèles (des LLMs hébergés mais aussi des modèles locaux), brancher des bases de données vectorielles pour que vos agents puissent répondre à des questions basées sur vos propres documents, et contrôler finement comment chaque outil est utilisé.

Et une fois votre workflow prêt, vous avez plusieurs options pour le déployer. Soit vous le déclenchez manuellement, soit vous le transformez en API, soit vous le programmez pour qu'il tourne périodiquement. Y'a même moyen de le faire réagir à des webhooks, genre quand vous recevez un message Slack, ou de le déployer comme un chatbot standalone.

Le projet est backé par Y Combinator et ils annoncent déjà plus de 60 000 développeurs qui utilisent la plateforme. De plus, c'est SOC2 et HIPAA compliant, donc niveau sécurité c'est du sérieux pour ceux qui bossent dans des environnements exigeants.

Niveau déploiement, bien sûr, vous avez le choix. Soit vous utilisez leur version cloud sur sim.ai , soit vous self-hostez le bazar avec Docker Compose ou Kubernetes. Pour les paranos qui veulent garder le contrôle total sur leurs données, c'est possible de tout faire tourner en local avec Ollama.

Pour l'installer en local, c'est assez simple. Vous pouvez lancer directement avec npx simstudio ou passer par Docker. Niveau technos, le projet utilise Next.js, PostgreSQL avec pgvector, et ReactFlow pour l'éditeur visuel.

Bref, si vous cherchez un outil pour bricoler des workflows d'agents IA sans vous prendre la tête avec du code, c'est open source et gratuit .

Merci à Letsar pour la découverte !

  •  

GPTPets - Des animaux virtuels pour égayer vos sessions ChatGPT et Claude

Vous bossez toute la journée sur ChatGPT ou Claude et vous commencez à trouver ça un peu tristounet ? Youpi, y'a une extension Chrome qui va égayer tout ça avec des petits animaux virtuels qui se baladent sur votre interface comme quand on était en 1999.

Ça s'appelle GPTPets et c'est le genre de truc complètement inutile donc forcément indispensable comme disait Jérôme Bonaldi. Le principe c'est d'avoir un petit compagnon animé qui vit sa vie sur la barre de saisie de votre IA préférée, genre un chat qui fait la sieste, un chien qui remue la queue, un panda qui mange du bambou, une brigitte qui insulte ses paires... bref vous voyez le genre.

L'extension propose 8 animaux différents avec des petites animations bien mignonnes et ça marche pas que sur ChatGPT, non non. Claude, Gemini, Grok... tous les grands noms de l'IA générative sont supportés, donc peu importe votre dealer habituel, vous pouvez avoir votre petit compagnon.

Le truc c'est que ça reste discret. Les bestioles se posent sur la barre d'input et font leur vie sans vous gêner. C'est juste là pour mettre un peu de vie dans ces interfaces qui sont quand même assez austères de base.

Derrière ce projet, y'a Tanmay Hinge, un artiste et développeur de jeux qui s'est dit que nos sessions de prompt méritaient un peu plus de fantaisie et après des heures passées à causer avec une IA, avoir un petit chat de soutien émotionnel pixelisé qui roupille à côté du curseur, ça fait du bien.

C'est gratuit, c'est léger, et ça s'installe en deux clics depuis le Chrome Web Store . Voilà, si vous cherchez à rendre vos sessions d'IA un poil plus sympathiques, c'est par ici que ça se passe .

Merci à Lorenper pour le partage !

  •  

Un système de fichiers compressé grâce à un LLM

Vous connaissez peut-être FUSE (Filesystem in Userspace), ce truc qui permet de créer des systèmes de fichiers custom sans toucher au noyau Linux. C’est grâce à lui notamment qu’on peut monter un Google Drive, un bucket S3 ou même un dossier distant via SSH comme un simple répertoire local.

Hé bien, Rohan Gupta a poussé ce concept jusqu’à l’absurde en créant LLMfuse, un système de fichiers où toutes les opérations sont gérées par un modèle de langage fine-tuné.

Ainsi, quand vous faites un ls, un chmod ou un cat sur ce filesystem, c’est un LLM qui répond et chaque opération FUSE devient une requête au modèle. Pour parvenir à ces fins, le développeur a entraîné un Qwen3-4B sur environ 15 000 paires prompt/completion générées à partir de simulations d’opérations filesystem. Le modèle a alors appris à lire le contenu des fichiers, modifier les métadonnées, et même à représenter l’arborescence complète en XML.

Bon, dit comme ça, ça ressemble à une expérience de savant fou un peu conne… Mais y’a un truc vraiment intéressant qui découle de tout ça. En effet, l’auteur a découvert que la combinaison du codage arithmétique avec son modèle fine-tuné permettait d’atteindre des taux de compression délirants. Sur un fichier texte classique, il obtient par exemple une compression 22 fois meilleure que gzip. Et pour une arborescence de fichiers représentée en XML, c’est environ 8 fois mieux que squashfs.

Alors comment c’est possible cette magie noire ? Bah ça remonte au théorème de Shannon de 1948 sur l’entropie où plus un modèle prédit bien les données, moins il faut de bits pour les encoder. Un LLM fine-tuné sur un type de données spécifique devient alors un compresseur hyper efficace pour ces données.

L’auteur est le premier à admettre que c’est une expérimentation, donc, pas de quoi vous emballer non plus… Après si vous souhaitez l’utiliser, vous avez besoin d’un GPU, que l’intégralité du système de fichiers tienne dans la fenêtre de contexte du modèle, et ça ne marche vraiment bien que sur des données textuelles. Pour vos vidéos 4K ou votre bibliothèque de jeux Steam, on repassera… snif…

D’ailleurs, le fait que lipsum.txt (le classique Lorem Ipsum) soit surreprésenté dans les données d’entraînement des LLM aide beaucoup à gonfler les chiffres de compression mais même sur d’autres types de textes “normaux” qui ressemblent à ce qu’on trouve sur Internet, les gains restent entre 5x et 20x par rapport à gzip.

Le code source est disponible sous licence MIT, avec notamment un utilitaire CLI appelé llmencode que vous pouvez tester en local si vous avez une bonne carte graphique sous la main.

Amusez-vous bien !

Source

  •  
❌