LangExtract - La nouvelle pépite de Google pour extraire des données structurées avec l'IA

16 janvier 2026 à 15:05

Il y a des combats comme cela auxquels pas grand monde ne pense et qui pourtant sont très importants. Je parle évidemment de la lutte contre le chaos du texte non structuré. Si vous avez déjà essayé d'extraire des données propres d'un tas de PDF (après OCR), de rapports ou de notes griffonnées, vous voyez de quoi je parle : c'est l'enfer ! (oui j'aime me faire du mal en tentant des regex impossibles).

Heureusement, Google a lâché début janvier 2026 une petite pépite en open source (même si c'est pas un produit "officiel") qui s'appelle LangExtract . C'est une bibliothèque Python qui utilise la puissance des LLM pour transformer vos documents textuels en données JSON bien rangées.

Exemple d'extraction sur le texte de Roméo et Juliette ( Source )

Ce qui fait que LangExtract sort du lot par rapport à d'autres outils comme Sparrow , c'est surtout son système de Source Grounding. En gros, chaque info extraite est directement liée à sa position exacte dans le texte source. Ça facilite énormément la vérification et la traçabilité puisque vous pouvez voir visuellement d'où vient la donnée grâce à un système de surlignage automatique.

Sous le capot, l'outil est optimisé pour les documents à rallonge (le fameux problème de l'aiguille dans une botte de foin). Il utilise des stratégies de découpage de texte et de passes multiples pour améliorer le rappel et s'assurer que le maximum d'infos soit capturé.

La visualisation interactive permet de valider les données en un clin d'œil ( Source )

Et cerise sur le gâteau, il permet de générer un fichier HTML interactif pour visualiser les milliers d'entités extraites dans leur contexte original. À la cool !

Côté installation, c'est hyper fastoche :

pip install langextract

Pour faire le job, vous avez le choix des armes : les modèles cloud de Google (Gemini 2.5 Flash/Pro), ceux d'OpenAI (via pip install langextract[openai]), ou carrément du local avec Ollama . Pas besoin de passer des heures à fine-tuner un modèle, il suffit de fournir quelques exemples structurés via le paramètre examples et hop, c'est parti mon kiki.

Voici à quoi ça ressemble sous le capot pour lancer une machine à extraire :

import langextract as lx

# 1. On définit les règles du jeu
prompt = "Extraire les noms de personnages et leurs émotions."

# 2. On donne un exemple (few-shot) pour guider le modèle
examples = [
 lx.data.ExampleData(
 text="ROMEO. But soft! What light...",
 extractions=[lx.data.Extraction(extraction_class="character", extraction_text="ROMEO", attributes={"emotion": "wonder"})]
 )
]

# 3. On lance l'extraction (nécessite une clé API ou Ollama)
results = lx.extract(
 text_or_documents="votre_texte_brut_ici",
 prompt_description=prompt,
 examples=examples,
 model_id="gemini-2.5-flash"
)

# 4. On sauvegarde et on génère la visualisation HTML
lx.io.save_annotated_documents(results, output_name="results.jsonl")
html_content = lx.visualize("results.jsonl")
with open("view.html", "w") as f:
 f.write(html_content)

Honnêtement, je ne sais pas si ça va remplacer les solutions industrielles de RPA , mais pour un dev qui veut structurer du texte sans se prendre la tête, c'est vraiment impressionnant. Que vous fassiez du Grist ou de l'analyse de données pure, cet outil mérite clairement que vous y jetiez un œil !

Source

Ces rats jouent à DOOM avec un casque VR

Korben

Par : Korben

16 janvier 2026 à 14:14

Vous pensiez avoir tout vu en matière de projets geeks complètement déjantés ?

Hé bien accrochez-vous à vos slips, parce que des chercheurs, menés par le neuro-ingénieur Viktor Tóth, ont réussi à faire "jouer" des rats à DOOM. Pas en appuyant sur des boutons au hasard, non non, mais avec un casque de réalité virtuelle sur mesure, une boule de déplacement sous leurs pattes, et même une gâchette pour tirer sur les démons !

Je vous jure que c'est vrai. Le projet s'appelle " Rats Play DOOM " et c'est à la croisée de la neuroscience, de la robotique et du game design. L'idée de base, c'est de prouver qu'on peut entraîner des rongeurs à interagir avec des environnements virtuels contrôlés basés sur un moteur de jeu. Et quitte à faire ça, autant le faire avec le jeu le plus iconique des années 90.

Gros plan sur le casque VR panoramique pour rongeurs ( Source )

Le setup est assez dingue. Le rat est équipé d'un casque panoramique intégrant un écran AMOLED pliable qui offre 180 degrés de champ horizontal et 80 degrés de vertical. Il est installé sur une boule sphérique qui détecte ses mouvements via des capteurs, un peu comme une trackball géante. Quand il marche, court ou tourne, ça se traduit directement en déplacements dans le jeu.

Et pour ceux qui se demandent comment un rat peut vraiment dégommer des monstres... Hé bien oui, car Viktor a même fabriqué un levier custom avec un encodeur rotatif que le rat actionne avec ses pattes pour faire feu. Donc oui, les rats tirent sur des démons avec leurs petites papattes !

Le nouveau setup modulaire V2 ( Source )

Pour motiver nos petits rongeurs gamers, y'a évidemment un système de récompense. À chaque action réussie, le système distribue 10 microlitres d'eau sucrée via un solénoïde. C'est pas grand-chose mais pour un rat, c'est le graal. Au bout de deux semaines d'entraînement environ, les rats Todd, Kojima et Gabe (oui, ils ont des noms de légendes du jeu vidéo, on adore l'humour des chercheurs) ont réussi à naviguer dans l'environnement virtuel. Et là, ils ont même appris à déclencher le mécanisme de tir.

Bon, faut être honnête, ils n'ont pas encore terminé le jeu. L'équipe explique que les rats ont vieilli avant de pouvoir passer à l'entraînement avancé. Du coup, c'est plus une preuve de concept qu'un speedrun, mais quand même, c'est impressionnant. On est loin du simple contrôle neuronal de base, là car c'est une vraie interaction avec un moteur de jeu.

Setup V1 du projet Rats Play DOOM ( Source )

Côté technique, tout tourne sur un combo Raspberry Pi pour l'acquisition des capteurs en temps réel, et un PC qui fait tourner une version modifiée de ViZDoom. Le tout communique en TCP et hop, c'est géré par un script Python central. Et comme si ça suffisait pas, le projet est entièrement open source. Vous pouvez récupérer le code, les schémas électroniques et même les fichiers 3D pour imprimer les pièces sur le repo GitHub. Donc si vous avez un rat de compagnie et beaucoup trop de temps libre...

Le projet en est à sa deuxième version. Cette V2 est plus modulaire, avec des composants imprimables en 3D et une électronique plus fiable. C'est typiquement le genre de bidouille qui me rappelle pourquoi j'aime tant farfouiller dans les projets Raspberry Pi les plus improbables ^^.

D'ailleurs, si vous êtes fan de portages improbables, vous vous souvenez peut-être de cet article sur DOOM Retro , mais là avec les rats, on est clairement passé au niveau supérieur.

Bref, on vit vraiment une époque formidable où des gens financent des projets pour apprendre à des rats à buter des démons en VR. Et j'adore l'idée !

Readeck - Le gestionnaire de lecture "read-it-later" qui va vous faire oublier Pocket

Korben

Par : Korben

16 janvier 2026 à 08:56

Vous savez comment ça se passe, on traîne sur le web, on tombe sur un article passionnant de 4 000 mots sur Korben.info, mais on n'a absolument pas le temps de le lire là, tout de suite. Alors on ouvre un onglet. Puis deux. Puis cinquante. Et à la fin de la semaine, votre navigateur ressemble à une forêt vierge de Favicons et votre RAM pleure du sang.

Pourtant, il existe des solutions comme Wallabag (ou feu-Pocket), mais si vous êtes un peu maniaque du contrôle comme moi, vous cherchez peut-être un truc plus moderne, plus léger et surtout que vous pouvez également héberger vous-même sur votre propre serveur. C'est là que Readeck entre en scène.

C'est un outil de "read-it-later", c'est-à-dire une application qui vous permet de sauvegarder du contenu web pour le consulter plus tard, une fois que vous avez la tête reposée. L'idée de Readeck, c'est donc de garder l'histoire mais de virer tout le reste : les pubs, les popups de cookies qui vous sautent au visage et les mises en page qui font mal aux yeux. On se retrouve avec un texte pur, propre, et une interface qui ne vous agresse pas.

Ce que j'ai trouvé super cool, c'est que ça ne se contente pas des articles de blog. Vous pouvez y balancer des photos, des vidéos et même des liens YouTube. Et là, petit bonus qui tue, Readeck est capable de récupérer automatiquement la transcription des vidéos quand elle est dispo. Du coup, vous pouvez lire la vidéo au lieu de l'écouter, surligner les passages importants et faire des recherches dedans comme si c'était un bête article de presse.

Niveau fonctionnalités, c'est assez complet. On peut organiser ses lectures avec des labels, marquer des favoris, et surtout utiliser une extension de navigateur pour sauvegarder un lien en un clic. Et si vous êtes plutôt lecture sur liseuse avant de dormir, sachez que vous pouvez exporter vos articles ou des collections entières au format EPUB. Hop, vous envoyez ça sur votre Kindle ou votre Kobo et c'est parti pour une lecture sans distraction.

Pour l'installation, c'est vraiment le bonheur des geeks. Le truc est distribué sous la forme d'un seul fichier binaire (un exécutable, quoi), sans aucune dépendance. Pas besoin de se taper l'installation d'une base de données complexe ou d'un serveur web usine à gaz pour commencer à jouer. Ça tourne sous Linux, macOS et Windows, et si vous préférez Docker, y'a une image officielle qui fait le job parfaitement.

Le développeur explique que ça tourne sans souci sur un vieux Raspberry Pi 2 qui traîne au fond d'un tiroir. Il faut compter environ 512 Mo de RAM pour être large, car l'outil peut consommer un peu de ressources quand il traite des grosses images dans les articles.

Et si vous n'avez pas envie de gérer votre propre serveur, l'équipe prévoit de lancer un service hébergé courant 2026. Ça permettra de soutenir le projet financièrement tout en profitant de l'outil sans mettre les mains dans le cambouis. En attendant, c'est du logiciel libre, c'est propre, et ça fait un excellent complément à un gestionnaire de bookmarks comme Linkding .

Bref, si vous cherchez une alternative solide et auto-hébergée pour nettoyer vos onglets et enfin lire tout ce que vous avez mis de côté, jetez un œil à Readeck , ça vaut vraiment le détour !

Déployer FossFLOW en local pour faire vos diagrammes d'architecture

Shaarli de Erase

16 janvier 2026 à 09:20

Ce tutoriel explique comment installer FossFLOW en local (self-hosted) pour créer des diagrammes isométriques 3D directement dans votre navigateur Web.

— Permalien

WinBoat - Une faille critique découverte dans l'outil de virtualisation

Korben

Par : Korben

16 janvier 2026 à 05:38

Si vous faites partie des curieux qui testent WinBoat (le projet open source de TibixDev pour lancer des applis Windows sous Linux via Docker), sachez qu'une vulnérabilité critique a été identifiée dans l'outil, et le scénario d'attaque est plutôt créatif.

Pour ceux qui ne connaissent pas, WinBoat est une appli Electron qui orchestre tout un petit monde (Docker / Podman, FreeRDP) pour rendre l'expérience Windows "seamless" sur votre bureau Linux. C'est ambitieux, c'est en beta, et forcément, il y a parfois des trous dans la raquette.

D'après le write-up technique publié sur hack.do , le problème venait de l'API locale exposée par WinBoat sur le port 7148. Cette API HTTP n'était pas authentifiée, ce qui est souvent le début des ennuis.

Le scénario décrit par le chercheur est le suivant : un attaquant héberge une page web malveillante et si vous visitez cette page avec votre navigateur (et sous réserve que les sécurités CORS/PNA ne bloquent pas la requête, ce qui dépend de votre config et du navigateur), elle peut envoyer des ordres à cette API locale localhost:7148.

L'API vulnérable (notamment le endpoint /update) permettrait alors de remplacer des composants internes du système invité. En gros, l'attaquant pourrait substituer le binaire guest_server légitime par une version malveillante.

Une fois que l'attaquant a compromis le conteneur Windows, il ne s'arrête pas là. Le chercheur explique que WinBoat permet au conteneur de communiquer des "entrées d'application" à l'hôte Linux. Si le conteneur compromis envoie un chemin forgé spécifiquement et que l'hôte tente de le lancer... c'est l'exécution de code arbitraire (RCE) sur votre machine Linux.

C'est un rappel assez violent que l'isolation, c'est compliqué à faire correctement, surtout quand on veut une intégration transparente entre deux systèmes.

La bonne nouvelle, c'est que le problème a été traité. La faille concernait les versions jusqu'à la v0.8.7. La version v0.9.0 introduit une authentification obligatoire pour cette API locale, avec un mot de passe aléatoire généré au lancement, ce qui coupe l'herbe sous le pied de ce type d'attaque web.

Si vous utilisez WinBoat, la mise à jour est donc plus que recommandée et si le sujet de l'isolation vous intéresse, jetez un œil à mon tuto sur l'installation de WSL 2 ou encore à cette autre faille RCE critique qui a secoué le monde Linux récemment.

Bref, prudence avec les outils en beta qui exposent des ports locaux !

Source

Vue lecture