Vue normale

Reçu — 19 décembre 2025

Mistral OCR 3 - L'OCR français qui lit même l'écriture de votre médecin

Par :Korben
19 décembre 2025 à 05:14

Vous avez des tonnes de vieux documents papier qui traînent dans des cartons, des factures scannées à l'arrache, des formulaires remplis à la main, des tableaux Excel imprimés puis re-scannés par quelqu'un qui n'a visiblement jamais entendu parler du concept de "bien faire son boulot" ?

Considérez que ce problème est réglé puisque Mistral AI vient de sortir OCR 3, un modèle de reconnaissance de documents qui promet de transformer tout ça en données exploitables, et pour pas cher en plus.

Le modèle est capable de déchiffrer du cursif dégueulasse, des annotations griffonnées dans les marges, voire du texte manuscrit par-dessus des formulaires imprimés. Mistral montre même une démo avec une lettre au Père Noël écrite par un gamin et l'OCR arrive à en extraire le contenu structuré. Bon, c'est cool pour les lettres au Père Noël, mais surtout ça veut dire qu'il peut gérer vos ordonnances médicales ou les notes de réunion de votre collègue qui écrit comme un cochon.

Niveau performances, Mistral annonce un taux de victoire de 74% sur leur précédent modèle OCR 2 et sur les solutions concurrentes. Et comme c'est testé sur des cas réels d'entreprises avec des mesures de précision en fuzzy-match, on n'est pas dans du benchmarks théoriques bidon. Le modèle gère les scans pourris avec compression JPEG, les documents de travers, les faibles résolutions, le bruit de fond... Bref, tout ce qui fait que l'OCR traditionnel vous sort de la bouillie.

Et ce qui est vraiment intéressant, c'est surtout la reconstruction structurelle car contrairement aux OCR classiques qui vous crachent un bloc de texte en vrac, Mistral OCR 3 reconstruit la structure du document. Les tableaux complexes avec cellules fusionnées et hiérarchies de colonnes ressortent en HTML propre avec les colspan et rowspan préservés. Vous obtenez du markdown enrichi en sortie, directement exploitable par vos systèmes sans avoir à nettoyer le bordel derrière.

Côté tarifs, c'est 2 dollars pour 1000 pages et si vous passez par l'API Batch, c'est moitié moins cher à 1 dollar les 1000 pages. Pour un modèle qui se dit plus petit que la plupart des solutions concurrentes tout en étant plus précis, c'est plutôt compétitif. Le modèle peut traiter jusqu'à 2000 pages par minute sur un seul nœud, donc même si vous avez des millions de documents à numériser, ça devrait pas prendre des plombes.

Pour l'utiliser, vous avez deux options. Soit vous passez par l'API (mistral-ocr-2512), soit vous allez sur le Document AI Playground dans Mistral AI Studio où vous pouvez glisser-déposer vos PDF et images pour tester. C'est pratique pour voir ce que ça donne avant de l'intégrer dans vos workflows.

Bref, on est en train tout doucement de passer d'OCR qui "lisent du texte" à des modèles qui comprennent la structure des documents. Et ça, ça veut dire que vos archives papier vous pouvoir enfin devenir des données JSON exploitables par vos agents IA, vos systèmes de recherche ou vos bases de connaissances.

Voilà, si vous avez des projets de numérisation d'archives ou d'automatisation de traitement de documents, ça vaut le coup d'aller tester leur playground.

Source

Reçu — 10 décembre 2025

Readur - La gestion documentaire avec OCR qui va enfin mettre de l'ordre dans votre bazar

Par :Korben
10 décembre 2025 à 10:11

Vous croulez sous les documents PDF, les images scannées et les paperasses diverses et variées qui traînent un peu partout sur votre serveur et sur votre disque dur ? Et bien y’a un projet open source qui pourrait bien vous simplifier la vie…

Ça s’appelle Readur , et c’est une plateforme de gestion documentaire plutôt moderne codé en Rust pour le backend et en TypeScript/React pour l’interface. Il combine une interface facile à prendre en main, je trouve, avec de l’OCR plutôt balèze qui va scanner tous vos documents pour en extraire le texte et le rendre cherchable.

Comme ça, vous balancez vos fichiers (PDF, images, fichiers texte, documents Office…) via un petit drag-and-drop des familles et Readur fait le reste !

Sous le capot, ça utilise Tesseract pour la reconnaissance de caractères, et gère même plusieurs langues simultanément avec détection automatique, donc pour ceux qui bossent avec des docs multilingues, c’est plutôt chouette…

Pour la recherche, ça repose sur une base PostgreSQL full-text avec plusieurs modes de recherche : simple, par phrase, fuzzy (recherche approximative), ou booléen, ce qui va vous permettre de retrouver n’importe quel bout de texte dans n’importe lequel de vos documents en quelques secondes.

Et si vous avez déjà vos fichiers stockés ailleurs, pas de stress puisque Readur peut se synchroniser avec WebDAV, des dossiers locaux ou du stockage S3. Il y a même un système de surveillance de dossiers qui détecte automatiquement les nouveaux fichiers et les intègre sans que vous ayez à lever le petit doigt. Pratique pour les feignasse comme moi.

Côté authentification, c’est du costaud avec JWT, bcrypt, et support OIDC/SSO pour ceux qui veulent l’intégrer dans leur infra existante et y’a aussi un système de rôles (Admin/User) et tout un tas d’étiquettes avec codes couleur pour organiser vos documents comme bon vous semble.

Pour l’installer, du Docker classique :

git clone https://github.com/readur/readur
cd readur
docker compose up --build -d

Et hop, l’interface est accessible sur localhost:8000. Pour le mot de passe, dans la doc, il est écrit que c’est admin / readur2024 mais c’est faux. Le mot de passe est généré en random au lancement du conteneur Docker. Faut juste regarder dans les logs de Docker et vous pourrez le changer après coup.

Niveau config minimale, comptez 2 cœurs CPU, 2 Go de RAM et 10 Go de stockage donc ça peut le faire sur un NAS ou un petit PC. Et pour de la prod sérieuse avec plein de documents, visez plutôt 4 cœurs ou plus , +4 Go de RAM et un bon SSD de minimum 50 Go.

Voilà, si vous cherchez une alternative auto-hébergeable à Paperless-ngx ou Papermerge avec une stack moderne en Rust, Readur mérite clairement le coup d’œil.

Merci à Letsar pour le partage !

Reçu — 8 décembre 2025

Koharu - Le traducteur de mangas IA qui fait tout le boulot à votre place

Par :Korben
8 décembre 2025 à 09:39

J’sais pas si vous lisez des mangas de temps en temps mais si vous êtes à jour, vous avez peut-être envie de lire la suite, mais malheureusement, souvent c’est pas encore traduit en français. Alors vous 3 solutions… soit vous patientez, soit vous apprenez le japonais… Soit, soit…

Soit vous installez Koharu, un logiciel de traduction de mangas propulsé par IA. C’est hyper bien foutu puisque ça détecte automatiquement les bulles de dialogue, ça lit le texte japonais via OCR, ça efface proprement le texte original avec de l’inpainting, ça traduit le tout avec un modèle de langage aux petits oignons et ça replaque le texte traduit dans la bubulle.

Tout ça en quelques clics, évidemment, sinon ce serait pas drôle !

Le projet est développé par mayocream et c’est du 100% Rust avec une interface Tauri. Pour ceux qui ne connaissent pas, Tauri c’est un peu l’équivalent d’Electron mais en plus léger et plus performant. Le moteur d’inférence utilisé, c’est Candle de HuggingFace, ce qui permet de faire tourner des modèles IA localement sans avoir besoin d’envoyer vos data dans le cloud.

Côté modèles, Koharu embarque plusieurs outils spécialisés. Pour la vision par ordinateur, on a comic-text-detector pour repérer les bulles (avec le petit modèle custom de mayocream ), manga-ocr pour la reconnaissance de caractères et AnimeMangaInpainting pour effacer proprement le texte original. Pour la traduction, c’est vntl-llama3-8b-v2 ou Sakura-GalTransl-7B-v3.7 qui s’y collent et c’est sans galère puisque ces modèles se téléchargent automatiquement au premier lancement.

Et Koharu supporte évidemment l’accélération GPU donc si vous avez une carte NVIDIA, vous pouvez profiter de CUDA et pour les fans d’Apple Silicon avec un M1 à M5, Metal est également supporté. Bref, ça dépote et le logiciel gère aussi la mise en page verticale pour les langues CJK (Chinois, Japonais, Coréen), ce qui est plutôt indispensable quand on traduit des mangas.

Les sources sont dispo sur Github et y’a des binaires pour Windows et macOS directement sur la page des releases. Pour les autres plateformes, faudra compiler vous-même avec Rust et Bun.

Voilà, si vous rêvez de traduire ce manga obscur qui dort au fond d’un forum japonais, Koharu va vous plaire. Et un grand merci à Lorenper pour l’info !

Reçu — 14 novembre 2025

ScribeOCR - Corrigez vos erreurs d'OCR directement dans le navigateur (en local)

Par :Korben
14 novembre 2025 à 05:23

Y’a plein d’images et de scans en PDF sur le net ou sur votre disque dur, qui sont difficilement exploitable / indexables parce que la reconnaissance de caractères n’a pas bien fonctionné. L’OCR automatique a par exemple transformé un mot-clé en charabia et c’est illisible. Du coup, ce passage est perdu dans les limbes et impossible de le retrouver avec une simple recherche textuelle. C’est moche.

Faut dire que le problème est réel car quand on numérise des millions de livres avec un OCR à 90% de précision, ça a l’air génial, sauf que les 10% d’erreurs ne sont pas aléatoires. C’est toujours les mêmes confusions qui reviennent : “A” qui devient “H”, “C” qui devient “G”, “22” qui se transforme en “55”. Et pour les documents historiques avec des polices anciennes, c’est encore pire.

Heureusement, il existe un outil gratuit et open source qui tourne dans votre navigateur et qui va vous permettre de corriger ces milliers d’erreurs OCR sans envoyer vos docs sur les serveurs de Google, Microsoft ou je ne sais quoi d’autre. Cela s’appelle ScribeOCR et vous allez l’adorer !

Pourquoi ? Hé bien parce que c’est un éditeur d’OCR open-source qui tourne à 100% dans votre navigateur, donc aucune donnée n’est envoyée sur le net et parce qu’il est capable de corriger toutes les erreurs efficacement ! L’interface affiche le texte OCRisé par-dessus l’image source, comme ça, vous voyez immédiatement où sont les problèmes et vous corrigez tout ça en série.

Et surtout ScribeOCR génère une police custom pour chaque document. Ça vous laisse garder l’apparence originale du doc, tout en ayant un texte parfaitement indexable pour des recherches par exemple. Vous obtenez ainsi un PDF qui ressemble au document d’origine mais où chaque mot est cliquable et cherchable. Bref, c’est super pratique si vous numérisez des archives ou des vieux bouquins.

L’outil supporte plusieurs moteurs OCR dont Tesseract LSTM et Legacy et vous pouvez ajuster les paramètres de reconnaissance selon le type de document : vitesse, qualité, langue…etc. Y’a même des options avancées pour le debug et l’optimisation des polices.

L’outil permet donc de créer des PDF recherchables à partir de scans (c’est le cas classique) mais également de corriger des données OCR existantes, y compris les fichiers HOCR de Tesseract. Et pour numériser complètement des documents ou livres anciens, l’interface de correction vous aidera à faire de l’excellent travail !

Le projet est open-source (licence AGPL-3.0) , ce qui veut dire que vous pouvez l’auto-héberger si vous voulez. Ainsi, pour l’installer en local, c’est très simple :

git clone --recursive https://github.com/scribeocr/scribeocr.git
cd scribeocr
npm i
npx http-server

Mais si vous voulez juste tester, y’a une démo sur scribeocr.com . Vous uploadez votre fichier, vous choisissez votre langue et votre moteur OCR, et hop c’est parti mon kiki.

Et pour les sorties, vous avez le choix : PDF, DOCX, HTML et d’autres formats. Vous pouvez même ajuster les paramètres d’export selon vos besoins. Auto-rotation, optimisation de police, tout est configurable !

Bref, au final ScribeOCR répare ces angles morts bien relou de la numérisation massive de documents sans que vous ayez à sacrifier votre vie privée !

Et ça c’est cool !

Reçu — 4 novembre 2025
Reçu — 28 octobre 2025

Les modèles de vision gagnent du terrain dans l’OCR

28 octobre 2025 à 15:29

La plupart des documents sont conçus pour être lus par des humains. Partant, ils peuvent être analysés de façon plus approfondie par des modèles de vision que par des modèles de langage.

Le projet Colette repose sur ce postulat. Cofinancé par Airbus, le CNES et la société toulousaine Jolibrain, il a produit un logiciel open source de déploiement de LLM avec une brique de RAG visuel (tous les documents sont transformés et analysés sous forme d’images).

Colette s’appuie sur une architecture qui a ses racines à CentraleSupélec : ColPali. Présentée début 2025, elle met à profit un VLM entraîné pour indexer des documents purement à partir de leurs caractéristiques visuelles.

ColPali

ColPali se retrouve aussi, entre autres, chez Morphik. Cette start-up Y Combinator a focalisé son offre sur le RAG. Elle a amélioré les performances en exploitant la méthode MUVERA – qui permet de contourner l’approche multivectorielle de ColPali – et la base de données vectorielle Turbopuffer.

DeepSeek-OCR : la modalité image comme moyen de compression

DeepSeek étudie également cet aspect. Il y a récemment consacré un article scientifique, sous un angle particulier : la modalité vision comme moyen de compresser l’information textuelle.

Ses travaux se matérialisent avec l’architecture DeepSeek-OCR. En son centre, DeepEncoder, qui encode les documents sous forme « tokens image ». Il exploite un modèle SAM (segmentation avec attention locale par fenêtre) et un modèle CLIP (attention globale). Avec, entre les deux, un module convolutionnel de sous-échantillonnage.

DeepEncoder compte environ 380 millions de paramètres (80 pour le SAM, 300 pour le CLIP). Il gère deux modes d’entrée. D’un côté, la résolution native (4 modes : Tiny et Small, où les images sont directement redimensionnées ; Base et Large, où on utilise du padding pour préserver le ratio d’origine). De l’autre, la résolution dynamique (combinaison de deux résolutions natives ; Gundam, par exemple, associe du 640 x 640 en attention locale et du 1024 x 1024 en attention globale).

résolutions

Le décodage est dévolu à un modèle DeepSeek MoE 3B à 570 millions de paramètres actifs (6 experts actifs sur 64 + 2 experts partagés).

On a d’abord entraîné DeepEncoder, puis DeepSeek-OCR dans son ensemble, à partir de deux jeux de données. L’un comprenant des PDF dans une centaine de langues avec éventuellement des images intégrées. L’autre axé sur des éléments spécifiques : graphes, formules chimiques, figures géométriques planes…

La perspective d’un mécanisme d’oubli graduel

DeepSeek-OCR a notamment été mis à l’épreuve sur un sous-ensemble du benchmark Fox. En l’occurrence, des documents en anglais comprenant de 600 à 1300 tokens texte. C’est de là que DeepSeek tire les principaux indicateurs de performance qu’il annonce en introduction de son article.

Avec un rapport de compression de 9-10x (1 token image pour 9 ou 10 tokens texte), le décodeur avoisine 97 % de précision OCR. Au-delà, les performances baissent (90 % à 10-12x, 60 % à 20x). DeepSeek y voit deux raisons. D’une part, le rapport entre la longueur des documents et la complexité de leur disposition. De l’autre, le fait qu’aux résolutions les plus basses (Tiny et Small), les textes longs deviennent « flous ».

Fox

Le premier élément peut être résolu par un rendu sur une page à disposition unique, estime DeepSeek. Le second peut être mis à profit pour reproduire une forme de mécanisme d’oubli : l’historique « froid » serait converti en images qui seraient ensuite progressivement compressées.

L’approche est, globalement, d’autant plus intéressante qu’elle n’occasionne pas de surcharge (les systèmes multimodaux exigent intrinsèquement un encodeur de vision).

Des diapos aux journaux, la nécessité de plusieurs modes d’encodage

En « conditions réelles » (OmniDocBench), DeepSeek retient que :

  • Le mode Small (100 tokens) produit de meilleurs résultats que GOT-OCR2.0 avec 2,5 fois moins de tokens.
  • Le mode Large (400 tokens) est au niveau des modèles OCR à l’état de l’art.
  • Avec moins de 800 tokens, la méthode Gundam s’en sort mieux que MinerU2.0 avec environ 7000 tokens.

OmniDocBench

Certaines catégories de documents nécessitent peu de tokens pour un résultat satisfaisant. Les diapositives, par exemple (64 tokens suffisent). Pour les livres et les rapports, 100 tokens est l’idéal. Avec les journaux (4000 à 5000 tokens), le mode Gundam, voire Gundam-master, est nécessaire.

DeepSeek annonce que son architecture est capable de générer 33 millions de pages de données par jour en utilisant 20 nœuds de 8 GPU A100-40G.

Illustration principale générée par IA

The post Les modèles de vision gagnent du terrain dans l’OCR appeared first on Silicon.fr.

❌