Vue normale

Reçu hier — 28 octobre 2025

Les modèles de vision gagnent du terrain dans l’OCR 28 octobre 2025 à 15:29

Les modèles de vision gagnent du terrain dans l’OCR

28 octobre 2025 à 15:29

La plupart des documents sont conçus pour être lus par des humains. Partant, ils peuvent être analysés de façon plus approfondie par des modèles de vision que par des modèles de langage.

Le projet Colette repose sur ce postulat. Cofinancé par Airbus, le CNES et la société toulousaine Jolibrain, il a produit un logiciel open source de déploiement de LLM avec une brique de RAG visuel (tous les documents sont transformés et analysés sous forme d’images).

Colette s’appuie sur une architecture qui a ses racines à CentraleSupélec : ColPali. Présentée début 2025, elle met à profit un VLM entraîné pour indexer des documents purement à partir de leurs caractéristiques visuelles.

ColPali

ColPali se retrouve aussi, entre autres, chez Morphik. Cette start-up Y Combinator a focalisé son offre sur le RAG. Elle a amélioré les performances en exploitant la méthode MUVERA – qui permet de contourner l’approche multivectorielle de ColPali – et la base de données vectorielle Turbopuffer.

DeepSeek-OCR : la modalité image comme moyen de compression

DeepSeek étudie également cet aspect. Il y a récemment consacré un article scientifique, sous un angle particulier : la modalité vision comme moyen de compresser l’information textuelle.

Ses travaux se matérialisent avec l’architecture DeepSeek-OCR. En son centre, DeepEncoder, qui encode les documents sous forme « tokens image ». Il exploite un modèle SAM (segmentation avec attention locale par fenêtre) et un modèle CLIP (attention globale). Avec, entre les deux, un module de convolutionnel de sous-échantillonnage.

DeepEncoder compte environ 380 millions de paramètres (80 pour le SAM, 300 pour le CLIP). Il gère deux modes d’entrée. D’un côté, la résolution native (4 modes : Tiny et Small, où les images sont directement redimensionnées ; Base et Large, où on utilise du padding pour préserver le ratio d’origine). De l’autre, la résolution dynamique (combinaison de deux résolutions natives ; Gundam, par exemple, associe du 640 x 640 en attention locale et du 1024 x 1024 en attention globale).

résolutions

Le décodage est dévolu à un modèle DeepSeek MoE 3B à 570 millions de paramètres actifs (6 experts actifs sur 64 + 2 experts partagés).

On a d’abord entraîné DeepEncoder, puis DeepSeek-OCR dans son ensemble, à partir de deux jeux de données. L’un comprenant des PDF dans une centaine de langues avec éventuellement des images intégrées. L’autre axé sur des éléments spécifiques : graphes, formules chimiques, figures géométriques planes…

La perspective d’un mécanisme d’oubli graduel

DeepSeek-OCR a notamment été mis à l’épreuve sur un sous-ensemble du benchmark Fox. En l’occurrence, des documents en anglais comprenant de 600 à 1300 tokens texte. C’est de là que DeepSeek tire les principaux indicateurs de performance qu’il annonce en introduction de son article.

Avec un rapport de compression de 9-10x (1 token image pour 9 ou 10 tokens texte), le décodeur avoisine 97 % de précision OCR. Au-delà, les performances baissent (90 % à 10-12x, 60 % à 20x). DeepSeek y voit deux raisons. D’une part, le rapport entre la longueur des documents et la complexité de leur disposition. De l’autre, le fait qu’aux résolutions les plus basses (Tiny et Small), les textes longs deviennent « flous ».

Fox

Le premier élément peut être résolu par un rendu sur une page à disposition unique, estime DeepSeek. Le second peut être mis à profit pour reproduire une forme de mécanisme d’oubli : l’historique « froid » serait converti en images qui seraient ensuite progressivement compressées.

L’approche est, globalement, d’autant plus intéressante qu’elle n’occasionne pas de surcharge (les systèmes multimodaux exigent intrinsèquement un encodeur de vision).

Des diapos aux journaux, la nécessité de plusieurs modes d’encodage

En « conditions réelles » (OmniDocBench), DeepSeek retient que :

Le mode Small (100 tokens) produit de meilleurs résultats que GOT-OCR2.0 avec 2,5 fois moins de tokens.
Le mode Large (400 tokens) est au niveau des modèles OCR à l’état de l’art.
Avec moins de 800 tokens, la méthode Gundam s’en sort mieux que MinerU2.0 avec environ 7000 tokens.

OmniDocBench

Certaines catégories de documents nécessitent peu de tokens pour un résultat satisfaisant. Les diapositives, par exemple (64 tokens suffisent). Pour les livres et les rapports, 100 tokens est l’idéal. Avec les journaux (4000 à 5000 tokens), le mode Gundam, voire Gundam-master, est nécessaire.

DeepSeek annonce que son architecture est capable de générer 33 millions de pages de données par jour en utilisant 20 nœuds de 8 GPU A100-40G.

Illustration principale générée par IA

The post Les modèles de vision gagnent du terrain dans l’OCR appeared first on Silicon.fr.

Reçu avant avant-hier

MakeACopy - Le scanner de documents Android qui ne raconte pas votre vie 21 septembre 2025 à 09:28

MakeACopy - Le scanner de documents Android qui ne raconte pas votre vie

Korben

Par :Korben

21 septembre 2025 à 09:28

Hey les Androidopathes, j’ai une bonne nouvelle pour vous ! Un développeur allemand vient de sortir un scanner de documents pour Android qui fonctionne sans connexion internet.

Ça s’appelle MakeACopy et ça arrive vraiment comme une bouffée d’air frais dans cet écosystème d’app de numérisation un poil toxique. Créé par Christian Kierdorf, ce scanner open source fait exactement la même chose que les mastodontes du secteur mais en mieux. L’app utilise OpenCV pour détecter automatiquement les bords du document, Tesseract pour l’OCR (reconnaissance de texte), et peut exporter en PDF avec le texte cherchable intégré. En gros, toutes les fonctionnalités premium d’ Adobe Scan , mais gratuites et privées.

Ce qui rend donc MakeACopy différent, vous l’aurez compris, c’est son approche radicale de la vie privée. Le dev compile même OpenCV depuis les sources au lieu d’utiliser des binaires précompilés, histoire de respecter les standards F-Droid et garantir qu’aucun code malveillant ne peut se glisser dans la chaîne de compilation. Bref, Kierdorf ne fait pas ça en amateur et a même implémenté une détection des coins assistée par machine learning (c’est un modèle ONNX) pour ceux qui veulent la totale.

Dans le même genre, on a aussi OpenScan qui est une autre alternative privacy-friendly qui cartonne mais MakeACopy va plus loin avec ses fonctionnalités notamment d’OCR. L’app est disponible sur Android 10 et plus, et fonctionne même sur des téléphones d’entrée de gamme. Le développeur précise que les futures versions incluront le multi-pages, l’export du texte éditable, et plus de langues pour l’OCR, tout ça en gardant le principe du 100% offline.

Bref, MakeACopy c’est le scanner de documents qu’on aurait dû avoir depuis le début. Pas besoin de compte, pas de cloud, pas de tracking, pas de pubs… juste un soft qui fait son job.

Vous pouvez télécharger MakeACopy sur le Play Store ou F-Droid , et si vous trouvez ça bien, parlez-en autour de vous, histoire d’aider votre prochain qui se galère surement encore avec Camscanner.