Vue lecture

Readur - La gestion documentaire avec OCR qui va enfin mettre de l'ordre dans votre bazar

Vous croulez sous les documents PDF, les images scannées et les paperasses diverses et variées qui traînent un peu partout sur votre serveur et sur votre disque dur ? Et bien y’a un projet open source qui pourrait bien vous simplifier la vie…

Ça s’appelle Readur , et c’est une plateforme de gestion documentaire plutôt moderne codé en Rust pour le backend et en TypeScript/React pour l’interface. Il combine une interface facile à prendre en main, je trouve, avec de l’OCR plutôt balèze qui va scanner tous vos documents pour en extraire le texte et le rendre cherchable.

Comme ça, vous balancez vos fichiers (PDF, images, fichiers texte, documents Office…) via un petit drag-and-drop des familles et Readur fait le reste !

Sous le capot, ça utilise Tesseract pour la reconnaissance de caractères, et gère même plusieurs langues simultanément avec détection automatique, donc pour ceux qui bossent avec des docs multilingues, c’est plutôt chouette…

Pour la recherche, ça repose sur une base PostgreSQL full-text avec plusieurs modes de recherche : simple, par phrase, fuzzy (recherche approximative), ou booléen, ce qui va vous permettre de retrouver n’importe quel bout de texte dans n’importe lequel de vos documents en quelques secondes.

Et si vous avez déjà vos fichiers stockés ailleurs, pas de stress puisque Readur peut se synchroniser avec WebDAV, des dossiers locaux ou du stockage S3. Il y a même un système de surveillance de dossiers qui détecte automatiquement les nouveaux fichiers et les intègre sans que vous ayez à lever le petit doigt. Pratique pour les feignasse comme moi.

Côté authentification, c’est du costaud avec JWT, bcrypt, et support OIDC/SSO pour ceux qui veulent l’intégrer dans leur infra existante et y’a aussi un système de rôles (Admin/User) et tout un tas d’étiquettes avec codes couleur pour organiser vos documents comme bon vous semble.

Pour l’installer, du Docker classique :

git clone https://github.com/readur/readur
cd readur
docker compose up --build -d

Et hop, l’interface est accessible sur localhost:8000. Pour le mot de passe, dans la doc, il est écrit que c’est admin / readur2024 mais c’est faux. Le mot de passe est généré en random au lancement du conteneur Docker. Faut juste regarder dans les logs de Docker et vous pourrez le changer après coup.

Niveau config minimale, comptez 2 cœurs CPU, 2 Go de RAM et 10 Go de stockage donc ça peut le faire sur un NAS ou un petit PC. Et pour de la prod sérieuse avec plein de documents, visez plutôt 4 cœurs ou plus , +4 Go de RAM et un bon SSD de minimum 50 Go.

Voilà, si vous cherchez une alternative auto-hébergeable à Paperless-ngx ou Papermerge avec une stack moderne en Rust, Readur mérite clairement le coup d’œil.

Merci à Letsar pour le partage !

  •  

ScribeOCR - Corrigez vos erreurs d'OCR directement dans le navigateur (en local)

Y’a plein d’images et de scans en PDF sur le net ou sur votre disque dur, qui sont difficilement exploitable / indexables parce que la reconnaissance de caractères n’a pas bien fonctionné. L’OCR automatique a par exemple transformé un mot-clé en charabia et c’est illisible. Du coup, ce passage est perdu dans les limbes et impossible de le retrouver avec une simple recherche textuelle. C’est moche.

Faut dire que le problème est réel car quand on numérise des millions de livres avec un OCR à 90% de précision, ça a l’air génial, sauf que les 10% d’erreurs ne sont pas aléatoires. C’est toujours les mêmes confusions qui reviennent : “A” qui devient “H”, “C” qui devient “G”, “22” qui se transforme en “55”. Et pour les documents historiques avec des polices anciennes, c’est encore pire.

Heureusement, il existe un outil gratuit et open source qui tourne dans votre navigateur et qui va vous permettre de corriger ces milliers d’erreurs OCR sans envoyer vos docs sur les serveurs de Google, Microsoft ou je ne sais quoi d’autre. Cela s’appelle ScribeOCR et vous allez l’adorer !

Pourquoi ? Hé bien parce que c’est un éditeur d’OCR open-source qui tourne à 100% dans votre navigateur, donc aucune donnée n’est envoyée sur le net et parce qu’il est capable de corriger toutes les erreurs efficacement ! L’interface affiche le texte OCRisé par-dessus l’image source, comme ça, vous voyez immédiatement où sont les problèmes et vous corrigez tout ça en série.

Et surtout ScribeOCR génère une police custom pour chaque document. Ça vous laisse garder l’apparence originale du doc, tout en ayant un texte parfaitement indexable pour des recherches par exemple. Vous obtenez ainsi un PDF qui ressemble au document d’origine mais où chaque mot est cliquable et cherchable. Bref, c’est super pratique si vous numérisez des archives ou des vieux bouquins.

L’outil supporte plusieurs moteurs OCR dont Tesseract LSTM et Legacy et vous pouvez ajuster les paramètres de reconnaissance selon le type de document : vitesse, qualité, langue…etc. Y’a même des options avancées pour le debug et l’optimisation des polices.

L’outil permet donc de créer des PDF recherchables à partir de scans (c’est le cas classique) mais également de corriger des données OCR existantes, y compris les fichiers HOCR de Tesseract. Et pour numériser complètement des documents ou livres anciens, l’interface de correction vous aidera à faire de l’excellent travail !

Le projet est open-source (licence AGPL-3.0) , ce qui veut dire que vous pouvez l’auto-héberger si vous voulez. Ainsi, pour l’installer en local, c’est très simple :

git clone --recursive https://github.com/scribeocr/scribeocr.git
cd scribeocr
npm i
npx http-server

Mais si vous voulez juste tester, y’a une démo sur scribeocr.com . Vous uploadez votre fichier, vous choisissez votre langue et votre moteur OCR, et hop c’est parti mon kiki.

Et pour les sorties, vous avez le choix : PDF, DOCX, HTML et d’autres formats. Vous pouvez même ajuster les paramètres d’export selon vos besoins. Auto-rotation, optimisation de police, tout est configurable !

Bref, au final ScribeOCR répare ces angles morts bien relou de la numérisation massive de documents sans que vous ayez à sacrifier votre vie privée !

Et ça c’est cool !

  •  
❌