Vue lecture

ScribeOCR - Corrigez vos erreurs d'OCR directement dans le navigateur (en local)

Y’a plein d’images et de scans en PDF sur le net ou sur votre disque dur, qui sont difficilement exploitable / indexables parce que la reconnaissance de caractères n’a pas bien fonctionné. L’OCR automatique a par exemple transformé un mot-clé en charabia et c’est illisible. Du coup, ce passage est perdu dans les limbes et impossible de le retrouver avec une simple recherche textuelle. C’est moche.

Faut dire que le problème est réel car quand on numérise des millions de livres avec un OCR à 90% de précision, ça a l’air génial, sauf que les 10% d’erreurs ne sont pas aléatoires. C’est toujours les mêmes confusions qui reviennent : “A” qui devient “H”, “C” qui devient “G”, “22” qui se transforme en “55”. Et pour les documents historiques avec des polices anciennes, c’est encore pire.

Heureusement, il existe un outil gratuit et open source qui tourne dans votre navigateur et qui va vous permettre de corriger ces milliers d’erreurs OCR sans envoyer vos docs sur les serveurs de Google, Microsoft ou je ne sais quoi d’autre. Cela s’appelle ScribeOCR et vous allez l’adorer !

Pourquoi ? Hé bien parce que c’est un éditeur d’OCR open-source qui tourne à 100% dans votre navigateur, donc aucune donnée n’est envoyée sur le net et parce qu’il est capable de corriger toutes les erreurs efficacement ! L’interface affiche le texte OCRisé par-dessus l’image source, comme ça, vous voyez immédiatement où sont les problèmes et vous corrigez tout ça en série.

Et surtout ScribeOCR génère une police custom pour chaque document. Ça vous laisse garder l’apparence originale du doc, tout en ayant un texte parfaitement indexable pour des recherches par exemple. Vous obtenez ainsi un PDF qui ressemble au document d’origine mais où chaque mot est cliquable et cherchable. Bref, c’est super pratique si vous numérisez des archives ou des vieux bouquins.

L’outil supporte plusieurs moteurs OCR dont Tesseract LSTM et Legacy et vous pouvez ajuster les paramètres de reconnaissance selon le type de document : vitesse, qualité, langue…etc. Y’a même des options avancées pour le debug et l’optimisation des polices.

L’outil permet donc de créer des PDF recherchables à partir de scans (c’est le cas classique) mais également de corriger des données OCR existantes, y compris les fichiers HOCR de Tesseract. Et pour numériser complètement des documents ou livres anciens, l’interface de correction vous aidera à faire de l’excellent travail !

Le projet est open-source (licence AGPL-3.0) , ce qui veut dire que vous pouvez l’auto-héberger si vous voulez. Ainsi, pour l’installer en local, c’est très simple :

git clone --recursive https://github.com/scribeocr/scribeocr.git
cd scribeocr
npm i
npx http-server

Mais si vous voulez juste tester, y’a une démo sur scribeocr.com . Vous uploadez votre fichier, vous choisissez votre langue et votre moteur OCR, et hop c’est parti mon kiki.

Et pour les sorties, vous avez le choix : PDF, DOCX, HTML et d’autres formats. Vous pouvez même ajuster les paramètres d’export selon vos besoins. Auto-rotation, optimisation de police, tout est configurable !

Bref, au final ScribeOCR répare ces angles morts bien relou de la numérisation massive de documents sans que vous ayez à sacrifier votre vie privée !

Et ça c’est cool !

  •  

Copier un lien pour un endroits précis dans la page - Liens de Cochise

Dans Firefox et ses dérivés on peut créer un lien vers un endroit précis d'une page grâce à la fonctionnalité text-fragment, même si ce n'est pas une ancre.

Pour cela il faut allez dans about:config et passer le paramètre dom.text_fragments.create_text_fragment.enabled à true. Après ça il suffit de sélectionner un bout de texte dans une page et de faire un clic droit Copier le lien du surlignage.


Permalien
  •  

Perfect Freehand

Je n'ai pas encore trouvé mon réglage parfait, mais j'aime beaucoup le rendu pour l'écriture et le dessin.


Liens directs
  •  

"Un accès sans précédent à des domaines qui devraient rester privés": les navigateurs IA sont une menace sérieuse pour les données personnelles

«Car pour réussir à guider l'utilisateur, ces IA doivent également analyser leur activité sur le web, dont le contenu d'une page, ce qui s'y passe, et notamment les données que l'on peut être amené à rentrer dans des formulaires comme les coordonnées bancaires et les données de santé. Plusieurs de ces IA ont ainsi montré leur capacité à déduire l'âge, le sexe, les revenus et intérêts d'un utilisateur. Seule une intelligence artificielle ne réalise pas ce profilage : Perplexity.»
(Permalink)
  •  

Which browsers still support and allow uBlock to work?

uBlock has been my favourite web browser extension for years, removing all ads including video ads in YouTube for example.

Firefox and Safari are essentially your only options if you don't want a chromium based browser. Firefox is the only one of those that supports adblocking at the level uBlock Origin operates.

For Brave, Vivaldi, Opera GX, Edge etc, to continue to support uBO, they would need to maintain a fork of Chromium that supports Manifest v2 and it's likely that Google will continue to merge anti-user privacy stuff into Chromium that makes supporting v2 untenable at some point in the future.

cf. also: Google Chrome not supporting uBlock anymore is the result of Manifest v2 support being deprecated in favor of Manifest v3

Quoting uBlock official documentation:

uBlock works best on Firefox.


Permalien
  •