Au fait... plutôt que de copier l'ensemble des fichiers /tessdata dans /usr/share/tesseract-ocr/ il est préférable de créer des liens symboliques (suggestion de gldx)
Excellente remarque. Je rectifie ça (chez moi... et dans la doc francophone).
Par contre, de mon côté, je suis temporairement grillé pour l'utilisation de gscan2pdf. J'ai essayé différentes options de façon très pragmatique... pour voir ce que ça donnait... mais sans trop comprendre.
J'ai donc notamment cliqué sur "Outil --> Threshold"
Résultat : plantage complet d'Ubuntu. Tout figé. Impossible de passer en console par Ctrl+Alt+F1 et Cie... ni de redémarrer le serveur X. J'ai donc du appuyer sur le bouton "power" du PC. Redémarrage normal, mais...
--> lorsque j'ai voulu à nouveau scanner avec gscan2pdf, une machine infernale est lancée... Il scanne une fois... et relance immédiatement le balayage du scanneur... pour faire une nouvelle page... et ainsi de suite sans jamais s'arrêter... Je clique sur annuler... ça continue à scanner... je ferme la fenêtre avec les options de scan, ça continue à scanner... Pour stopper, il faut fermer gscan2pdf.
--> j'ai essayé une désinstallation complète de gscan2pdf 0.9.19 par Synaptic... puis réinstallation par Synaptic de 0.9.13 : pareil.
--> j'ai désinstallé à nouveau la version 0.9.13 et réinstallé par "wget (...)" la version 0.9.19" (entre temps, j'ai arrêté le PC... éteint le scanneur)...
Résultat : d'abord, refus de scanner et le message (connu) :
Fermeture de gscan2pdf... puis ouverture à nouveau : je lance le scan... plus de message d'erreur, mais la machine infernale est relancée.
Il y a un bug quelque part. Je remarque aussi qu'après lancement de la machine infernale, si je ferme gscan2pdf, ça stoppe le scanneur, mais ça ne le libère pas (Kooka ou Xsane ne le trouvent pas. Par contre, une fois le PC redémarré, Xsane et Kooka, eux, fonctionnent normalement. Le bug est donc du côté de gscan2pdf ou de la façon dont je l'ai installé. Il y a un problème "threshold" (bug lié à ma config matériel, ce scanneur Epson ? Peut-être... peut-être pas).
Conclusion... En attendant de trouver la solution, je reviens à ma méthode antérieure : scan au format TIFF avec Xsane, puis lancement de la ROC avec tessercat 2.01 en ligne de commande. Le résultat est le même.
J'ajoute juste deux pierres à l'édifice :
-->
une page gscan2pdf dans la documentation Ubuntu francophone, avec un lien vers cette page dans
la documentation sur tesseract.
--> une remarque à propos de
unpaper. Je ne sais pas si le traitement unpaper a pour effet de "repasser l’image au format .tif" des images .jpg, .png ou autre comme dit dans l'article de Linux on the root. Je n'ai hélas pas pu tester ça 🙁
Mais il est certain que l'objet de
unpaper est de redresser des pages, d'enlever des parasites (des marges noires par exemple)... ce qui doit avoir une grande importance avant un traitement ROC/ocr. Notamment quand on scanne des pages de bouquins (difficile d'être bien droit... et sans marges noires). Hélas, je n'ai pas pu tester non plus... mais cette piste est à creuser... en cherchant les bonnes options.
Enfin, une petite remarque : gscan2pdf ne semble pas disposer d'une option de prévisualisation permettant de sélectionner une zone à scanner (Xsane et Kooka le permettent). Pour réaliser de l'OCR, éliminer d'entrée des zones "parasites" par une sélection du texte est une excellente chose. Une idée à transmettre au développeur de gscan2pdf ?
Je n'avais fait mes tests qu'avec une feuille A4 bien calée sur la vitre du scanneur... et j'ai eu plus de mal avec gscan2pdf quand j'ai voulu essayer de scanner des pages d'un petit bouquin... alors que je le fais facilement avec Xsane... ce qui donne du coup un bien meilleur résultat de Roc avec Xsane+tesseract.
P.S. : si, je peux toujours utiliser gscan2pdf comme interface graphique de tesseract pour faire de la ROC (je pourrai donc réaliser d'autres tests avec unpaper)... mais par "Fichier --> Importer" des fichiers scannés avec Xsane. C'est simplement la relation gscan2pdf --> scanneur qui est boguée.