Bonjour,
Jusqu'à maintenant, j'utilisais Simplescan pour scanner mes documents avec un vieil Epson 1240U : les deux marchent très bien ensemble.
Mes besoins ont évolué vers l'OCR et je me suis tourné vers Xsane et yagf.
Après des déboires liés au paramétrage par défaut de ces 2 logiciels - résolu par la documentation Ubuntu -
- dans yagf, il fallait décocher la caser "Recadrer les images lors de l'ouverture des fichiers"
- dans Xsane, il fallait décocher "activer la gestion de la couleur"
je n'arrive toujours pas à obtenir une reconnaissance optique correcte avec yagf que le moteur soit paramétré sur cuneiform ou sur tesseract.
Le point de blocage porte sur la langue.
Le processus est le suivant
- je scanne avec Xsane ou yagf et produit une image au format *.pnm
- je fais reconnaître cette image par tesseract en mode console par une commande du type
tesseract fic_in.pnm fic_out -l fra
et tout se passe bien. J'ai un fichier fic_out.txt avec les accents français.
- je fais reconnaître cette image par cuneiform en mode console par une commande du type
cuneiform -l fra -o fic_out.txt fic_in.pnm
et tout se passe bien. J'ai un fichier fic_out.txt avec les accents français.
Le hic en mode console, je ne sais pas limiter la reconnaissance à une partie du texte, surtout s'il est en plusieurs colonnes !
Quand je "charge l'image fic_in.pnm dans yagf, l'image est bien importée mais le lancement de la reconnaissance de caractère aboutit à ceci :
- si le moteur de reconnaissance est paramétré à cuneiform, le texte est traduit mais sans aucun accent. J'en déduit que la langue française n'est pas activée.
- si le moteur de reconnaissance est paramétré à tesseract, aucune reconnaissance ne démarre et j'ai un message d'erreur tesseract lié à la langue :
"Vous avez choisi reconnaissant Anglaise langue à l'aide tesseract OCR. Actuellement, les données pour cette langue n'est pas installé sur votre système. S'il vous plaît installer les fichiers de données de tesseract pour \"eng\" de votre référentiel système."
C'est d'autant plus surprenant
- que tesseract et cuneiform marchent bien en mode console (j'ai mes accents)
- que sont bien installés tesseract-ocr-fra et tesseract-ocr-eng
- que la langue française est bien cochée dans les Réglages de yagf
Y-a t-il un fichier de paramétrage pour yagf et si oui où est-il ?
J'ai dû zapper un truc mais à force de galérer, je n'y vois plus rien.
Merci pour votre aide