Ce site est optimisé pour être consulté depuis un navigateur moderne dans lequel JavaScript est activé.

OCR avec yagf, tesseract et cuneiform - langue française non reconnue

vallo

Bonjour,
Jusqu'à maintenant, j'utilisais Simplescan pour scanner mes documents avec un vieil Epson 1240U : les deux marchent très bien ensemble.
Mes besoins ont évolué vers l'OCR et je me suis tourné vers Xsane et yagf.
Après des déboires liés au paramétrage par défaut de ces 2 logiciels - résolu par la documentation Ubuntu -
- dans yagf, il fallait décocher la caser "Recadrer les images lors de l'ouverture des fichiers"
- dans Xsane, il fallait décocher "activer la gestion de la couleur"
je n'arrive toujours pas à obtenir une reconnaissance optique correcte avec yagf que le moteur soit paramétré sur cuneiform ou sur tesseract.
Le point de blocage porte sur la langue.
Le processus est le suivant
- je scanne avec Xsane ou yagf et produit une image au format *.pnm
- je fais reconnaître cette image par tesseract en mode console par une commande du type

tesseract fic_in.pnm fic_out -l fra

et tout se passe bien. J'ai un fichier fic_out.txt avec les accents français.
- je fais reconnaître cette image par cuneiform en mode console par une commande du type

cuneiform -l fra -o fic_out.txt fic_in.pnm

et tout se passe bien. J'ai un fichier fic_out.txt avec les accents français.
Le hic en mode console, je ne sais pas limiter la reconnaissance à une partie du texte, surtout s'il est en plusieurs colonnes !

Quand je "charge l'image fic_in.pnm dans yagf, l'image est bien importée mais le lancement de la reconnaissance de caractère aboutit à ceci :
- si le moteur de reconnaissance est paramétré à cuneiform, le texte est traduit mais sans aucun accent. J'en déduit que la langue française n'est pas activée.
- si le moteur de reconnaissance est paramétré à tesseract, aucune reconnaissance ne démarre et j'ai un message d'erreur tesseract lié à la langue :
"Vous avez choisi reconnaissant Anglaise langue à l'aide tesseract OCR. Actuellement, les données pour cette langue n'est pas installé sur votre système. S'il vous plaît installer les fichiers de données de tesseract pour \"eng\" de votre référentiel système."

C'est d'autant plus surprenant
- que tesseract et cuneiform marchent bien en mode console (j'ai mes accents)
- que sont bien installés tesseract-ocr-fra et tesseract-ocr-eng
- que la langue française est bien cochée dans les Réglages de yagf

Y-a t-il un fichier de paramétrage pour yagf et si oui où est-il ?
J'ai dû zapper un truc mais à force de galérer, je n'y vois plus rien.
Merci pour votre aide

Jérome38

Personnellement sous Ubuntu 18.04 (Gnome) pour l'OCR, j'utilise gimageReader et cela marche nickel, les accents sont reconnus, on peut faire sauter les sauts à la ligne du texte obtenus.

vallo

Merci Jerome pour ta promptitude.
Je ne connaissais pas gimageReader et je viens de constater qu'il était installé sur mon système !
Je vois que c'est une interface à tesseract, donc je ne suis pas dépaysé.
Je l'ai lancé, j'ai chargé une image *.pnm que j'avais (elle est bien reconnue), j'ai réglé les paramètres de l'image (le découpage multi-colonnes est bien reconnu) , ceux de l'image aussi .....(se fait comme dans yagf) .....
Les premiers essais sont concluants (j'ai mes accents sans avoir rien paramétré d'autre que la langue française) et dans l'immédiat je vais l'utiliser.
Dès lors que ce logiciel est aussi basé sur le moteur tesseract, c'est que le paramétrage de yagf chez moi est vérolé !!!!

Je n'ai pas pu enregistrer le scan fait avec gimageReader en *.pdf ou en *.pdm. C'est normal de n'avoir droit qu'au *.png ?

Jérome38

Oui, pour faire du pdf ou d'autres formats je passe par Simplescan

JPaulT

Bonjour,
j'ai rencontré le même problème.

Je pense que yagf ne fonctionne pas avec tesseract
car, dans Tesseract ---> Accès aux données de tesseract,
on ne peut pas sélectionner le dossier :
/usr/share/tesseract-ocr/4.00/tessdata/

alors que bizarrement, on peut sélectionner les dossiers :
* /usr/share/tesseract-ocr/4.00/tessdata/configs
* ou encore : /usr/share/tesseract-ocr/4.00/

Le problème n'est pas résolu.

JPaulT

Bonjour,
J'ai réussi à faire fonctionner YAGF avec tesseract.

1. Dans les paramètres de YAGF, pour le moteur OCR Tesseract, on choisit le dossier :
/usr/share/tesseract-ocr/4.00 pour « L’accès aux données de tesseract »

2. Si le moteur de reconnaissance est paramétré à tesseract,
aucune reconnaissance ne démarre et j'ai un message d'erreur tesseract lié à la langue :
"Vous avez choisi reconnaissant Française langue à l'aide tesseract OCR. Actuellement, les données pour cette langue n'est pas installé sur votre système. S'il vous plaît installer les fichiers de données de tesseract pour \"fra\" de votre référentiel système."

3. Pour contourner cette erreur :
Initialement, dans le dossier /usr/share/tesseract-ocr/4.00/tessdata, on trouve les cinq fichiers suivants ;
deu.traineddata
eng.traineddata
fra.traineddata
osd.traineddata
pdf.ttf

Il faut les copier, en mode administrateur, dans le dossier /usr/share/tesseract-ocr/4.00.
Attention à ne pas effacer les fichiers d’origine

Le problème est alors résolu