Ce site est optimisé pour être consulté depuis un navigateur moderne dans lequel JavaScript est activé.

Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

Sorbus

Tests standardisés ?
Disons que c'est une forme de tests standardisés. Perso, je numérise rarement des vieux livres... mais plus souvent des documents récents... parfois aussi des articles fin XIXème ou début XXème.

Mais OK pour ajouter "les misérables" à la palette des tests standardisés : le document est volumineux, pourrais-tu préciser une ou plusieurs pages te servant pour les tests... ça permettrait de comparer. Je veux bien essayer avec Kooka ou Xsane.

Et en attendant mieux, pour les documents récents, je garde le texte que j'ai utilisé jusqu'à présent.

PS : J'ai essayé Clara, mais je n'ai rien compris...
J'ai aussi essayé de suivre ton tuto pour installer Tesseract, mais je n'ai pas réussi.

bernic

Salut

Je fais aussi partie de ceux qui souhaitent utiliser un OCR pourquoi pas Xsane... Je n'ai rien contre, je viens d'installer Edgy et ma toute nouvelle imprimante multifonctions Epson stylus DX4250.smile

Tout est bien reconnu, j'imprime, je scanne et j'essaie l'OCR en suivant la doc
http://doc.ubuntu-fr.org/ocr. résolution 300 ou 600 dpi, mode texte, gris ou noir et blanc, enregistrer... Bref, après qques essais, j'ai toujours ce message qui revient :

Code:

erreur de processus enfant : erreur d'exécution de commande OCR : gocr : Aucun fichier ou répertoire de ce type : Fermer

Que puis-je faire ? Ai-je oublié une étape ou mal configuré qque chose ?

Sorbus

Bonjour bernic,

le paquet "gocr" ne doit pas être installé chez toi :

sudo apt-get install gocr

(ou installe-le par Synaptic)

Je complète la page de la documentation sur ce point. Merci ! @+

Scoaz

Bonjour,

J'ai un "problème" dans le genre. J'essaye de travailler avec kooka/ocrad ou kooka/gocr, mais le résultat est catastrophique.

Ce que je tente de faire est assez spécial. Il s'agit de reconnaître les caractères d'un code python sous format png, récupéré à partir d'un "imprime écran" du cours sous format pdf de Gérard Swinnen...

J'ai essayé en retravaillant l'image avec Krita, je l'ai mise en niveaux de gris, puis je l'ai agrandi (après avoir testé en RVB et en taille normal ou RVB agrandi).
Le résultat est vraiment catastrophique, que des parenthèse, des underligne, etc...

Je me demandais donc si on pouvais pas obtenir quelque chose de proche d'un scan en noir et blanc à 300dpi.

Je continu mes test mais pour l'instant rien ne va.

a+

hector

Bonjour,
j'ai parcouru attentivement le wiki sur l'OCR.
Et je suis allé aussi allé de quelques tests... pas gagné!

je n'arrive pas à lancer xsane (je n'ai pas de scanner), y a t'il un moyen de s'en sortir quand même ? (ce serait ballot ...)

sinon dans le wiki, pour tesseract, il est mentionné que les images doivent être au format bmp: chez moi c'est du tiff ou mdi qu'il réclame...

pour l'instant chez moi, rien n'arrive à la cheville de finereader sous windows 🙁

avez-vous du nouveau de votre côté?

Sorbus

Bonsoir hector,

Heureux de te rencontrer sur ce fil. Pas étonnant, quand on s'intéresse aux textes, des dictionnaires à l'OCR...

Bien, non. De mon côté, rien de nouveau. Je n'ai pas effectué de nouveaux tests.

Du côté d'Ubuntu, il y a du nouveau, puisque tesseract-ocr est disponible sous Gutsy. Mais je ne l'ai pas installé ni testé, faute de temps... ça viendra un jour ;-)

Xsane, c'est vrai, je ne l'ai utilisé qu'avec un scanner branché. Effectivement, sans cela, je ne sais comment faire (je viens d'essayer sur mon portable). Je ne sais pas si on peut utiliser Xsane sans scanner.

Je ne sais pas si teolemon est toujours en ligne... Il y aurait un peu de mise à jour à faire sur le wiki... au moins pour actualiser pour Gutsy.

Pour le reste, est-ce qu'il y a du nouveau dans le domaine de la Reconnaissance optique de caractères dans le monde Linux depuis 8 mois... A part les évolutions de tesseract, je ne sais pas. Je n'ai pas effectué de nouvelle recherche à ce sujet...

Mais on peut relancer un peu ce fil... si certains ont du nouveau, ou veulent faire part de leurs expériences d'OCR sous Linux...

JP03

Quelques bonnes idées, ne serait-ce que d'utiliser Wine, car l'OCR n'est pas fameux sous Linux si j'en crois mes expériences.

Avec un scanner, on peut modifier la définition, mais pas lorsqu'on utilise une image déjà faite.

hector

Oui oui, tu me vois venir, sorbus, avec mes gros sabots. 😉
sans doute comme toi, je caresse en pensée un projet collectif du genre:
1/numérisation d'un vieux gros dico tombé dans le domaine public.
2/OCR pour mettre sous format odt (qui est du XML)
3/puis mise au format stardict (fastoche 😉 )

avec répartition du travail de bénédictin consistant à corriger les erreurs de l'OCR. Je lancerai un post tantôt, mais j'ai quelques inconnues sur la faisabilité du projet...

JP03: quel logiciel utilises-tu avec wine?

J'ai testé tesseract sous feisty: pas très probant, plutôt mieux que les autres, mais c'est à propos de celui-là que je relevai une erreur dans le wiki: il ne prend que du tiff et mdi.

JP03

Je n'ai pas encore essayé de logiciel Windows, je pense réutiliser celui qui était avec l'ordi avant que je l'ubuntuise.

Sorbus

Avec wine, j'avais essayé SimpleOCR et TextBridge Classic, mais je n'avais réussi à faire fonctionner aucun des deux.

Schbler (messages 20 et 22 de ce fil) avait réussi pour TextBridge Pro 9.

JP03

SimpleOCR n'était déjà pas un cadeau sous Windows 😐

Sorbus

A propos de tesseract. Dans le Wiki, on à ça :

Tesseract n'accepte pour le moment que des fichiers au format bmp. Après avoir converti votre fichier grâce à un logiciel ad-hoc, entrez la commande suivante:

./tesseract ~/nomdelimage.bmp nomdufichierdesortiesanslextension

J'ai installé tesseract par Synaptic, mais je n'ai pas réussi à m'en servir...

sinon dans le wiki, pour tesseract, il est mentionné que les images doivent être au format bmp: chez moi c'est du tiff ou mdi qu'il réclame...

@hector,

Comment as-tu fait pour tirer quelque chose de tesseract ?

hector

j'ai fait comme c'est écrit: quelle est ton erreur? (avec une image tiff (converti par gimp), car bmp il me faisait l'erreur susmentionnée: tiff & mdi blabla)

hector

en fait non , encore une erreur dans le wiki:

tesseract ~/nomdelimage.tiff nomdufichierdesortiesanslextension

pas de ./ avant tesseract, bien sûr (il est dans le path lorqu'il est téléchargé par synaptic)

nb: j'ai modifié le wiki.

Sorbus

J'avais bien mis "tesseract" et non "./tesseract"... mais mon erreur était une erreur bête dans la ligne de commande.

Par ailleurs, j'avais aussi testé sur un fichier .bmp en premier - pour voir - mais n'avais donc pu voir le résultat. Maintenant, c'est fait, et j'ai vu comme toi.

mon_user@mon_user-desktop:~$ tesseract ~/TestOCr.bmp Essaitesseract
Tesseract Open Source OCR Engine
/home/mon_user/TestOCr.bmp: Not a TIFF or MDI file, bad magic number 19778 (0x4d42).
tesseract:Error:Read of file failed:/home/sorbus/TestOCr.bmp
Signal_exit 31 ABORT. LocCode: 3 AbortCode: 3

J'ai donc scanné mon texte de test OCR au format TIFF, par Xsane, en gris, 300 dpi.
J'avais essayé d'abord avec Kooka, mais le format TIFF n'est pas proposé dans les format d'enregistrement de Kooka.

Ceci fait, j'ai lancé tesseract sur ce fichier.

Voici le résultat. Je mets juste la première police du test :

Arial 12 : Ce texte a ete ecrit pour tester differents logiciels d'OCR sous Linux. Peut-etre
aurons-nous un resultat interessant. Ou bien tout sera du pareil au meme. 1 & 2 ou 3 + 4, oa
fait 3 ou 7. C'est o dire que quelques chiffres places on ne sait ou, oe n'est pas tres facile.
Voile en gras. Cette derniere phrase est en italique : 9 e e g; 0 ! ? < > @ % , ; /

Visiblement, ce n'est pas le top. Il y a sans doute quelques réglages à faire pour les accents. A suivre...

N.B. : test fait avec la version 1.02.3 disponible sous Gutsy. La dernière version de Tesseract étant le 2.01 (août 2007)

hector

j'ai regardé un peu les liens donnés sur le wiki:
pour moins s'embêter avec les formats d'image, des scripts existent (qui convertissent l'image en tiff et appelllent tesseract) ==> cf ocube ici

Sinon il parait que la dernière version - 2.01 - gère les accents : à tester ....

édition: oui, d'après le "readme" des sources, on peut même choisir sa langue parmi 6:

tesseract <image.tif> <output> [-l langid]

avec

langid may be one of the codes defined in ISO 639-2, and you must download
the corresponding data files into your tessdata directory.

Cette dernière phrase est un peu mystérieuse pour moi ...

Sorbus

J'ai désinstallé la version Gutsy de tesseract, et tenté d'installer en suivant le tuto la version 2.01 disponible (fichier tar.gz) à cette adresse :
http://code.google.com/p/tesseract-ocr/

Mais je bloque à cette étape :

Mon_user@mon_user-desktop:~/Desktop/tesseract-2.01$ ./configure
checking build system type... i686-pc-linux-gnulibc1
checking host system type... i686-pc-linux-gnulibc1
checking for cl.exe... no
checking for g++... no
checking for C++ compiler default output file name... configure: error: C++ compiler cannot create executables
See `config.log' for more details.
mon_user@mon_user-desktop:~/Desktop/tesseract-2.01$

puis j'ai vu ton message.

Je m'arrête là pour l'instant. J'y reviendrai plus tard.
@+

hector

es-tu sûr d'avoir installé le paquet build-essential ? (+ libtiff4-dev)? il réclame g++, compilateur de C++ (forcément tout le programme est en C++, il en a besoin! 😉 ): sinon il est dans synaptic, mais normalement c'est une dépendance de build-essential.
chez moi le ./configure a marché
la suite toute à l'heure ...

J'ai bien trouvé le code du français (fra), donc la commande serait:

hector@LaBeteMigratrice:~/aspiro$ tesseract titi.tiff test -l fra
Unable to load unicharset file /usr/local/share/tessdata/fra.unicharset

mais apparement il faut mettre le "jeu de données" correspondant dans le répertoire ....

note: intéressant , on peut entrainer tesseract:
http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract

note2: pour le français, il faut télécharger d'autres fichiers ici: http://code.google.com/p/tesseract-ocr/downloads/list
(langue + entrainement)

note3: ça donne quelquechose en copiant les fichiers de tesseract-2.00.fra.tar.gz dans /usr/local/share/tesserdata

hector@LaBeteMigratrice:~/aspiro$ tesseract Leb-0002.tif test -l fra
Tesseract Open Source OCR Engine
Image has 24 bits per pixel and size (736,1131)
Resolution=72

et le résultat semble bien meilleur!!J'attends ton verdict pour ton fichier-test avec impatience...

Sorbus

😐
Je n'y suis pas encore.
J'avais installé libtiff4-dev et gs-common comme indiqué dans le wiki,
mais pas build-essential.

J'ai donc installé ce dernier et recommencé l'installation de tesseract.

Cette fois-ci, j'ai passé l'étape ./configure
... pour make, ça semble s'être à peu près correctement déroulé, mais j'ai cependant eu des messages "rien à faire pour all"

... j'ai quand même poursuivi, avec

sudo make install

La encore, ça semble s'être à peu près bien déroulé, mais avec cependant ces lignes :

make[2]: Rien à faire pour « install-exec-am ».
make[2]: Rien à faire pour « install-data-am ».

J'ai quand même continué avec

mon_user@mon_user-desktop:~/Desktop/tesseract-2.01$ sudo cp -r /tessdata /usr/local/bin/
cp: ne peut évaluer `/tessdata': Aucun fichier ou répertoire de ce type
mon_user@mon_user-desktop:~/Desktop/tesseract-2.01$

et là, je cale.

hector

pas de panique, tu y es presque:
pour moi cette ligne dans le wiki , je ne vois pas à quoi elle sert: tente maintenant un tesseract sur un fichier, ça devrait aller...
nb: J'ai mis à jour le wiki pour l'installation de la 2.01 ...

« Page précédente Page suivante »