Ce site est optimisé pour être consulté depuis un navigateur moderne dans lequel JavaScript est activé.

Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

cyberic

avant de le mettre (en root) dans usr/bin

c'est ça que je ne sais pas faire..

Bushman02

Pour cela, il te faut soit utiliser une ligne de commande, soit avoir installé, à partir de synaptic, une extension de nautilus qui s'appelle très exactement "nautilus-gksu". Je te conseille de l'installer. Quand c'est fait, cette extension apparaît dans le déroulant qui s'affiche au clic droit de ta souris sur un fichier ou un dossier. Elle prend la forme d'une ligne : "Ouvrir en tant qu'administrateur".
--Tu sélectionnes donc le dossier "bin" après avoir ouvert "usr" dans ton "système de fichiers",
-- tu fais un clic droit, la commande "Ouvrir en tant qu'administrtateur" apparaît,
-- tu cliques, ton mot de passe t'es demandé, tu le donnes et ça s'ouvre : tu es dans /usr/bin en tant qu'administrateur du système, c.-à-d. en root.
Tu n'as plus, alors, qu'à déposer "xsane2tess" dans "bin" (en ayant pris soin de rendre "xsane2tess" exécutable.)
Ensuite tu refermes "bin" sans rien changer d'autre, surtout : le moindre changement non contrôlé dans un fichier ou un dossier ouvert en root peut provoquer des dégâts, des plantages, etc.
Tout cela est beaucoup plus rapide à faire qu'à expliquer !
N'hésite pas à redemander des explications...

cyberic

Bonsoir Bushman02,

bon, je viens de faire ça,

/ l'installation de tesseract-ocr par synaptic (ne pas oublier d'ajouter tesseract-ocr-fra pour le français !).
une extension de nautilus qui s'appelle très exactement "nautilus-gksu".

pour Nautilus j'ai vérifié "Ouvrir en tant qu'administrateur". apparaît bien.

Pour éviter une boulette fatale, qu'entends t'on par "votre identité" ?

(sudo cp /home/votre_identité/Desktop/xsane2tess /usr/bin
ou sudo cp /home/votre_identité/Bureau/xsane2tess /usr/bin)

et ceci "déposer "xsane2tess" dans "bin" .. comment fait on?

merci

Bushman02

Pour ce qui est de ta dernière question, j'y ai répondu dans mon post précédent (les 3 lignes commençant par "--" et les deux qui suivent). Maintenant que tu as installé nautilus gksu, c'est plus facile.

Pour la dernière partie de ta demande tu choisis une ligne ou l'autre selon que, dans ton répertoire personnel (/home), tu as un sous -répertoire qui est nommé "Desktop" ou "Bureau"
Quant à "votre identité" : c'est ton identifiant, celui que tu as donné au moment où tu as installé Ubuntu.
Exemple : si, d'une part, je m'appelle Armand-Ernest Dupont et que j'aie choisi "aed" comme identifiant ; si, d'autre part, dans mon /home, j'ai un sous-répertoire "Bureau", j'aurai à modifier ainsi la deuxième ligne que tu proposes :

sudo cp /home/aed/Bureau/xsane2tess /usr/bin

cyberic

Merci pour tes explication Bushman02 🙂 ..je vais auparavant tester l'OCR en ligne.

LLouis

Bonsoir,

J'utilisais sans problème particulier XSane avec xsane2tess sous ubuntu 10.04.
Je viens d'installer sur une nouvelle machine neuve (samsung 4530) ubuntu 10.10 et là l'ocr ne fonctionne pas avec XSane (0.997).
Le fichier txt obtenu est vide. J'ai vérifié que la configuration est bien faite ("xsane2tess -l fra" pas d'espace, "L" en minuscule)

Et si j'utilise tesseract en ligne de commande après avoir scanné en TIFF,(en suivant les indication donné sur cette page http://doc.ubuntu-fr.org/tesseract-ocr), alors la reconnaissance a bien lieu et elle est correcte.

Voici le log qui manifestement signale des erreurs.

Tesseract Open Source OCR Engine
/home/ll/tmp/xsane-conversion-hpaio:_net_Officejet__Pro__L7500_zc=HP9DEB19.tif: Not a TIFF or MDI file, bad magic number 13136 (0x3350).
tesseract:Error:Read of file failed:/home/ll/tmp/xsane-conversion-hpaio:_net_Officejet__Pro__L7500_zc=HP9DEB19.tif
/usr/local/bin/xsane2tess: line 78:  2548 Erreur de segmentation  tesseract "$TIF_FILE" "$TXT_FILE" -l "$TES_LANG" 1>&2
cat: /home/ll/tmp/xsane-conversion-hpaio:_net_Officejet__Pro__L7500_zc=HP9DEB19.txt: Aucun fichier ou dossier de ce type
rm: ne peut enlever `/home/ll/tmp/xsane-conversion-hpaio:_net_Officejet__Pro__L7500_zc=HP9DEB19.txt': Aucun fichier ou dossier de ce type

Merci pour les pistes

Bushman02

Trop faible techniquement pour te donner des conseils à partir de ton log. Chez moi Xsane2tess fonctionne (Maverick 64bits) mais j'ai souvent eu des messages semblables par le passé.
Visiblement tesseract est convenablement installé puisque tu obtiens des résultats après un scan en .tiff
Visiblement tu as installé un répertoire tmp dans ton /home...
Une question qui pourra peut-être t'aider : as-tu installé imagemagick ou graphicsmagick ? Remplace le premier par le second le cas échéant (l'install de graphicsmagik entraîne la suppression d'imagemagick auquel il se substitue). Je crois avoir résolu un de mes problèmes de cette façon-là il y a quelque temps.
Désolé de ne pas pouvoir être plus précis.

LLouis

Merci pour cette piste qui de fait se révèle bonne.
Après installation de graphicksmagick, le script xsane2tess s'exécute maintenant correctement et j'obtiens le fichier txt attendu.🙂
Encore merci et bravo

Bushman02

De rien, c'était avec plaisir. Je suis content que mes erreurs puissent, une fois corrigées, servir aux autres.

ZavezPasVu

Merci à Bushman02 pour m'avoir mis sur la piste alors que j'avais le même problème que LLouis.
Je précise que j'ai du installer le paquet graphicsmagick-imagemagick-compat pour retrouver un fonctionnement correct (graphicsmagick seul ne suffit pas).

Bushman02

Tu fais bien de le signaler : je pensais que le paquet que tu cites s'installait en même temps que l'autre.
Merci !

Sorbus

Bonjour les amis,

Merci à Bushman02 de suivre le fil 😉
D'après vos indications, je viens de compléter la doc sur xsane2tess.

J'ai relu le fil depuis un an. Je vois des questions à suivre, mais je ne sais si j'en aurai le temps...
- ou en est tesseract-ocr ?
- l'intérêt du deb de b52... et un portage de ce deb pour la dernière version de tesseract-ocr...
- tester cuneiform (je n'imaginais pas qu'une piste "libre" autre que tesseract pouvait donner actuellement de bons résultats... quoi que... en juillet 2008 - c'est vieux - Leonux avait obtenu de très bons résultats avec ocrad, mais son tuto n'est plus en ligne)
- où en est la dernière version de tesseract ?
- où en est Ocropus ?

J'avoue que depuis un an, j'ai peu suivi les évolutions... mais il doit y en avoir !

rmy

Salut Sorbus, je suis le fil de loin, j'ai toujours tout lu, mais jamais eu le temps de tester… bref, pas plus d'infos de ma part pour l'instant.

Bushman02

Salut, Sorbus ! Content de te revoir passer par ce fil.
Il est toujours dans la rubrique "Mes messages" et j'essaie de répondre aux quelques questions posées, tant qu'elles ne dépassent pas mes compétences.
- Merci d'avoir mis à jour la doc d'xsane2tess.
- Le deb de B52 me semble toujours d'actualité puisqu'il permet une installation plus simple pour ceux qui le désirent.
- J'ai fait quelques essais avec Cuneiform, mais sans plus. Les résultats me semblaient moins satisfaisants que ce qu'on peut obtenir avec Tesseract ou même Ocropus.
Ces derniers fonctionnent très bien sous Crunchbang (que j'essaie depuis presque un an en parallèle avec Ubuntu). Ils figurent dans les dépôts.Tesseract s'installe avec l'anglais par défaut : je l'utilise en rajoutant le paquet -fra. Les paquets pour ces deux langues suffisent à mes besoins. Ma dernière utilisation "intensive" a consisté à saisir, avec scan + xsane2tess, 110 pages de français en corps 12. Le rendement a été très bon.
- N.B. : Tesseract-gui continue à tourner impeccablement aussi bien sous Ubuntu que sous Crunchbang.
À bientôt !

Papy Octet

bonjour,
Voilà, je suis de passage sur ce fil et je vous fait part de mes expériences d'OCR.

J'ai des documents imprimés sur plusieurs colonnes et dont je ne dois "récupérer" que certaines parties de texte.
Là, quand je compare avec ReadIris Pro ... y'a pas photo ! Et la possibilité de sélectionner des parties de document à reconnaître, de séparer textes et images, de conserver la mise en page, ... faut oublier.
Alors je travaille en 2 temps :
1. Avec XSane, je scanne les parties que je veux récupérer, chacune dans une image différente en tons de gris à 300 DPI et que j'enregistre au format tif.
2. Dans gscan2pdf 0.9.29, je charge les différentes photos et lance alors la reconnaissance avec Tesseract.

Et là, j'ai un résultat plus que correct avec très peu de fautes de reconnaissance dans les caractères mais j'essaye d'éviter les polices "folkloriques".

J'ai vainement essayé de pouvoir reconnaître les caractères avec tesseract directement au départ de XSane. J'ai essayé plusieurs tutos. Aucun ne fonctionne chez moi. J'ai renoncé à faire d'autres essais et j'applique ma méthode qui me satisfait puisque je n'ai pas des centaines de textes à reconnaître par semaine, tout au plus une dizaine de pages A4 par mois.

C'est certes un peu plus fastidieux qu'avec RedIris mais quand on veut rester libre ... il faut bien faire des concessions.

Voilà, c'était juste pour faire avancer le schlimili, schimimi, schilimblick, schmilblick.

A+

[supprimé]

Pour sorbus, niveau "nouveautés" :
Tesseract 3.00 est sorti ! Mais n'est pas encore packagé.
Il utilise une nouvelle dépendance pour traiter plus de formats d'image : leptonica.
Et utilise un nouveau système pour les langues.
J'ai envoyé un mail au créateur de tesseract-gui, peut-être qu'il mettra son programme à jour ! 🙂

Bushman02

@ Papy Octet (j'ai failli écrire Papy Mougeot)
Deux ou trois suggestions (ce ne sont que des suggestions...) susceptibles de te simplifier la vie :
-- au lieu de scanner en .tiff tu peux scanner en .jpg (toujours à 300 dpi). Il me semble que c'est un peu plus rapide.
-- ensuite, au lieu d'utiliser gscan2pdf, tu peux avoir recours au script donné en 3.5 par Sorbus dans la section de la doc "tesseract-ocr" (besoin d'un seul script pour les extensions jpg et png : il suffit de d'intervertir celles-ci le cas échéant et le script reconnaît le fichier). Le lancement est immédiat et les résultats sont aussi bons qu'avec gcsan2pdf, si on évite les polices "folkloriques" bien sûr.
-- au cas où tu aurais besoin de reconnaître un texte de deux ou plusieurs colonnes dans son ensemble, tu peux avoir aussi de bons résultats avec Ocropus.
-- pour ce qui est de la reconnaissance directe à partir du scanner, la page de la doc sur Xsane2tess et les conseils donnés par Sorbus sur cette même page permettent aussi d'aller plus vite, avec les mêmes résultats.
Cela dit simplement pour essayer de te faire gagner un peu de temps. Tu as mis au point ta méthode, elle fonctionne et nous avons tous qu'à partir des mêmes données, deux machines peuvent donner des résultats différents.
Bonnes Roc !

Papy Octet

Salut Bushman02,

Oh-là, Papy Mougeot ... c'est mon grand oncle par alliance (2m10 sans ses chaussures !) 😛
Pour un peu répondre à tes suggestions :
- Je scanne en .tif parce que j'ai remarqué une meilleure reconnaissance des caractères (surtout ceux en italique) qu'avec le fichier en jpg malgré une définition de 300 dpi. Peut-être à cause de la compression qui peut fort bien diminuer la "résolution" des gris.
- J'ai essayé les scripts dont tu fais allusion mais je n'ai pas eu les résultats escomptés : plantage de l'application, ou alors rien du tout.
- Ocropus fonctionne mais le nombre d'erreurs lors de la reconnaissance est dramatique.
- les conseils de Sorbus ? Pas encore tout lu.

Mais dès que j'aurai un peu mieux le temps ... j'irai probablement relire tout ça.
Merci pour les conseils.

kordonnier

Écriture manuscrite ?

Je me suis acheté un Irisnotes (http://www.irislink.com/c4-1626-225/IRISnotes-------The-Digital-Pen-that-types-what-you-write-.aspx?adwp=GGS-IN-Ex-FR&gclid=CL_k-7Lr2qgCFcRtfAodiC-WuQ)
Je parviens à récupérer une image de mes notes manuscrites sous Kubuntu (voir http://forum.ubuntu-fr.org/viewtopic.php?id=441297)
L'appareil est fourni avec un système d'OCR qui permet de transformer l'écriture manuscrite en *.txt.
Est-ce que quelqu'un a déjà testé quelque chose qui ferait l'équivalent sous Linux ?

Papy Octet

Tu as regardé ce post ?

« Page précédente Page suivante »