Ce site est optimisé pour être consulté depuis un navigateur moderne dans lequel JavaScript est activé.

Open Office, Reconnaissance de caractères, Xsane, Kooka et Cie...

red_hat

voici ce qu'il ma donner comme résultat :

ÃIIIIIZ ...... ·4.;;;2a2¤||n, ""|Ii¤..·""iu|x::::|¤¤¤- ziiii. ·¤¤|1:22::::· ·¤m:::iIIII,1|||...:||||, ::
III ..... " azëëîlu 5!;;;]|| llziiu ¤¤:;:iII uzzzu :¤2aa:· II·'·m ·1::::¤~ |r'·|r*·u |r'*|r'·u uzzzu :12
llIIIIIIlIll!EEÉiÃlllilîlllllllllïllllun u|llIIlYl|l|îTw« M
  ~ W, ~~wuM\Ãi\
H1" «· ww '‘‘‘‘‘ î“‘f!""“Hu ` 1
HMHUIIIIHW  ' · · ····· *·   Ãl  5
lmmmmmmmmlü (gt C

red_hat

svp j'ai vrément besoin de votre aide

thom83

Bonsoir,
Peut-être relire ce fil à partir du #306 (page 13), voire remonter un peu plus haut.
À partir de quoi la reconnaissance ne fonctionne-t-elle pas ? Un fichier image existant, un scan avec xsane, avec quel version d'Ubuntu ? La question posée avant-hier est un peu succinte ... et le sujet, vaste.

red_hat

bonjour sorbus
je suis sous ubuntu ,j'ai installer gscan2pdf j'importe une image .tif mais la numérisation n'est pas satisfaite,ce que je voudrais savoir est ce que vous pouvez m'orienter .
1/ le logiciel que je doit télécharger?
2/la démarche a suivre pour atiendre le resultat?
merci infiniment

Bushman02

Quelle est ta version d'Ubuntu ? Précise-le, s'il te plaît, dans un prochain post.

As-tu installé gscan2pdf et tesseract sur ta machine ? Si c'est le cas, tout devrait fonctionner.

Une solution simple à beaucoup de problèmes (en plus des pages de ce fil indiquées par thom83) : la page de la documentation d'Ubuntu. Voici le lien :
http://doc.ubuntu-fr.org/gscan2pdf

P.S. : n'oublie pas que gscan2pdf + tesseract ne fonctionnent que sur des textes ne comportant qu'une colonne...

red_hat

bonjour,
je suis sous ubunto 9 ,j'ai bien installer gscan2pdf et tesseract mais toujours ça marche pas
est ce que quelqu'un peux m'indique une autre solution
merci d'avance

Sorbus

C'est quoi "ubunto 9" ?
Tu veux dire Ubuntu Jaunty 9.04 ?
Peux-tu nous écrire un peu précisément :
- comment tu as installé gscan2pdf et tesseract (par Synaptic ? par le deb de b52 ? autrement ?). Quelles versions de gscan2pdf et de tesseract as-tu installé ?
- comment tu procèdes ensuite exactement pour essayer de faire de l'OCR ?
- sur quel type de document tu essayes de faire de la reconnaissance optique de caractères : manuscrit ? tapé à la machine ? à l'ordinateur ? couleur ? noir et blanc ? avec ou sans image dans la texte ? texte avec mise en page simple ou complexe ? Le document est-il un document image déjà numérisé, ou bien est-ce que tu pars d'un document papier que tu scannes d'abord pour pouvoir faire de l'OCR ?

Nous ne pouvons abandonner la solution gscan2pdf+tesseract sans un minimum de précisions. Ni d'ailleurs proposer une autre solution.

A propos d'autres solutions, tu peux chercher dans la doc :
http://doc.ubuntu-fr.org/ocr
regardes notamment la solution xsane+xsane2tess+tesseract...
et n'hésite pas à revenir ici si tu ne comprends pas quelque chose...
(mais essaye d'être précis ;-) )

Zenigata

Bonsoir,

Je n'ai pas tout lu dans ce fil, mais j'ai vu le nom de MyScript Notes cité. Et il est vrai que j'ai plutôt été bluffé par ce logiciel, propriétaire, malheureusement, windows uniquement, encore plus malheureusement, et pire que tout : qui ne marche pas sous wine...

Ce logiciel permet très simplement de reconnaître une écriture manuscrite attachée (pas besoin de faire du script), et ce avec un taux de réussite assez étonnant, avec bien sûr en plus une possibilité d'adaptativité pour apprendre l'écriture de l'utilisateur.

Bref, je suis à la recherche d'un logiciel d'aussi bonne facture, mais libre et qui tourne sous linux.

Sinou est-ce que d'aventure certains d'entre vous connaîtraient le format .ELI, qui est le format par défaut de sauvegarde des fichiers par le ZPEN de dane-elec ? En effet le logiciel miracle que je cherche devrait idéalement savoir lire ces fichiers...

Bonne soirée

zarer

En gros, tu veux la vache, le beurre, l'argent du beurre et le sourire de la crémière... Au fait, il y a combien de temps que tu es sous GNU/Linux ?

Zenigata

Bah oui, il y a tellement de logiciels libre qui marchent sous linux qui sont presque parfaits, que lorsqu'il y a un domaine avec un manque, ça fait bizarre.

Et je suis sous GNU/Linux depuis 4-5 ans, et je ne vois pas le rapport avec ma question.

zarer

C'est juste que je trouvais la demande un peu verte ! :rolleyes:

Zenigata

Bon en fait en donnant à wine la dll native ça marche !

Vive la reconnaissance d'écriture manuscrite (et pourtant j'écris mal) !

Bon par contre c'est proprio...

astre

Bonjour.
Moi je trouve OCRopus pas mal du tout. Je l'ai installé à partir de Synaptic (je suis sous Ubuntu Karmic Koala). Apparemment, il m'a mis tout ce qu'il faut avec.

Je me suis mis sur un fichier texte :

#!/bin/bash

export tesslanguage=fra
cd ~/Bureau
ocroscript rec-tess 0cr.png > 0cr.html

J'ai rendu ça exécutable en suivant des indications du forum que j'ai maintenant oubliées et j'ai fait un lanceur qui me lance (beh oui !) ce truc.

Maintenant, je scanne (avec mes préférences par défaut : couleur, 300dpi), j'enregistre sur le bureau sous le nom 0cr.png et je lance mon lanceur.
Sur le bureau, un fichier 0cr.html apparaît peu à peu. Quand sur l'icône l'image de la terre se transforme en texte commençant par <DOC PUB, c'est bon. J'ai mon texte reconnu. Manquent un peu les alinéas, il y a quelque "I" à la place de quelques "l", mais c'est vite corrigé sur OpenOffice.
C'est pour moi meilleur que les autres OCR.
Les paragraphes et les colonnes ne semblent pas apparaître mais ils sont logiquement reconnus et le texte est cohérent et dans l'ordre.
Bravo à ceux qui ont mis ça au point.

Bushman02

D'accord pour ce qui est des mises en page avec colonnes : OCRopus n'est pas mal du tout. En revanche, pour une page à une seule colonne, les résultats sont plus rapides avec Xsane2tess, puisque tout s'effectue en une seule opération : le texte scanné par Xsane sort sous forme reconnue au format .txt
Pour ce qui est des alinéas, il reste encore quelques travaux de mise au point à effectuer. Sorbus, qui est l'initiateur de ce fil et qui y a beaucoup travaillé, avait tenté de résoudre les problèmes au printemps dernier. J'avais essayé de l'aider... avec mes moyens (limités !). Nous n'avions pas obtenu de résultats (voir ci-dessus)

P.S. :
Si tu ajoutes à ton script la ligne :

oowriter 0cr.html

le texte reconnu s'ouvre directement dans Open Office et tu peux peaufiner sur-le-champ.

P.S.2 :
J'ai essayé de bricoler un script qui lance Xsane et démarre immédiatement la reconnaissance... mais j'ai quelques problèmes : il ne fonctionne qu'avec la zone de saisie maximale du scanner, ce qui multiplie les caractères parasites à cause des bords de l'image (dans le cas d'une revue par exemple).

Bonnes reconnaissances !

astre

Merci ! Ça marche super.
En plus tu me fais réaliser que j'ai su faire un "script" ; je suis fier de moi 😉.
Encore merci.

Sorbus

Bonjour les amis,

Je découvre avec intérêt les dernières évolutions. Je ne suis pas encore sous Karmic (problème de partition maintenant trop étroite et trop remplie pour réaliser une mise à niveau... et j'ai décidé d'attendre l'achat d'un nouveau portable prévue pour l'été prochain... Je vais donc probablement sauter l'étape Karmic).

Je n'ai donc pas pu tester l'utilisation d'Ocropus installé par les dépôts officiels. Pas le temps non plus pour l'instant de me replonger dans des séries de tests, et tant que je ne suis pas à jour, ce ne serait pas très utile... On en reparlera certainement d'ici un an, mais toute nouveauté, découverte truc et astuce sur la ROC sera la bienvenue sur ce fil.

J'ai noté aussi les messages de Zenigata concernant la reconnaissance de textes manuscrits. Il s'agit donc de "RIC" (reconnaissance intelligente de caractères). Pour l'instant avec wine et un logiciel propriétaire.

Je n'aurais pas cru que cela ait déjà atteint un niveau suffisant pour rendre service sur du texte en écriture attachée - et non répétitif - sans faire d'effort particulier pour une écriture très appliquée. Le message de Zenigata est vieux, mais à titre de curiosité, ça pourrait être intéressant pour nous de constater ce que ça donne : une image d'un texte manuscrit avec l'écriture de quelqu'un qui dit "écrire mal"... et le résultat de la RIC avec "Myscripts Notes" + Wine...

Et du coup, savoir aussi si des pistes s'ouvrent dans le domaine de la RIC avec des logiciels libres... Soyons à l'affut 😉

Zenigata

Original :

http://docs.google.com/viewer?url=http://img215.imageshack.us/img215/4315/tribo1.pdf

Après RIC :

http://docs.google.com/viewer?url=http://img716.imageshack.us/img716/5852/tribo2.pdf

Sorbus

C'est effectivement assez probant...
Merci !
Je suppose que ce résultat est obtenu après une certain temps d'apprentissage de ton écriture par le logiciel... Cela se fait assez vite ?

Zenigata

L'apprentissage se fait en recopiant 2 fois l'alphabet puis un texte d'un peu moins d'une page. Du coup, c'est plutôt rapide.

Zococo

Bonjour,

J'utilise moi même MyScript Notes depuis quelques temps. C'est vrai que la RIC fonctionne mais le résultat est très variable d'une page à l'autre. Et je n'ai pas bien compris pourquoi, ce n'est pas vraiment le résultat de la qualité de l'écriture.

En fait j'ai très rapidement abandonné la RIC pour un usage habituel, je me contente d'archiver mes notes en pdf, c'est déjà du temps gagné. Si j'ai absolument besoin de retravailler mes notes manuscrites et si j'ai de la chance, je peux utiliser le résultat de la reconnaissance mais ce n'est pas garanti.

Le point faible du logiciel c'est qu'il ne dispose pas d'une fonction d'apprentissage au fur et à mesure : une fois le profil créé après copie des 2 ou 3 pages initiales, le profil n'évolue plus.

Cela dit la seule fonction de numérisation immédiate des notes prises avec conservation de l'original papier est déjà très utile.

En ce qui me concerne j'arrivais à le faire fonctionner avec Wine et Ibex mais pas sous Jaunty, je n'ai pas encore essayé avec Karmic. En revanche la visionneuse (sans reconnaissance d'écriture) fonctionnait bien.

« Page précédente Page suivante »