[Edit décembre 2012 : tesseract avec xsane2tess : cette solution fonctionne bien avec Ubuntu 12.04 LTS, comme indiqué dans le documentation Ubuntu francophone sur xsane2tess, en installant tesseract 3.02 via les dépôts, et xsane2tess avec le script indiqué dans la doc]
[Edit février 2007 : en tête du premier message de ce fil de discussion, je note son objet et deux liens utiles en complément :
- Objet : regrouper ici toutes les expériences de ROC/OCR sous Ubuntu, dans le but de définir les méthodes (logiciel + la façon de les utiliser... "savoir-faire") permettant d'obtenir les meilleurs résultats.
- Un lien sur la Documentation : la page de Pierre S. pour noter les trucs et astuces et les résultats des tests les plus utiles à tous :
http://doc.ubuntu-fr.org/ocr
- Un lien vers le blog de "The Glu" (article du Planet) :
http://theglu.tuxfamily.org/index.php/post/2007/01/10/OCR-vous-dites-Non-on-ne-fait-pas-bien
Affaire à suivre !]
Edit janvier 2008 : il y a du nouveau, et du bon :
--> voir l'article sur "Linux on the root"
--> et la page de la documentation Ubuntu francophone à propos de tesseract
--> le lien du forum Hardware, o๠d'autres sont intéressés par la roc sous Linux...
Bonjour à tous,
Je poste ce message pour essayer de regrouper dans un fil de discussion tous les trucs et astuces pour réussir des "reconnaissances de caractères" (ROC/OCR) de qualité avec Ubuntu.
J'ai repéré quelques éléments çà et là par la recherche.
J'en note quelques-uns dans des discussions plus ou moins récentes... (les 2 premiers points dans une discussion de juillet dernier) :
1°) "?", accents, UTF8 et OOo Writer
Xsane utilise gocr pour convertir l'image en texte et cela fonctionne pas trop mal. Cependant, le fichier .txt généré est en ISO8859 et lorsque je l'ouvre avec OpenOffice.org tous les caractères accentués sont remplacés par des points d'interrogation. Y a-t-il une solution soit du cà´té d'OpenOffice.org, soit du cà´té de Xsane/Gocr pour contourner le problème? Quel est le plus simple?
Réponse :
Dans Xsane, aller dans Préférences->Configuration->OCR et pour le paramètre
'Commande OCR' mettre 'gocr -f UTF8'. Tu aura les accents dans OpenWriter ...
P.S. : moi, j'ai fait ça aujourd'hui dans Xsane, mais si j'ouvre le fichier .txt avec OOo Writer... j'ai quand même des "?" à la place des accents.
2°) Xsane, niveau de résolution et caractères non reconnus
J'ai mis dans Xsane :: gocr -f UTF8 à la place de gocr
et je scanne en 600 dpi
Le résultat est déjà bien sympathique pour une page dactilographié.
il arrive encore des erreurs comme
Voici un bref extrait :
intàƒÅ¡gre -->à la place intègre
dàƒÂ©6nition-->définition
màƒÂ©decin-->médecin
possàƒÂble-->possible
A tous les coups :
àƒÂªtre-->être
Y a-t-il un moyen d'affiner ?
Message resté sans réponse pour l'instant.
Question résolution, perso, j'ai eu des résultats de meilleure qualité en 300 dpi qu'en 400 dpi avec Xsane...
Et vous ?
Et plus la résolution est grande, plus c'est long...
Quelle est la résolution idéale pour le ROC ?
3°) Comment obtenir une reconnaissance de caractère de qualité...
... intégrée à (ou très facilement ouvrable - sans trop de manip avec) OOo writer ?
ça, c'est dans un post qui a plus d'un an... :
Voilà je tourne sur une hoary 5.04,
J'ai un scanner que j'utilise avec xsane.
L'idée serait de scanner un document , puis après l'avoir scanné, pouvoir effectuer des modifications de texte à travers openoffice.
J'ai été demandé à google j'ai trouvé gocr, ocrad et clara (houba houba con celui là pas facile) je les installé j'ai essayé, ben je les trouve pas du tout concluant, ou alors je sais pas faire.
Si il y quelqu'un qui sait faire je suis preneur.
Réponse : "Kooka (j'ai pas essayé)"
Suite :
Je viens d'essayer ta solution. Cà le fait pas toujours, mais il y a une amorce.
En fait kooka est une interface graphique de ocrad doublée de l'utilisation du scanner si j'ai bien compris.
En fait, Kooka utilise au choix ocrad ou gocr, c'est une question de configuration.
Mais qui obtient de bons résultats... et comment ?
4°) Une reconnaissance de caractères "finalisée" par référence automatique à des dictionnaire ?
J'ai cette question parce que sous windows, j'utilise un logiciel OCR (celui que j'avais eu à l'achat du scanneur), que je peux configurer avec des modules de langue. J'ai scanné des textes en français, en anglais, en allemand et en hongrois... et la reconnaissance de caractères est excellente lorsque la langue correspondante a été sélectionnée avant la réalisation du scan (ou du processus de reconnaissance).
Je n'ai pas trouvé dans Xsane de mention de dictionnaire. Et dans Kooka, quand on lance la reconnaissance, dans la fenêtre qui s'ouvre "Reconnaissance Optique de Caractères - Kooka", il y a un onglet "Vérification de l'orthographe". Avec une mention "post-traitement de la ROC".
Si on active la reconnaissance de l'orthographe pour valider le résultat de la ROC, on peut sélectionner un dictionnaire (chez moi, je n'ai que "Ispell par défaut"), un encodage (j'ai choisi UTF8, mais il y a peut-être mieux... et ce n'est peut-être pas le même selon la langue traitée), et un client (J'ai Ispell International, Aspell, Hspell et Zemberek)... je ne sais pas à quoi ça correspond.
Cependant, pour l'instant, je suis obligé de désactiver la reconnaissance de l'orthographe, sinon, lors du lancement de la ROC, j'ai le message : "Impossible de démarrer la vérification de l'orthographe sur ce système, veuillez vérifier la configuration"...
5°) Kooka "enregistrer le résultat de la ROC" (en .txt) et OOe Writer : texte coupé avec de mauvais passages à la ligne...
Pas de problème de "?" pour un .txt ouvert avec OOo Writer s'il s'agit d'une reconnaissance de caractères faites par Kooka... par contre, le texte est coupé de manière intempestive avec des passages à la ligne (dans OOo).
En plus des caractères mal reconnus, il faut donc refaire de nombreuses manips pour la mise en page. Quelqu'un aurait-il un remède ?
Bon... ça fait beaucoup. J'en ai pas d'autre pour l'instant. Mais si certains ont des trucs et astuces pour faire sous Ubuntu de la ROC de qualité, adaptée aux langues, facile à traiter ensuite dans OOo...
Merci !