@hector
Occupé à installer correctement tesseract, je n'ai pas encore eu le temps de regarder tous les "tuyaux" mentionnés dans tes messages.
1°) les scripts de conversion en tiff
pour moins s'embêter avec les formats d'image, des scripts existent (qui convertissent l'image en tiff et appelllent tesseract) ==> cf ocube ici
En fait, tout dépend de quoi on part pour réaliser la ROC :
- soit on part d'un document papier à numériser. Dans ce cas, il est simple d'utiliser XSane, et d'enregistrer au format tiff le document numérisé.
- soit on part d'un document déjà numérisé, qu'il faut convertir en tiff avant de pouvoir utiliser tesseract. Là, ocube pourrait servir... mais je n'ai pas repéré si ce script est adapté à la version 2.01 de tesseract...
2°) "l'apprentissage" et les boxtiff
Le premier lien semble donner des informations générales sur tesseract, très intéressantes par ailleurs (et beaucoup plus complètes que ce que fournit actuellement un "man tesseract")... puis une méthode précise pour effectuer cet "entrainement".
Dans le second lien, je suppose qu'il s'agit de télécharger et d'installer maintenant le fichier
"boxtiff-2.01.fra.tar.gz Source training data for French"
puisque nous avons déjà effectué l'installation de
"tesseract-2.00.fra.tar.gz French language data for Tesseract (2.00 and up)"
(il n'y a pas d'autre fichier "fra").
Mais étant toujours handicapé par l'anglais, je ne pige pas parfaitement en quoi consiste cet "entrainement" de tesseract, comment il fonctionne et ce qu'il pourrait permettre... ni le mode d'emploi...
Si tu avais le temps de compléter encore un peu le wiki, ce serait parfait 😛
3°) Des scripts pour faciliter l'utilisation de tesseract en graphique.
Ceci n'est pas dans tes messages, mais dans la documentation francophone d'Ubuntu, sous la "plume" de teolemon
http://doc.ubuntu-fr.org/ocr#tesseract
n'accepte pas beaucoup de formats images (il existe un script de conversion, voir plus bas);
pas d'interface graphique officielle pour le moment (il en existe cependant, voir plus bas);
Quand on regarde "plus bas" dans le wiki, on ne voit pas grand chose sur le sujet. Pour le script de conversion, teolemon voulait sans doute parler de ocube. Pour l'interface graphique, qui "existe cependant", je ne sais pas. Si on pouvait dénicher ça, ou "fabriquer" un petit outil simple, ce serait bien.