J'avais bien mis "tesseract" et non "./tesseract"... mais mon erreur était une erreur bête dans la ligne de commande.
Par ailleurs, j'avais aussi testé sur un fichier .bmp en premier - pour voir - mais n'avais donc pu voir le résultat. Maintenant, c'est fait, et j'ai vu comme toi.
mon_user@mon_user-desktop:~$ tesseract ~/TestOCr.bmp Essaitesseract
Tesseract Open Source OCR Engine
/home/mon_user/TestOCr.bmp: Not a TIFF or MDI file, bad magic number 19778 (0x4d42).
tesseract:Error:Read of file failed:/home/sorbus/TestOCr.bmp
Signal_exit 31 ABORT. LocCode: 3 AbortCode: 3
J'ai donc scanné mon texte de test OCR au format TIFF, par Xsane, en gris, 300 dpi.
J'avais essayé d'abord avec Kooka, mais le format TIFF n'est pas proposé dans les format d'enregistrement de Kooka.
Ceci fait, j'ai lancé tesseract sur ce fichier.
Voici le résultat. Je mets juste la première police du test :
Arial 12 : Ce texte a ete ecrit pour tester differents logiciels d'OCR sous Linux. Peut-etre
aurons-nous un resultat interessant. Ou bien tout sera du pareil au meme. 1 & 2 ou 3 + 4, oa
fait 3 ou 7. C'est o dire que quelques chiffres places on ne sait ou, oe n'est pas tres facile.
Voile en gras. Cette derniere phrase est en italique : 9 e e g; 0 ! ? < > @ % , ; /
Visiblement, ce n'est pas le top. Il y a sans doute quelques réglages à faire pour les accents. A suivre...
N.B. : test fait avec la version 1.02.3 disponible sous Gutsy. La dernière version de Tesseract étant le 2.01 (août 2007)