@Bushmann02
Merci pour le retour. Et si tu peux, par la suite, tiens-nous au courant de tes éventuels tests, difficultés ou découvertes...
@zarer
tar -zxvf tesseract-2.00.fra.tar.gz
cd tessdata
sudo cp * /usr/local/share/tessdata
Dans ce cas, effectivement, ça passe tout seul. Mais par conséquent tu as deux répertoires /tessdata... Il y en a un dans /usr/share, non ?
Non. Il n'y en a qu'un : /usr/local/share/tessdata
Il n'y en a pas dans /usr/share
C'est pour cette raison que je pensais que l'installation de tesseract seul ne crée pas de dossier /usr/share/tessdata... et que la création de ce dossier à cet endroit venait peut-être du paquet de b52.
il faut impérativement ajouter imagemagick dans les dépendances de gscan2pdf !
Je viens d'installer gscan2pdf puis tesseract sur mon portable qui est sous Gutsy en architecture 64 bit.
Constats :
1°) les deux s'installent sans problème en 64 bit en suivant les indications de la doc Ubuntu francophone.
2°) Imagemagick est une dépendance qui est déjà installée par défaut lors de l'installation de gscan2pdf. Il n'y a donc pas besoin de s'en soucier... ça se fait tout seul :
monuser@Portable-monuser:~$ sudo dpkg --unpack gscan2pdf_0.9.20_all.deb
[sudo] password for monuser:
Sélection du paquet gscan2pdf précédemment désélectionné.
(Lecture de la base de données... 141167 fichiers et répertoires déjà installés.)
Dépaquetage de gscan2pdf (à partir de gscan2pdf_0.9.20_all.deb) ...
monuser@Portable-monuser:~$ sudo apt-get install -f
Lecture des listes de paquets... Fait
Construction de l'arbre des dépendances
Lecture des informations d'état... Fait
Correction des dépendances... Fait
Les paquets supplémentaires suivants seront installés :
imagemagick libcompress-raw-zlib-perl libcompress-zlib-perl
libconfig-general-perl libgtk2-ex-simple-list-perl libio-compress-base-perl
libio-compress-zlib-perl libpdf-api2-perl libtiff-tools perlmagick
sane-utils
Paquets suggérés :
html2ps libtiff-opengl unpaper
Ceci dit, il était très intéressant de comprendre pourquoi gscan2pdf est potentiellement capable de traiter des fichiers png ou jpg avec tesseract... alors que tesseract ne le peut pas !
3°) un démarrage de gscan2pdf avant d'avoir installé tesseract et gocr produit ce message :

On comprends donc qu'il faut installer au moins un moteur ROC (tesseract ou gocr), ainsi que les paquets unpaper, djvulibre-bin... et le frontend scanadf.
Je ne vois pas de paquet nommé scanadf dans les dépà´ts Gutsy... mais je pense que scanadf est inclus dans sane (?).
4°) La capture d'image ci-dessus étant en pdf
[Edit : je rectifie, pas en pdf, mais en PNG], j'ai essayé un traitement ocr dessus, d'abord avec gocr, ensuite avec tesseract...
gocr :
_
_ i__:-_rl:I__ rl : ll rrl_- rl_l_-_ _-__ p_- c_!__- _-__ _
Le frontend scanadf n'est pas d_spon_ble
L'enreg_strement au format Dj_ requ_ert djvuI_bre-b_n
I'out_I unpaper est manquant
La reconna_ssance opt_que de caractjres njcess_te gocr ou tesseract
0 ,N, , , , ,e, , , , , ,p, , , ,a, , , ,s, , , , , ,r, ,e, = ,a, , , ,ff, , , , _, ,c, , ,h, , , ,e, , , , r, , , , ,c, , ,e, , , , , ,m, , , , , , ,e, , , ,s, , ,s, , , ,a, , , ,g, , , ,e, , , ,
_aI_der
tesseract :
PEEàƒ?àƒàƒ**à‰àˆà‰à®à‰à®â€˜**‘*à®Iil1F11à®F!1à®à®1!**F11il1MIà®à®**àˆà‰à‰à‰à‰à‰"à®111il11!1111I"""à‰à‰à‰à‰!‘à®llà¯à¯à«à®à¯à®à®à®à®à®m
'= ?â€
llliillllill !'à‰'t·:', eà«à«à«à«a 7 7 u=Â¥à«Â·, ià«à«à«à«n sà«à«à«i 7 7 Jtà® &à«à«à«à«Â·j!à®'!à® E 121
gocr après traitment unpaper :
_
_ i__:-_rl:I__ rl : ll rrl_- rl_l_-_ _-__ x_- ci__- _-__ _
Le frontend scanadf n'est pas dIsponIble
L'enregIstrement au format Dj_ requIe_ d)vulIbre bIn
I'outII unpaper est manquant
La reconnaIssance optIque de caracteres necessIte gocr ou tesseract
0 .Ne pas reaffIcher ce message,
_v_alIder
tesseract après traitement unpaper :
www «««uw««««mm ««««m«««\«««««««l«««
pa Frcurwtarwcl scarwaclf r1's
|_'ar1rag¤strar*r·1ar1t an.; Fc.:
I'c.¤¤...¤t¤I ¤...¤r1p¤ap¤ar est r*r·1ar1
ITà®I!'InI l'*·~·Ia pas rÅ“aFF¤c|·1ar cs
Sur cet exemple, tesseract via gscan2pdf sur une image PNG, c'est pas encore ça...