A propos des commandes/scripts :
1/ L'emplacement du fichier des scripts n'est pas le même dans la version 0.2 installée par les paquets "deb" que dans la version compilée (selon la méthode indiquée dans la doc Ubuntu).
- dans le premier cas :
/usr/share/ocropus/scripts
(de même que dans ce cas, les fichiers de langue sont dans /usr/share/tesseract-ocr/tessdata)
- dans le second cas :
/usr/
local/share/ocropus/scripts
(de même que dans ce cas, les fichiers de langue sont dans /usr/
local/share/tessdata)
2/ le contenu du répertoire "scripts" diffère.
- 17 dans le premier cas :
align, align-line,
align-tesseract,
align-transcription,
build-ngram-model,
degrade,
eval-bpnet-on-words,
hocr-to-text,
line-clean,
rec-bpnet,
rec-ltess,
rec-minimal, rec-tess,
sauvola,
segment-line,
text-to-hocr,
train-bpnet-isolated (pas de "recognize").
- 34 dans le second cas :
align, align-lines-wordwise,
align-tesseract,
align-transcription,
build-ngram-model, check-train-valid-bpnet-feature,
degrade, deskew, editdist, erod3,
eval-bpnet-on-words, eval-editdist-layout, eval-on-word-list, extract-lines,
hocr-to-text,
line-clean, matra-clipping,
rec-bpnet, rec-bpnet-isolated, rec-guided, rec-line,
rec-ltess,
rec-minimal, recognize, rec-tess-complete, reflow,
sauvola,
segment-line, show, showseg, strict,
text-to-hocr,
train-bpnet-isolated,
train-bpnet-lines. (pas de "rec-tess")
3/ quelques liens utiles :
-
la page commandes du site officiel (qui en reste à la version alpha)
-
une autre page présentant brièvement ces scripts/commande... correspondant semble-t-il à peu près à la version 0.2.
-
la page sur "recognize" et ses options (à noter une autre façon d'indiquer la langue... à tester).