Retour à ce fil après quelques mois. Une nouveauté dans ce domaine est toujours intéressante. J'ai donc effectué quelques tests rapides.
Chez moi (L.L. 64 bits), Cuneiform fonctionne de deux façons différentes :
a/ sur le bureau, avec ce script :
#!/bin/bash
cd ~/Bureau
cuneiform fr *.jpg ;
oowriter ~/Bureau/cuneiform-out.txt ;
il donne des résultats peu satisfaisants puisqu'il ne reconnaît pas les accents. Peut-être faut-il lui donner un autre argument que "fr" ?
b/ avec Yagf, les résultats sont acceptables et s'améliorent avec le contraste du document reconnu.
Preuves : -- un de mes documents test (photo d'une page à une coloonne et sous-exposée donc très grise) n'est pas reconnu alors que Tesseract le déchiffre sans problème.
-- le même document, dont on accentue le contraste pour se rapprocher du noir et du blanc "parfaits" est mieux reconnu que s'il tend vers le gris.
c/ dans les deux cas (et avec les réserves évoquées ci-dessus) les pages à deux colonnes sont reconnues dans l'ordre, ce que ne fait pas Tesseract.
d/ j'oubliais : contrairement à Teseract, Cuneiform ne conserve pas la longueur des lignes des documents reconnus... Mais ce n'est pas forcément un inconvénient.
Conclusion : Cuneiform est à peu près équivalent à Ocropus et peut éventuellement le remplacer sous L.L. 64 bits où je n'arrive pas à le faire fonctionner.
À suivre...