Un truc génial aussi avec Cuneiform (et qui est visible dans mon exemple ci dessus), c'est que, quand un mot est coupé en deux avec un tiret en fin de ligne (comme le mot «travailler» dans
mon exemple), il est réassemblé dans le texte produit 🙂
Ce qui manque, je trouve, c'est une correction automatique des textes lorsque le programme hésite entre deux lettres. J'ai parfois des I à la place des l (i majuscule à la place de L minuscule) ou bien des trucs comme «retnplacer». Je suis pratiquement certain que ce genre d'erreur pourrait être évité en regardant dans des dictionnaires.
J'ai 234 pages à OCRiser… Je les avais laissées dans un coin en attendant de trouver une solution d'OCR qui fonctionne bien, et là je dois dire que je suis content, ça marche bien! Le seul truc ennuyeux, c'est que ce ne sont pas des pages scannées (mon scanner est suuuuper lent ça m'aurait pris des années) mais des pages photographiées. Du coup, j'ai souvent un effet de perspective assez ennuyeux. Ça embrouille pas mal Cuneiform, mais on peut corriger le problème assez simplement avec l'outil perspective de Gimp.
Là, j'ai déjà eu le courage de faire 14 pages 😃 (OCR avec correction préalable éventuelle avec Gimp, copier/coller dans OOo, correction d'orthographe, un peu de mise en page).