FAQ :
"J'aimerai savoir s'il existe un logiciel permettant de reconnaître les caractères et permettant, en scannant un document de le récupérer dans OOo2 afin de le modifier..."
Pour la ROC, les choses se sont beaucoup améliorées depuis un an. Pour ce que tu veux faire, il me semble que la meilleure méthode actuellement est d'utiliser Xsane avec
tesseract (et donc avec l'adaptateur
xsane2tess). Tout est expliqué dans la documentation. L'installation de tesseract 2.01 est très simple (un deb existe), mais sur
le lien donné, il ne faut pas se noyer dans les explications préalables - même si elles sont intéressantes - et aller directement au paragraphe "Installation de tesseract-2.01 (Ubuntu 7.10 / Debian Etch)"
J'ai installé les choses comme indiqué dans la doc.
Ces temps-ci, je fais souvent cela : scan d'un document avec Xsane, configuré pour une sortie TXT avec reconnaissance (ocr) effectuée par tesseract.
Si le document à scanner comporte des colonnes ou des encadrés, il faut les scanner l'un après l'autre en cadrant la zone à scanner avec la fonction "acquisition de l'aperçu" dans Xsane.
Ensuite, on ouvre les documents TXT obtenus, et on les copie-colle dans une page OOo writer.
Il reste
une petite manip à effectuer pour se débarrasser des marques de paragraphe inutiles.
On peut utiliser ensuite le correcteur orthographique de OOo. Mais sur du texte imprimé en noir sur blanc, la ROC est déjà de qualité, et il ne reste plus grand chose à corriger.
Par contre, il ne faut pas espérer obtenir quelque chose à partir d'un texte manuscrit; et les résultats sont médiocres pour du texte de diverses couleurs sur un fond non uniforme.
N.B. : une alternative à xsane+tesseract existe. C'est gscan2pdf+tesseract. Mais cette alternative est moins pratique pour ce que tu veux faire : pour l'instant gscan2pdf ne permet pas une présélection de la zone à scanner, ce qui pose problème pour les textes avec mise en page (colonnes, encadrés). Par contre, pour une ROC à effectuer sur des documents déjà numérisés, c'est la seule solution si on ne dispose pas d'un scanneur (puisque Xsane ne peut se lancer s'il ne reconnaît pas un scanneur présent).