Hello,
comme je prépare un cours, voici de quoi partager ma petite expérience de tesseract et une mise en page simple (mais pas tout à fait basique) avec LaTeX.
Voici le texte scanné en choisissant le mode texte :
--- en jpg
http://reparercharnierepc.free.fr/ubuntu_latex/image_scannee.jpg
--- converti en tif avec Gimp (c'est plus lourd : 3Mo):
http://reparercharnierepc.free.fr/ubuntu_latex/image_scannee.tif
--- le fichier text en résultat avec tesseract et la commande suivante : "tesseract fichier.tif resultat -lwt fra"
N'oubliez pas de paramétrer Firefox avec affichage>encodage des caractères>unicode utf8. Sinon, tous les caractères accentués sont remplacés par de la bouillie illisible!
Ici :
http://reparercharnierepc.free.fr/ubuntu_latex/resultat.txt
--- Après formatage avec gedit tout simplement, regardez à quoi ressemble le fichier latex. Il s'agit d'un simple fichier texte avec l'extension
.tex (en utf-8 chez moi, ce qui est indiqué dans le document en outre). Pour les balises de mise en page, gedit propose dans affichage>mode de coloration>balisage>latex des couleurs pour les commandes, ce qui rend le tout plus lisible si besoin lors de la frappe et de la relecture.
Ne pas prendre peur : une fois que l'on a son canevas de document, on commente et décommente en fonction des besoins, et on ne change plus que le corps du texte et le contenu des titres, en-têtes etc.
ici :
http://reparercharnierepc.free.fr/ubuntu_latex/jacquard_pour_forum.tex
Ouvez-le à l'aide de gedit.
--- passage à la moulinette du logiciel kile et sortie d'un dvi :
http://reparercharnierepc.free.fr/ubuntu_latex/jacquard_pour_forum.dvi
--- ou d'un pdf :
http://reparercharnierepc.free.fr/ubuntu_latex/jacquard_pour_forum.pdf
Donc, pour répéter mon post précédent :
--- Avec LaTeX, pas de problème de mise en page avec les fins de ligne : une fin de ligne=1espace donc cela va au mot suivant tout simplement.
---Tesseract donne à mes yeux d'excellents résultats : regardez, il n'y a quasiment aucune erreur :
* les lettres parasites sont les numéros de lignes si petits qu'ils sont mal reconnus et dont on n'a que faire et l'appel de note de bas de page après "Galilée". À effacer!
* les tirets de césure sont à effacer
* le tiret dans "nous-mêmes" avant-dernier paragraphe est faux (tesseract a fait un demi-cadratin or il faut un tiret simple)
* espace à l'intérieur des parenthèses à effacer
* il y a un "E" à la place d'un "e" sur l'une des dates
* quelques taches devenues des "`" et un point à droite du document.
De mémoire, c'est tout. Je trouve que les erreurs sont totalement négligeables et qu'elles font partie des petites corrections lors d'un OCR.
Je n'ai jamais eu d'aussi bons résultats.
En espérant que cela vous aura un peu éclairé.
PS : un petit erratum de rien du tout. La version dvi ou pdf devrait avoir la référence finale en gras mais je me suis trompé de fichier. Ça ne change pas grand chose.