@scorpio810
- merci pour ces pages de tests
- je n'ai pas vu la différence entre les deux pages (font1 et font2)
- il me semble qu'il manque à cette page de test une adaptation au français : il faudrait rajouter des accents "é ù ê è à"... et aussi "ç".
@Schbler
1/ TextBridge
- peux-tu indiquer comment tu as procédé pour installer TextBridge,
- et avec quelle version ?
- ne disposes-tu pas des modules de langues (qu'on peut installer à partir du CD) ? (en préselectionnant "français", je n'ai pas eu de problème avec des "à" devenant "ä" lors de mes utilisations antérieures de ce logiciel).
2/ pour Kooka
- il me semble que le format d'enregistrement conseillé pour réaliser de la ROC/OCR est le format "png"... mais je n'ai pas essayé en "bmp", c'est peut-être pareil (?).
- pour la mise en page, il y a possibilité de choisir un "mode d'analyse de la disposition", en bas de la fenêtre "Reconnaissance optique de caractères - Kooka", avant de "démarrer la ROC" :
- soit "Pas de détection de la disposition"
- soit "Détection des colonnes"
- soit "Détection complète de la disposition".
-
le choix de l'encodage et celui du dictionnaire : je pense aussi qu'il a beaucoup d'importance. J'ai testé, et indiqué ce qui suit dans le wiki (documentation) :
Note : à l'étape 10, on peut activer la vérification orthographique avant de démarrer la ROC; il faut ouvrir l'onglet "Vérification de l'orthographe", cocher "Activer la vérification de l'orthographe" et sélectionner :
1. Client : Aspell (ce qui sélectionne automatiquement le dictionnaire français)
2. Encodage : ISO 8859-1
Cette vérification orthographique permet de traiter immédiatement les mots non reconnus sans avoir à utiliser ensuite le correcteur orthographique d'un logiciel de traitement de texte. Mais c'est une correction que certains trouvent laborieuse...
Mais - outre que ces choix ne sont pas conservés par défaut - je n'ai pas réussi à utiliser correctement cette possibilité.
La sélection de "Aspell" entraîne le choix par défaut du dictionnaire "Français (40-only)", mais en déroulant la liste des dictionnaires, on voit qu'il est possible de sélectionner d'autres dictionnaires français : "Français 40", "Français 60", "Français 60-only", "Français 80", "Français 80-only", "Français", "Français - 40", "Français - 60", "Français - 80", "Français - only". Quelqu'un sait-il à quoi correspond chacun de ces dictionnaires... et quel est celui qui conviendrait le mieux à du "Français-France" ?
Par ailleurs, en Aspell +"Français (40-only)", Kooka ne reconnaît pas les accents... ce qui rend la comparaison "résultat de la ROC/dictionnaire" impossible, et empêche de fait toute vérification orthographique... Il y a sans doute un truc que je n'ai pas pigé :