L'Africain
Boujour,
Je n'arrive pas à faire fonctionner ocropus, voilà ce qu'il me répond :
./ocr-utils/ocr-utils.cc:83 FAILED ASSERT (WARNING) average_border_intensity<=127 || average_border_intensity>=128
ocroscript: /usr/share/ocropus/scripts//recognize.lua:180: essai.html: file has an unknown extension
Je n'ai trouvé personne qui ai le même problème que moi, je me permet donc de demander, merci d'avance.
Papy Octet
En effet, c'est curieux car le code de l'application devrait gérer ce problème.
int average_on_border(colib::bytearray &a) {
int sum = 0;
int right = a.dim(0) - 1;
int top = a.dim(1) - 1;
for(int x = 0; x < a.dim(0); x++)
sum += a(x, 0);
for(int x = 0; x < a.dim(0); x++)
sum += a(x, top);
for(int y = 1; y < top; y++)
sum += a(0, y);
for(int y = 1; y < top; y++)
sum += a(right, y);
// If average border intensity is between 127-128, inverting the
// image does not work correctly
float average_border_intensity = sum / ((right + top) * 2.0);
ASSERTWARN(average_border_intensity<=127 || average_border_intensity>=128);
return sum / ((right + top) * 2);
}
Il faudrait vérifier l'origine de la version de ce logiciel et éventuellement recharger les bons paquets
ici.
Il faudrait également donner un peu plus de détails sut ton installation : OS, version du logiciel, quelques infos sur ton matos ( processeur, ram, formatage partitions, ...). (On peut placer cela dans son profil perso - vois ceux déjà existants).
Ça aide à la compréhension du problème 😉 .
A+
L'Africain
J'ai des difficultés pour acceder à l'internet, donc excusez-moi si je ne réagis pas rapidement. Je suis sur la 10.04, Toshiba satellite Pro, 2G de ram en dualboot avec une partition commune.
La version d'Ocropus est la 0.3.2-1, ocropus-data est installé les paquets tidy aussi. C'est quoi les lignes de commandes dans ton message papy octet ?
Merci d'avance
steph33560
Hello,
je recherche une solution d'OCR/ICR capable de détecter des zones type case à cocher, bouton radio, ...
Je dois numériser des formulaires genre CERFA avec beaucoup de cases à cocher, boutons radio, et des zones de saisie manuscrite libre.
En payant/fermé, j'ai des solutions, mais a priori les softs open source ne proposent pas ce genre de chose ;
1. Suis-je enduis d'erreur ? ;-)
2. Des idées pour me réorienter ?
Merci ! 🙂
[supprimé]
steph33560 a écritHello,
je recherche une solution d'OCR/ICR capable de détecter des zones type case à cocher, bouton radio, ...
Je dois numériser des formulaires genre CERFA avec beaucoup de cases à cocher, boutons radio, et des zones de saisie manuscrite libre.
En payant/fermé, j'ai des solutions, mais a priori les softs open source ne proposent pas ce genre de chose ;
1. Suis-je enduis d'erreur ? ;-)
2. Des idées pour me réorienter ?
Merci ! 🙂
Tesseract reconnait pas mal de caractères, comme des ligatures (et il en fout partout en plus !).
Donc si ça se trouve, il te substituera les cases à cocher par le caractère idoine. 🙂
SDG2015
Bojour à tous,
J'ai un petit problème avec Open Office Writer. Je ne sais pas quel est la version, mais comme j'ai réinstallé Ubuntu il y a une semaine, et que je fait les mise à jour...
Mon petit problème est le suivant, je n'arrive pas à exporté mes document en PDF de façon à ce qu'il soient protégés. Pas de copie de contenu, pas de modifications et pas d'impression.
Évidement, je passe par fichier > exporter au format PDF > sécurité et j'entre un mot de passe d'autorisation pour ensuite sélectionner Impression non autorisée, modification non autorisé et je désactive Autorisé la copie de contenu. Puis Exporter.
J'obtiens un fichier PDF je l'ouvre en double cliquant ... et je peu copier le contenu, l'imprimer..etc et si je regarde dans fichier> propriétés... ça m'indique sécurité : non
Si j'ouvre à nouveau mon doc. et que je retourne dans fichier > exporter au format PDF > sécurité, mais sans entrer de mot de passe... je vois que les sélection sont OK. ( Impression: non autorisée, modification: non autorisé...) j'ai donc exporter de nouveau (sans entrer de mot de passe puisque les sélection son OK)... Même résultat... le fichier PDF n'est toujours pas sécurisé.
Donc:
1-Soit cette fonction ne fonctionne pas,
2-soit je suis un crétin.
Comme l'option 2 est plus probable, je demande un coup de main.
Merci
SDG2015
[supprimé]
Salut ! 🙂
En fait, c'est tout simple : evince (le lecteur de pdf par défaut de ubuntu) ne respecte pas les protections. 😛
Essaie avec adobe reader pour voir : je viens de faire le test, tout "marche"* comme il faut.
*(à mort les protections ! :mad:) 😛
SDG2015
Bonjour monsieurweller,
Donc je ne suis pas trop crétin... disons plutôt novice avec Linux.
J'ouvrais déjà mon doc PDF avec adode reader et il n'était quand même pas protégé . Donc j'ai évincé (Suprimé) evince de mes programmes, et j'ai recommencé l'opération à partir de open office et maintenant, mon doc est protégé. Cela a-t-il quelque chose à voire !??! peu importe. Merci du conseil.
Ceci dit, si quelqu'un ouvre ce doc avec evince, pourra-t-il le modifier ou en copier des parties. Je ne suis pas du genre frileux mais, pour ce doc c'est important.
Merci encore
SDG2015
[supprimé]
SDG2015 a écrit
Ceci dit, si quelqu'un ouvre ce doc avec evince, pourra-t-il le modifier ou en copier des parties. Je ne suis pas du genre frileux mais, pour ce doc c'est important.
Il pourra faire ce qu'il veut, et c'est vrai pour une très grande partie des lecteurs PDF disponibles tout OS confondus. :/
La seule protection universelle et efficace pour les PDF, c'est l'accès par mot de passe (si la personne n'a pas le password, elle ne peut pas ouvrir le PDF, donc).
SDG2015
Bonjour monsieursweller,
Ouais! C'est bon à savoir.
Finalement, on peut que l'option 1 n'était pas tout à fait fausse...
Je ne vois pas quoi dire de plus que "à mort les protections !"
Merci pour tes réponses judicieuses.
À une prochaine fois.
fralyon
Si l'OCR sous linux est si complexe
existe t il la possibilité d'avoir depuis un fichier image,
un fichier pdf avec le texte issu de l'OCR masqué ?
siscard
Bonjour,
Cuneiform 0.7.0 me renvoie "Erreur de segmentation" lorsque je lui demande en ligne de commande de reconnaitre un texte en jpg pour le restituer en RTF.
->cuneiform -l fra -f rtf -o salaison.rtf salaison.jpg
->Cuneiform for Linux 0.7.0
->Erreur de segmentation
Par ailleurs, il ne fonctionne pas du tout sous Xsane 0.998 alors qu'il a très bien fonctionné avant hier avant que je ne tente (un peu trop vite ) des logiciels audio, auxquels j'ai renoncé et désinstallé. Peut être j'ai oublié quelque chose ?
Tesseract lui fonctionne dans les 2 méthodes dans les 2 cas, sans restitution de la mise en page mais c'est ennuyeux de remettre les colonnes en place(donc convient pour du texte sur une colonne sans image). Pour cunéiform, je n'ai pas mis le script en place comme pour tesseract, car je n'ai pas trouvé quelles modification il fallait faire; ceci dit, cela ne me gène pas de l'utiliser en mode console pour ce que je veux faire (compiler des articles de presse professionnels assez courts sur plusieurs colonnes avec des images et des tableaux).
Par acquit de conscience, j'ai refait l'installation après suppression des paquets par Synaptic, mais rien de mieux.
Je voudrai savoir aussi s'il sait reconnaitre les cadres de tableaux (caractères semi-graphiques)🙂
Si quelqu'un peut m'aider sur ces 2 points ça serait super...
Merci d'avance :cool:
siscard
Bonjour à tous,
Ce matin, l'erreur de segmentation a disparu: mais c'est Magick qui ne sais plus lire .jpg.
Je vais tenter de le réinstaller.
Précision : je suis revenu sous Natty 11.04. Ocelot 11.10 rendait certains logiciels instables notamment QGIS et Synaptic.
siscard
C'est pas mieux. même en tif, l'erreur c'est :
Magick: unable to open image `salaison.tif': @ error/blob.c/OpenBlob/2498
Grand merci à l'âme charitable
siscard
Oups, j'avais oublié tout simplement de me loger dans le répertoire ad-hoc.
Et ça marche. Cuneiforme avec l'option rtf pour les textes en colonnes, Tesseract pour les textes simple colonne, mais il vaut mieux enlever les images dans les 2 cas et le copier dans le document final.
Si qq'un veut bien m'indiquer les modifications à faire au script, je suis preneur
:cool:Merci
siscard
L'erreur de segmentation est revenue comme elle avait disparue.
Si quelqu'un a une idée, je suis preneur.
Tout ce que j'ai trouvé, c'est que le logiciel essaie d'utiliser un espace de mémoire qui ne lui est pas attribué; alors cela provient peut-être d'ailleurs, mais ou?
Je ne suis pas encore expert dans Linux ni Ubuntu que j'utilise seulement depuis quelques mois.
Merci
siscard
Par acquis de conscience, et après avoir essayé sans succès de nombreuses manips suggérées dans le forum, j'ai installé cuneiform (0.7.0) avec Magick sur mon vieux portable (10 ans et il supporte bien U11.04) aussi, mais lui n'a pas subi les outrages que j'ai fait subir au fixe (notamment tentative de mise à niveau vers 11.10 puis retour en arrière)
Résultat identique Erreur de Segmentation.
Alors, il y a peut-être un pb à la source (j'utilise Synaptic pour l'installation).
Y-a-t-il quelqu'un ici ??? quelqu'un ici ??? un ici ??? ici ???
ub821
Bonjour à Toutes et Tous de ROC 🙂
Avant toute chose, puisqu'en première page et premier post, rien n'est indiqué et que cela date de 2006, modifié 2008, tel que c'est décrit dans le premier post, çà "doit" fonctionner ?
Ou bien alors, je me "tape" les 20 pages pour apprendre à la fin, que bon... je n'ai qu'à "circuler" et que çà gazouille que dans certains cas... 😉
J'arrive ici, après avoir installé et suivi les procédures indiquées ici :
http://doc.ubuntu-fr.org/ocr
http://doc.ubuntu-fr.org/xsane2tess
et au scan d'une page en ROC, une belle boite de dialogue qui indique :
"Erreur de processus enfant" :
Failed to execute OCR command : xsane2tess -l fra:
Aucun fichier ou dossier de ce type
Merci d'avoir pris le temps de lire, et surtout... 😉 de répondre sur ce sujet 🙂
nabla
Bonjour,
Pour ne pas laisser "ub821" sans réponse, je m'y colle ;-)
Je ne suis que Linuxien ; pas informaticien. Je tripatouille un peu en lignes de commandes mais uniquement grâce aux forums.
Un mec normal quoi.
Actuellement sous Linux ubuntu 10.4 depuis qu'il est sorti soit Ubuntu 10.04.4 LTS (Linux version 2.6.32-41-generic).
ça tourne sur un Dell Inspiron 1525 de 2008.
J'utilise Xsane Image Scaner en mode numérisation d'images et en OCR avec bonheur et bons résultats ... après être passé à xsane2tess à la place de GOCR.
Ma commande OCR est modifiée en "xsane2tess -l fra" (dans Xsan, "préférences" --> "configuration" --> onglet "OCR")
De mémoire, j'ai utilisé ces pages :
http://doc.ubuntu-fr.org/ocr
http://doc.ubuntu-fr.org/tesseract-ocr
http://doc.ubuntu-fr.org/xsane2tess
Je le redis, ça marche du 'tonnerre de dieu' avec du texte noir sur fond blanc.
Comme mon ordi principal est sous Mac, Ubuntu et Xsane sont ma seule solution pour faire de la ROC et cela me satisfait pleinement.
@+
P.S. : j'ai même essayé de faire de la ROC depuis images, photos et PDF = ça marche plutôt bien si fichier de bonne qualité visuelle.
Papy Octet
Bonjour,
Moi, j'utilise XSane pour mon scanner puis, pour la reconnaissance des caractères, c'est gscan2pdf qui s'y colle. Il permet de sortir un document pdf - comme son nom l'indique - mais aussi un fichier texte .rtf.
Comme l'indique nabla, il faut un peu "retravailler" la page scannée pour augmenter un max les contrastes et enlever la couleur. Un scan en tons de gris à 300 pixels/pouce est recommandé pour s'assurer une reconnaissance acceptable et un fichier pas trop gros.
Personnellement, en tons de gris, je montre à 400 PPP (pixels par pouce) lors du scan puis j'augmente le contraste et j'enregistre l'image.
Puis je lance gscan2pdf en réglant les paramètres de sortie vers un fichier .rtf que je peux exploiter ultérieurement.
Je suis sous Ubuntu 11.10 64 bits.
A+