L'OCR sous GNU/Linux parlons-en !

L'OCR sous GNU/Linux parlons-en ! - Logiciels - Linux et OS Alternatifs

Marsh Posté le 09-01-2005 à 16:34:28    

Voilà le sujet que je compte aborder : les logiciels de reconnaissance de caractères, disponibles sous GNU/Linux.

 

Commençons par les forces en présence :

 

GOCR

 

OCRAD

 

Clara OCR

 

Un des derniers qui vient d'être libéré :
Tesseract-OCR

 

En fait il s'agit d'une technologie vieille de 10 ans de la part de HP (voir DLFP : http://linuxfr.org/2006/10/07/21437.html ) mais il reste la version libre (depuis la disparition de la bibliothèque Migraine) la plus aboutie à ce jour.
97% de reconnaissance sur la page de teste de linux.com

 

Tesseract a été porté en bibliothèque javascript (pour le lulz ?):

 

Les 3 premiers sont libres, les derniers sont des applications commerciales :
Kadmos

 

macomboh nous informe que pour OCR XTR

Citation :

1 seul logiciel d 'OCR est performant sous linux,(du niveau de finereader)
il s'agit d'OCR XTR de vividata
malheureusement il n'est pas OPEN ,et sa licence coute plus que trés cher (dans les 2475 $)
on peut cependant obtenir une licence d'essai valable 1 mois sur leur site

 

Le petit dernier :
Ocropy, feu Ocropus écrit en python
ou en C++
Libre, licence Apache 2.0
Encore en développement.

 

Maintenant, parlons des logiciels en eux-mêmes :

 

GOCR : Ne nécessite pas de phase d'apprentissage mais conserve la mise en forme. Les résultats sont corrects mais les caractères accentués semblent poser problème.

 

OCRAD : Ne nécessite pas de phase d'apprentissage, la disposition saute et les caractères accentués posent des difficultés. Ou alors j'ai loupé un truc.

 

Clara OCR : Bien qu'il nécessite une phase d'apprentissage, les résultas obtenus sont les meilleurs obtenus parmi ces 3 logiciels. Toutefois, après l'analyse certains caractères nécessitent d'être repris.

 

Kadmos : Pas testé.

 

Ocropus : Pas testé.

 

Des liens instructifs (merci Sorbus_)
tesseract, gscan2pdf,
sur le forum Ubuntu et sur Linux on the root

 

Logiciels complémentaires :

 

Unpaper

 

Il permet de s'affranchir des problèmes liés à une mauvaise photocopie et qui a pour conséquence de rendre les textes difficilement traitables par un logiciel d'OCR.

 


Mes questions :

 

1 - Quels sont vos astuces pour améliorer vos résultats ?

 

2 - D'autres viendront ! :D

 

:hello:


Message édité par mirtouf le 13-10-2016 à 09:17:21

---------------
-~- Libérez Datoune ! -~- Camarade, toi aussi rejoins le FLD pour que la flamme de la Révolution ne s'éteigne pas ! -~- A VENDRE
Reply

Marsh Posté le 09-01-2005 à 16:34:28   

Reply

Marsh Posté le 09-01-2005 à 16:58:57    

J'avais essayé gocr pour convertir les sous titres de DVD, et c'etait vraiment pas fameux, même en utilisant le mode d'apprentissage. Parmis les problèmes les plus troublants, il avait tendance à rajouter plein d'espaces entre les lettres, sans que je comprenne pourquoi, et ce malgré l'essai de plusieurs valeurs dans le fichier de conf. De mémoire, malgré l'utilisation d'un doci français, il était très affecté par le grand classique L minuscule = I majuscule


---------------
Fluctuat nec mergitur
Reply

Marsh Posté le 09-01-2005 à 17:02:11    

Je n'ai pas trop remarqué le problème d'espaces ajoutés mais la confusion I=L est courante.


---------------
-~- Libérez Datoune ! -~- Camarade, toi aussi rejoins le FLD pour que la flamme de la Révolution ne s'éteigne pas ! -~- A VENDRE
Reply

Marsh Posté le 09-01-2005 à 17:27:17    

1 seul logiciel d 'OCR est performant sous linux,(du niveau de finereader)
il s'agit d'OCR XTR de vividata:
http://www.vividata.com/ds_xtrapi_overview.html
malheureusement il n'est pas OPEN ,et sa licence coute plus que trés cher (dans les 2475 $)
on peut cependant obtenir une licence d'essai valable 1 mois sur leur site

Reply

Marsh Posté le 09-01-2005 à 17:31:37    

Reply

Marsh Posté le 10-01-2005 à 15:40:54    

Reply

Marsh Posté le 11-01-2005 à 13:05:24    

No one else ?

Reply

Marsh Posté le 13-01-2005 à 21:26:52    

Est-ce réservé à l'31337 ?


---------------
-~- Libérez Datoune ! -~- Camarade, toi aussi rejoins le FLD pour que la flamme de la Révolution ne s'éteigne pas ! -~- A VENDRE
Reply

Marsh Posté le 13-01-2005 à 21:28:37    

tiens, ça m'interesse, mais je n'ai pas encore essayé ;).

Reply

Marsh Posté le 13-01-2005 à 21:32:34    

j_c_p a écrit :

tiens, ça m'interesse, mais je n'ai pas encore essayé ;).


Si tu pouvais me payer une license XTR OCR par la même occasion...


---------------
-~- Libérez Datoune ! -~- Camarade, toi aussi rejoins le FLD pour que la flamme de la Révolution ne s'éteigne pas ! -~- A VENDRE
Reply

Marsh Posté le 13-01-2005 à 21:32:34   

Reply

Marsh Posté le 13-01-2005 à 21:36:09    

mirtouf a écrit :

Si tu pouvais me payer une license XTR OCR par la même occasion...


Pour arriver, il faut mettre de l'eau dans son vin
jusqu'à ce qu'il n'y ait plus de vin.
        -+- Jules Renard, Journal -+-


:p
 
édit : remarque que  

Le plus court chemin entre deux vérités dans le domaine réel passe par
le domaine complexe.
        -+- Jacques Hadamard -+-


Message édité par j_c_p le 13-01-2005 à 21:37:19
Reply

Marsh Posté le 16-01-2005 à 22:33:14    

Un ptit up pour le dimanche soir ? [:tatanka]


---------------
-~- Libérez Datoune ! -~- Camarade, toi aussi rejoins le FLD pour que la flamme de la Révolution ne s'éteigne pas ! -~- A VENDRE
Reply

Marsh Posté le 18-01-2005 à 08:58:40    

mirtouf a écrit :

Si tu pouvais me payer une license XTR OCR par la même occasion...


 
tu peux aussi fonctionner ad vitam eternam avec la licence d'évaluation
grace à un script du type
 
date mmjjaa   , mettre à une date ancienne
ocrxtr        , commande d'OCR
date  mmjja   , remetrre la bonne date du jour

Reply

Marsh Posté le 21-01-2005 à 16:42:05    

Reply

Marsh Posté le 07-10-2006 à 13:30:05    

Reply

Marsh Posté le 07-10-2006 à 13:45:23    

Il y a tesseract OCR qui a été libéré cet été et qui semble pas mal bien qu'encore limité :
http://applications.linux.com/arti [...] 251&tid=47


---------------
Celui qui pose une question est idiot 5 minutes. Celui qui n'en pose pas le reste toute sa vie. |  Membre du grand complot pharmaceutico-médico-scientifico-judéo-maçonnique.
Reply

Marsh Posté le 22-12-2007 à 13:34:56    

"Tesseract est un moteur de reconnaissance simple, dans le sens où il ne fournit pas d'interface utilisateur, n'effectue pas d'analyse de la mise en page et ne formate pas les résultats qu'il produit.
Une autre de ses limitations est qu'il reconnait uniquement les caractères US-ASCII et donc ne fonctionne correctement qu'avec des documents rédigés en langue anglaise. Enfin, l'acquisition de documents en niveaux de gris ou en couleurs reste difficile.
"
 
bon il existe les rpm pour mandriva, mais vu la limitation ... (mes scans sont en français)
 
En attendant mieux, je me sers de SimpleOCR (pas libre bien sur) mais gratuit pour la partie texte "machine".
Il tourne "correctement" avec wine, il inclus un correcteur orthographique (avec suggestion) met en sur brillance le texte à corriger dans le document scanné comme dans le document txt.
 
ça peut dépanner celui qui n'a vraiment plus de windows sous la main et qui ne fait pas d'OCR trop souvent.

Reply

Marsh Posté le 22-12-2007 à 15:13:35    

Quelqu'un a testé ocropus ( http://code.google.com/p/ocropus/ ) ?

Reply

Marsh Posté le 23-12-2007 à 12:15:06    

noté, c'est encore un logiciel alpha ?


---------------
-~- Libérez Datoune ! -~- Camarade, toi aussi rejoins le FLD pour que la flamme de la Révolution ne s'éteigne pas ! -~- A VENDRE
Reply

Marsh Posté le 26-01-2008 à 15:09:29    

Bonjour les amis,
 
Un petit tour par ici, parce que nous nous intéressons aux mêmes choses.
Ocropus, oui, je crois que c'est encore alpha... Mais ça devrait évoluer assez vite... sans doute. Ce n'est pas à proprement parler un logiciel, mais un système complet, utilisant plusieurs ressources... dont pour l'instant le logiciel de reconnaissance optique de caractère tesseract.
 
Au sujet de l'ocr sous Linux et des évolutions les plus récentes, je mets ici quelques liens utiles :
tesseract, gscan2pdf,  
sur le forum Ubuntu et sur Linux on the root
 
... ceci pour continuer à nous informer de temps en temps de nos découvertes et de nos tests.  ;)


Message édité par Sorbus_ le 26-01-2008 à 15:15:39
Reply

Marsh Posté le 26-01-2008 à 20:49:04    

Reply

Marsh Posté le 27-01-2008 à 12:17:48    

J'ai découvert unpaper pour améliorer les résultat des progs d'ocr ( http://unpaper.berlios.de/ ).

Reply

Marsh Posté le 27-01-2008 à 14:22:00    

Reply

Marsh Posté le 27-01-2008 à 17:30:02    

Et unpaper, comme tesseract, sont utilisés et disponibles dans l'interface graphique gscan2pdf. On peut donc scanner un document avec gscan2pdf, le traiter par unpaper et effectuer la ROC avec tesseract d'un seul mouvement. Il ne nous manque qu'un bon mode d'emploi en français pour utiliser au mieux ces outils.

Reply

Marsh Posté le 28-01-2008 à 14:21:45    

Bonjour tous le monde, je vais bientôt commencer mon PFE (Projet de Fin d'Etude) et ma tache consiste à réaliser une application embarquée pour une caméraIP, parmi les modules qui existent, il y en a un qui réalise la lecture de plaque d'immatriculation, donc j'ai bien besoin d'un lecteur OCR pour linux dont je peux l'intégrer dans mon code. Je suis encore en recherche, donc s'il y en a quelqu'un qui déjà travailler ça ???

Reply

Marsh Posté le 29-01-2008 à 19:34:40    

@Ghost_mh
 
Voici juste quelques pistes
 
@tous : xsane2tess pour disposer de tesseract dans XSane.

Reply

Marsh Posté le 31-01-2008 à 21:17:31    

merci Sorbus_, je vais les voir très prochainement

Reply

Marsh Posté le 10-01-2009 à 11:47:47    

Bon, tesseract, c'est pas mal du tout. Par contre, ça manque d'interface graphique :/

 

xsane + sane2tesseract + tesseract, ça fonctionne mais ça reste un peu gruik.


Message édité par Mjules le 10-01-2009 à 11:48:18

---------------
Celui qui pose une question est idiot 5 minutes. Celui qui n'en pose pas le reste toute sa vie. |  Membre du grand complot pharmaceutico-médico-scientifico-judéo-maçonnique.
Reply

Marsh Posté le 12-01-2009 à 15:03:19    

c'est mieux qu'il y a 4 ans je te le dis...


---------------
-~- Libérez Datoune ! -~- Camarade, toi aussi rejoins le FLD pour que la flamme de la Révolution ne s'éteigne pas ! -~- A VENDRE
Reply

Marsh Posté le 12-07-2016 à 13:49:24    

Y'a une dépêche sur un logiciel à 150 boules sur DLFP:
http://linuxfr.org/news/gnu-linux-a-son-ocr-de-qualite
 
La dépêche fait un peu publi-reportage mais je note on ne sait jamais.


---------------
-~- Libérez Datoune ! -~- Camarade, toi aussi rejoins le FLD pour que la flamme de la Révolution ne s'éteigne pas ! -~- A VENDRE
Reply

Marsh Posté le 13-10-2016 à 09:14:00    

Reply

Marsh Posté le    

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed