Comparatif et configuration logiciels OCR... (en 2005)

Comparatif et configuration logiciels OCR... (en 2005) - Logiciels - Windows & Software

Marsh Posté le 03-06-2005 à 22:32:30    

:hello:  
 
J'ai pas mal de docs à scanner et à mettre au format PDF.
La finalité est soit un fichier PDF image (ce qui n'est ni plus ni moins un paquetage de plusieurs JPG), soit un fichier PDF image avec recherche (un texte invisible est caché et permet d'utiliser un moteur de recherche), soit un fichier PDF totalement texte.
 
Bizarrement, je n'ai trouvé nulle part de test de logiciel OCR. Les autres topics d'HFR sont un peu anciens.
 
Je fais essentiellement des scans de documents pour archivage et envoi par ftp de documents juridiques.  
 
J'ai essayé de faire des OCR avec Adobe Acrobat 7 et mes scanners (un vieil Agfa 1212 et un récent Epson 2480) et je ne suis pas vraiment satisfait des résultats. Je recherche le meilleur compromis "respect du document original/taille du fichier".
 
J'ai fait des essais à différentes résolutions et c'est toujours dégueulasse (même en augmentant beaucoup la résolution, j'ai parfois des effets bizarres), c'est-à-dire que je me retrouve souvent avec la moitiée d'une phrase qui reste en bitmap, l'aute moitiée en texte mais avec différentes fontes, etc...  
Je me suis dit que le logiciel Acrobat (même la version full) devait être trop juste...
 
J'ai essayé 5 logiciels : Adobe Acrobat 7, Adobe Paper Capture 3, Scansoft Omnipage 14 pro, Abby Finereader 7 Office et ReadIris 10.  
J'ai fait les essais avec mes docs et chacun des exemples de ces logiciels, en les croisant (Iris a des exemples bien vicieux  :bounce: ).
 

  • Adobe Acrobat 7...  :cry:  

C'est le premier essayé, pas terrible. Acrobat 7 a le défaut que l'on connait (lissage étrange des caractères, etc...). Par contre, l'exportation finale des fichiers se fait en Pdf 1.6, assez compact.  
 

  • Adobe Paper Capture...  :whistle:  

est technologiquement complètement dépassé (le noyau date de 2000) et ça se voit dans l'interface. L'export se fait à d'anciens formats. Berk.
 

  • Omnipage 14 Pro...  :kaola:  

demande des dizaines de confirmations par page, beaucoup de phrases gardent des mots en mode graphique (comme Acrobat), il y a des paragraphes qui deviennent non homogènes (en fontes, taille de fontes, alignement). Le plus drôle, ces mauvais résultats sont valables sur leurs propres exemples.  
Pour le prix, je le trouve assez catastrophique, et l'interface est très lourde  :??:  
 

  • FineReader  :sol:  

... je ne le connais que depuis peu et j'ai été très agréablement surpris. Il n'est pas cher (100€ en version pro) et fonctionne super bien. Les paragraphes sont homogènes, l'OCR est rapide, il n'y a pas de confirmations abusives, et le comble : les exemples d'Omnipages sont mieux reconnus avec FineReader !!!! Et les exportations (en PDF 1.2) sont deux fois plus petites que celle d'Omnipage (en pdf 1.4) alors que les résolutions sont les mêmes.
Est-ce que ce sont vraiment les mêmes résolutions ? Il doit y avoir un truc.
 

  • ReadIris Pro 10  :p  

Celui-là a été descendu par le mini comparatif de 01net ( http://www.01net.com/article/277943.html?d=origine ) alors qu'il donne d'assez bons résultats (bien meilleurs qu'Omnipage en tous cas). Il est peu cher et son interface est assez light et bien foutue. En reconnaissance pure, il est un petit peu moins bon que FineReader (il a des difficultés avec des documents en plusieurs langues).
 
 
En résumé, dans mes comparatifs, FineReader s'en était bien sorti (pour un soft à 120€ par rapport à un Omnipage à 700€...) même avec les mises en page tordue. En particulier, j'ai essayé les exemples livré avec Omnipage sur FineReader et c'est ce dernier qui s'en sortait le mieux (l'exemple le plus flagrant est opsample5_ENG_FRE_GER.tif qui comporte des images en insert, plusieurs colonnes, des titres en rouges et paragraphes en noirs, 3 langues dans le même document allemand-français-anglais, etc...).  
 
Cependant, je n'ai pas encore de réponse à toutes mes questions malgré de nombreux tests.
 
Quelle est la meilleure résolution et le choix NB / Gris 8 bit / Gris 16 bit / Couleur 24 bit pour :
 

  • Un texte qui doît être reconnu et dont on ne garde pas la mise en page (un fichier dont le contenu sera modifié sous Word) ?


  • Un fichier d'archivage conforme à l'original (qui doit avoir une valeur juridique et respecter la mise en page et l'aspect du document) quitte à détruire l'original (ou original qui pourrait être détruit ou volé)...


  • Un fichier duplicata qui sera imprimé sur un site distant (contrainte de taille de fichier car envoi par FTP) donc  

   - soit image pure pour être le plus fidèle possible
    - soit texte pour le gain de taille sur le fichier
    - soit un compromis (cas FineReader) où une image basse résolution est gardée pour l'aspect du document et les graphes, et un texte reconnu est placé en surimpression (par contre, je ne suis pas certain de la validité juridique du document  
 
Merci de donner vos avis, pour ceux qui ont déjà fait de l'OCR :hello:  
 
Quel beau pavé   [:_moebius_]  [:_moebius_]  [:_moebius_]


Message édité par _MoebiuS_ le 03-06-2005 à 22:35:52

---------------
The Magic Words are Squeamish Ossifrage.
Reply

Marsh Posté le 03-06-2005 à 22:32:30   

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed