Quel logiciels OCR gratuits valables ?

Quel logiciels OCR gratuits valables ? - Logiciels - Windows & Software

Marsh Posté le 29-01-2019 à 18:12:03    

Meilleurs voeux a toutes et tous.
J'ai un petit travail d'OCRisation  ( une page web a l'origine) a faire pour aider pour un concours mais c'est désastreux.
J'ai deja un OCR  gratis  fait pour mon imprim laser Samsung, 50 Mo quand même mais la traduction est très  mauvaise. Pas un seul mt intact.
J'ai tenté avec avec FreeOCR mais c'est pas bon du tout non plus.
J'ai toujours en ma possession Omnipage Pro et Read Iris oui mais j'avais ça pour W 95 et W 98.  Lorsque j’étais en activité.  Impensable que ça puisse fonctionner maintenant. Il y a Win dows 10 et les scanners modernes.  
Ces deux softs,  il y a 20 ans, fournissaient un  travail impeccable et 2 OCR moderne...gratuits,  on ne peux pas se plaindre,  sont incapables de faire un boulot même basique.   Ca peut donner par exemple des mots standards en français avec 10 fautes sur un mot de 12 lettres. Effarant.  Ces OCR se mélangent les pinceaux avec les codes ASCII et ANSI  et ne reconnaissent pas non plus les caractères de ponctuation...français. Ni les accents.  C'est du grand n'importe quoi.  
D'accord entre 150 € et 0 il n'y a pas photo mais les logiciels gratuits sont parfois hyper performants.  Libre Office n'est pas pire que Office etc etc etc
C'est le contraire par contre pour les dictées vocales. Dragon Natural Speaking fonctionne énormément mieux que  Via Voice d'IBM..il y a 20 ans.
Comme quoi....
 
Je ne vais pas dépenser 150 € pour un usage de 2 h de boulot par an.  Pour aider par exemple des jeunes pour préparer des exams. Et je veux éviter de les essayer tous.
 
Des idées ? Ici il y en a beaucoup des idées....... Merci
A +
 
 
 

Reply

Marsh Posté le 29-01-2019 à 18:12:03   

Reply

Marsh Posté le 29-01-2019 à 20:29:09    

Une idée, et la démo.
Ceci est une partie du début de ton post capturé par l'outil capture de Windows 10 et enregistré comme une image .PNG.
Ensuite, en utilisant l'utilitaire gratuit naps2
https://www.naps2.com/download.html
j'ai importé l'image et exécuté l'option OCR dessus.
Je donnerai le mode d'emploi plus détaillé, un peu déroutant mais facile.
Le résultat brut de ton texte:

 
Spoiler :

Meilleurs voeux a toutes et tous.
J'ai un petit travail d'DCRisafion ( une page web a l'origine) a faire pour aider pour un
concours mais c‘est désastreux.
J'ai deja un OCR gratis fait pour mon imprim laser Samsung, 50 Mo quand même mais la
traduction est tres mauvaise. Pas un seul mt intact.
J'ai tenté avec avec Free0CR mais c'est pas bon du tout non plus.
J'ai toujours en ma possession Omnipage Pro et Read Iris oui mais j'avais ça pour w 95 et
w 98. Lorsque j'étais en activite. Impensable que ça puisse fonctionner maintenant. Il y
a Win dows 10 et les scanners modernes.
Ces deux sofls, il y a 20 ans, foumissaient un travail impeccable et 2 OCR
modeme...gratuits, on ne peux pas se plaindre, sont incapables de faire un boulot même
basique. Ca peut donner par exemple des mots standards en français avec 10 fautes sur
un mot de 12 lettres. Eflarant. Ces DCR se mélangent les pinceaux avec les codes ASCII
et ANSI et ne reconnaissent pas non plus les caractères de ponctuation rançais. Ni les

 

Mode d'emploi:
- Lancer NAPS2
- Menu importer: choisir un fichier image format .PNG par exemple mais il y en a d'autres.
- Menu OCR: activer la coche et choisir le français L'OCR est alors fait, et on ne voit rien...
- Menu enregistrer en pdf le résultat de l'OCR en pdf sera dans ce fichier. et dans ce fichier le texte sera du texte, pas de l'image.
- Ce qui ne peut être reconnu en texte restera en image.
Pour le mettre ailleurs sélectionner dans le PDF le texte voulu et copier / coller.
Ce que j'ai fait avec ton texte.
C'est pas parfait mais pas trop mal.
Certains défauts sont... dans l'original.


Message édité par yf38 le 30-01-2019 à 16:33:23
Reply

Marsh Posté le 29-01-2019 à 21:29:50    

Merci
Je vais essayer
Celui que j'utilisais jadis fonctionnait de cette façon.
On scanne  non pas un document mais par exemple une couverture de magazine.
Donc texte et photos.
Au pre scan  l'ensemble de l'image est predécoupée  en zones  de sélections. Par exemple pour la magazine il peut y avoir 8 zones.
Chaque zone peut etre agrandie, reduite, deplacée.  
On fait ça en pensant a ce qu'on doit faire une fois la photo insérée dans Word ( par exemple )
Dans Word chaque zone conservée  pourra etre traitée indépendamment.
Une zone image d'un objet pourra etre modifiee sans intervenir sur la zone comprenant un texte.
Donc si on a présélectionné 7 zones avant de l'envoyer dans Word on aura 7 zones de travail  differentes dans Word.
En plus tous les mots figurant dans la couverture de magazine sans pratiquement aucune erreur seront reproduits dans Word avec leur casse et leur fonte.  
Et on peut selon certaines erreurs configurer le logiciel de maniere a ce qu'il rectifie automatiquement. Par exemple au cas ou un é serait remplacé par & on pourra corriger pour éviter ça par la suite.  Regler la sensibilité. Affiner la reconnaissance et j'en passe.
 
Mon logiciel Samsung de 50 Mo ne fait pas ça.  
Il prescanne. Je ne peux absolument rien faire car il n'y a rien a manager. Il scanne et envoie dans Word ( je peux choisir autre chose mais Word c'est pour modifier le contenu)  Et ensuite dans Word il me colle différentes sections qu'il a decoupees arbitrairement, avec d’épouvantables fautes et distorsions de texte, avec des cadres qui parfois se chevauchent.  On bouge l'un et l'autre se met a déconner.
 
Il est donc impossible de recomposer par exemple  une page de magazine
A +
 
 
 

Reply

Marsh Posté le 30-01-2019 à 18:08:59    

Bon mercredi
J'ai pense que ma question devait être précisée. On pouvait  penser que ça portait sur l'extraction du texte d'un "document" scanné.
Eh bien non. Il existe pas mal de softs pour faire ça et j'en ai aussi un qui extrait le texte d'un PDF.
Le véritable OCR Pro permet, lorsque l'on scanne  par exemple une couverture de magazine  ou bien que l'on capture par copie d’écran une page web complexe,  que l'on va imprimer puis passer au scanner, de se retrouver dans la position de la personne qui a crée la couverture du magazine ou bien la page web complexe. C'est a dire de  pouvoir tout modifier.
 
Je donne un exemple simple. Une réservation d’hôtel capturée sur une page web.
Vous allez voir comment se présente cette capture d'ecran une fois imprimée.   Cool.  
Et ensuite vous verrez ce qu'il en reste apres avoir OCRrise vers Word. C'est atroce. Inutilisable.
 
Avec par exemple mes vrais logiciels OCR  au  siècle passe,  ce qu'on envoyait  dans Word 1995 ou 1998 etait totalement identique a ce qu'on trouvait sur la feuille imprimée scannée.
Avec les 2/3 OCR gratuits testés il manque des lignes complètes et il y a énormément des fautes  de reconnaissance ASCII.
Les logiciels gratuits n'ont souvent rien a envier aux payants mais dans ce cas c'est lamentable.
 
Il ne s'agit pas d'extraire du texte, ça c'est facile,  mais de rendre la totalité de la page, images et photos comprises, manipulable et modifiable.
Un outil admirable pour les fakes album covers mais ça n'est pas pour ça que j'ai posté.  Les fake makers utilisent des outils pros.
 
Bonne soirée.
 
http://bigbernie1.pagesperso-orange.fr/OCR.jpg
 
http://bigbernie1.pagesperso-orange.fr/test1.JPG


Message édité par bigbernie le 30-01-2019 à 19:06:32
Reply

Marsh Posté le 30-01-2019 à 18:49:19    

Avec NAPS2 j'ai scanné une couverture complète de revue et passé l'OCR.
Le résultat est un PDF fidèle de la couverture mais avec les parties texte transformées en texte dans le pdf.
Les textes ne sont pas forcément tous reconnus, ils restent alors en image en particulier les gros titres qui ressemblent plus à une image qu'à du texte.
Il y a des réglages mais je ne les ai pas touchés.
Évidemment il faut après ça avoir un éditeur de pdf.

 


Message édité par yf38 le 30-01-2019 à 18:52:01
Reply

Marsh Posté le 30-01-2019 à 19:00:55    

Eh oui. Tu as raison. J'avais cherché longtemps un clone gratuit de Adobe PDF Editor mais ça n'existe pas.  Lorsque je fais des pdf je garde toujours le fichier d'origine en Word. Mais  editer les pdf reçus est impossible sans Adobe.
A moins d’utiliser des services web.  
Si j'avais encore a travailler des captures comme jadis, j'acheterais Omnipage Pro.  ReadIris etait tres bien aussi mais n'existe plus en version actuelle.
C'est vrai qu'il eixste des confusions avec OCR.  
Si on se contente de l'extraction de texte  il y a plein de moyens..meme  pour PDF.
Mais des qu’il s'agit d'extraire le texte et les images et de rendre  ça modifiable a fond les gratuits sont lamentables. Et je n'ai plus l’utilité d'amortir 150€.
A +

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed