[REch logiciel de recherche dechaînes à l'intérieur d'une masse de PDF

[REch logiciel de recherche dechaînes à l'intérieur d'une masse de PDF - Logiciels - Windows & Software

Marsh Posté le 18-10-2013 à 21:59:59    

Bonsoir tout le monde :)
 
J'accumule des PDF dont bcp sont des articles de presse. Existe-t-il un soft permettant d'effectuer une recherche de chaîne (mots, expression...) à l'intérieur de fichiers PDF ?  
 
Je ne peux pas me le programmer : j'ignore le format PDF et comment chercher des chaînes à l'intérieur...  
 
Merci :)


Message édité par HERIBERT le 19-10-2013 à 18:56:43
Reply

Marsh Posté le 18-10-2013 à 21:59:59   

Reply

Marsh Posté le 18-10-2013 à 23:20:34    

Désolé je ne connais pas de logiciel qui fasse cela, mais il en existe peut-être.
 
Le format PDF est ancien et complexe. Plusieurs couches se sont déposées au fil du temps.
Le contenu est très souvent compressé. Il y a plusieurs modes de compressions possibles.
Les polices de caractère ont plusieurs codages particuliers possibles.
Les données ne suivent pas l'ordre du texte. Il y a une structure arborescente interne
qui fait que des données voisines sur l'écran peuvent se retrouver éloignées dans le fichier.
Et peut-être que les articles auraient été juste photographiés, scannés, auquel cas il faudrait
décrypter les images dans un premier temps, ce qui peut ne pas être simple car de
nombreux formats d'image sont possibles. Ensuite, il faudrait faire tourner un bon  
logiciel de reconnaissance de caractères.
Enfin, les PDF sont peut-être protégés par un cryptage, si l'auteur l'a souhaité.
 
Bref, la recherche dépend de la manière dont le PDF a été fait.
Cela peut être soit un peu compliqué, soit très compliqué.

Reply

Marsh Posté le 19-10-2013 à 18:56:25    

Merci ;)
 
Autant les exporter au format .TXT , donc.  

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed