Comment indexer un .pdf ?

Comment indexer un .pdf ? - Divers - Programmation

Marsh Posté le 20-11-2002 à 14:54:25    

Voila le pb: je voudrais que mon (futur) moteur de recherche puisse indexer des fichiers PDF. Le langage de programmation m'importe peu. Existe-il un moyen d'explorer le texte que contient le pdf (avec un script gratuit) ?

Reply

Marsh Posté le 20-11-2002 à 14:54:25   

Reply

Marsh Posté le 20-11-2002 à 15:13:18    

En plus clair :??: je me demande s'il existe des bibiothèques/libraires/modules pour un langage donné qui apporte cette fonctionnalité (indexation de pdf) ?

Reply

Marsh Posté le 20-11-2002 à 15:15:53    

Sais pas mais si le PDF est un bitmap d'un papier scanné, y a pas de texte dans le fichier. Ca ne pourrait aller que pour des documents formatés d'une certaine façon (des PDF "normaux", quoi).
 
 [:tomilou]

Reply

Marsh Posté le 20-11-2002 à 16:04:00    

Clairement, de plus si le pdf est crypté, aucune chance non plus, sinon tu peux trouver le format du fichier PDF un peu partout sur le net et y a moyen d'en extraire les balises de texte assez facilement je pense (y a aussi un outil de convertion pdf vers html chez adobe via leur site il me semble).
 


---------------
Informaticien.be - Lancez des défis à vos amis
Reply

Marsh Posté le 20-11-2002 à 17:35:19    

ok j'ai trouvé un exe pdf2html, ça marche tout seul sous Win -> c cool !  
mais je n'ai pas les sources, donc je ne pourrai pas le transposer dans mon script :(

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed