Comment indexer un .pdf ?

Marsh Posté le 20-11-2002 à 14:54:25

Voila le pb: je voudrais que mon (futur) moteur de recherche puisse indexer des fichiers PDF. Le langage de programmation m'importe peu. Existe-il un moyen d'explorer le texte que contient le pdf (avec un script gratuit) ?

Marsh Posté le 20-11-2002 à 14:54:25

Marsh Posté le 20-11-2002 à 15:13:18

En plus clair :??: je me demande s'il existe des bibiothèques/libraires/modules pour un langage donné qui apporte cette fonctionnalité (indexation de pdf) ?

Marsh Posté le 20-11-2002 à 15:15:53

Sais pas mais si le PDF est un bitmap d'un papier scanné, y a pas de texte dans le fichier. Ca ne pourrait aller que pour des documents formatés d'une certaine façon (des PDF "normaux", quoi).

[:tomilou]

Marsh Posté le 20-11-2002 à 16:04:00

Clairement, de plus si le pdf est crypté, aucune chance non plus, sinon tu peux trouver le format du fichier PDF un peu partout sur le net et y a moyen d'en extraire les balises de texte assez facilement je pense (y a aussi un outil de convertion pdf vers html chez adobe via leur site il me semble).

---------------
Informaticien.be - Lancez des défis à vos amis

Marsh Posté le 20-11-2002 à 17:35:19

ok j'ai trouvé un exe pdf2html, ça marche tout seul sous Win -> c cool !
mais je n'ai pas les sources, donc je ne pourrai pas le transposer dans mon script

Sujets relatifs:

[Access] Indexer un champ

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed

Name *

Email *

URL

Message *