Comment indexer un .pdf ? - Divers - Programmation
Marsh Posté le 20-11-2002 à 15:13:18
En plus clair je me demande s'il existe des bibiothèques/libraires/modules pour un langage donné qui apporte cette fonctionnalité (indexation de pdf) ?
Marsh Posté le 20-11-2002 à 15:15:53
Sais pas mais si le PDF est un bitmap d'un papier scanné, y a pas de texte dans le fichier. Ca ne pourrait aller que pour des documents formatés d'une certaine façon (des PDF "normaux", quoi).
Marsh Posté le 20-11-2002 à 16:04:00
Clairement, de plus si le pdf est crypté, aucune chance non plus, sinon tu peux trouver le format du fichier PDF un peu partout sur le net et y a moyen d'en extraire les balises de texte assez facilement je pense (y a aussi un outil de convertion pdf vers html chez adobe via leur site il me semble).
Marsh Posté le 20-11-2002 à 17:35:19
ok j'ai trouvé un exe pdf2html, ça marche tout seul sous Win -> c cool !
mais je n'ai pas les sources, donc je ne pourrai pas le transposer dans mon script
Marsh Posté le 20-11-2002 à 14:54:25
Voila le pb: je voudrais que mon (futur) moteur de recherche puisse indexer des fichiers PDF. Le langage de programmation m'importe peu. Existe-il un moyen d'explorer le texte que contient le pdf (avec un script gratuit) ?