Probleme avec pdftotext => Transformation de .ps vers .pdf foireuse ?

Probleme avec pdftotext => Transformation de .ps vers .pdf foireuse ? - Codes et scripts - Linux et OS Alternatifs

Marsh Posté le 05-07-2005 à 12:22:39    

Bonjour à tous,
 
Je dois réaliser un petit script qui scanne un répertoire, et qui pour chaque fichier pdf extrait le texte dans un nouveau fichier. Avant meme de commencer le script, je m'essaie donc à la commande pdftotext (Debian sarge 3.1, pdf en version 1.2 et pdftotext v3.0).
 
Et deja premier soucis, ça ne marche pas vraiment. A la place, je me retrouve avec un fichier dont le contenu ne ressmble pas à grand chose. J'ai essayer de préciser divers encoding (Latin1, UTF-8, ASCII7) mais sans succès, c'est toujours le meme résultat :/
 
Le man ne m'apprends pas grand chose de plus quant à ce problème.
 
Une aide serait la bienvenue ;)
 
EDIT : J'avance sur mon enquete :D
 
Donc : mon pdf est issu d'un fichier ps, converti en pdf avec la commande ps2pdf.  
Visiblement le soucis est là, car avec un fichier pdf existant (un fichier de doc), pdftotext fonctionne à merveille !
 
Il semblerait qu'il y ai un soucis avec la commande ps2pdf. Le fichier pdf crée est bien lisible avec un viewver pdf, mais il devient impossible d'en extraire le texte !  
Un exemple de fichier pdf généré par ps2pdf est visible ici :
http://petoulachi.coldwire.net/datas/test.pdf
 
ps2pdf se servant au final de gs, en appelant la commande  
gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite
peut etre est-ce ma version du pdfwriter qui a un soucis :??:


Message édité par petoulachi le 06-07-2005 à 12:32:22
Reply

Marsh Posté le 05-07-2005 à 12:22:39   

Reply

Marsh Posté le 05-07-2005 à 12:44:42    

pstotext cette commande peut permettre d'afficher le resultat en live dans ta console ;)


Message édité par isntit le 05-07-2005 à 15:15:27
Reply

Marsh Posté le 05-07-2005 à 13:43:26    

J'ai pas tout compris à ta phrase là ?
La commande pstotext n'existe pas (ou alors pas sur ma distrib), mais plutot ps2ascii. Et cette commande travaille sur un fichier ps et non pas pdf :??:
 
EDIT : bon t'as édité ta phrase qui devient beaucoup plus claire ;)


Message édité par petoulachi le 05-07-2005 à 15:36:04
Reply

Marsh Posté le 05-07-2005 à 15:12:26    

a tiens !
ba chez moi j'utilise la cmd pstotext ( apt-get install pstotext ) pour decoder du pdf en text dans la console ...
apres si ca peut t'aider je ne sais pas ....  
;)

Reply

Marsh Posté le 05-07-2005 à 15:34:59    

Je regarde ça merci :)

Reply

Marsh Posté le 05-07-2005 à 15:43:15    

Ha bin ça fait pareil (voir pire): non seulement le résultat est illisible mais ma console part en sucette :D
N␊├F␋B⎺│:/␤⎺└␊/⎻⎼␋┼├└▒┼/⎻␍°# ┴┐┌⎽┴┐┌─⎽␤┐─⎽┘␤␍┴┘┐─⎽␍␤°┐┌┘─ ␤⎽␍┐°┌─⎽┤≤ °┐┌─⎽┤°┐┌─⎽┘␍␤° ─┘┐⎽
␉▒⎽␤: ┴┐┌⎽┴┐┌─⎽␤┐─⎽┘␤␍┴┘┐─⎽␍␤°┐┌┘─: ␌⎺└└▒┼␍ ┼⎺├ °⎺┤┼␍
N␊├F␋B⎺│:/␤⎺└␊/⎻⎼␋┼├└▒┼/⎻␍°#

Reply

Marsh Posté le 05-07-2005 à 17:29:23    

oulaaa j'ai jamais eut ca !!! meme avec des pdf enorme avec photos ect ... !!! désoler  :/

Reply

Marsh Posté le 05-07-2005 à 18:03:18    

petoulachi a écrit :

Ha bin ça fait pareil (voir pire): non seulement le résultat est illisible mais ma console part en sucette :D
N␊├F␋B⎺│:/␤⎺└␊/⎻⎼␋┼├└▒┼/⎻␍°# ┴┐┌⎽┴┐┌─⎽␤┐─⎽┘␤␍┴┘┐─⎽␍␤°┐┌┘─ ␤⎽␍┐°┌─⎽┤≤ °┐┌─⎽┤°┐┌─⎽┘␍␤° ─┘┐⎽
␉▒⎽␤: ┴┐┌⎽┴┐┌─⎽␤┐─⎽┘␤␍┴┘┐─⎽␍␤°┐┌┘─: ␌⎺└└▒┼␍ ┼⎺├ °⎺┤┼␍
N␊├F␋B⎺│:/␤⎺└␊/⎻⎼␋┼├└▒┼/⎻␍°#


 
 
juste pour rire, change de console... des fois ca resous des petites choses...

Reply

Marsh Posté le 05-07-2005 à 18:21:33    

Changer de console ?
 
Sinon j'avance sur mon enquete :D
 
Donc : mon pdf est issu d'un fichier ps, converti en pdf avec la commande ps2pdf.  
Visiblement le soucis est là, car avec un fichier pdf existant (un fichier de doc), pdftotext fonctionne à merveille !
 
Il semblerait qu'il y ai un soucis avec la commande ps2pdf. Le fichier pdf crée est bien lisible avec un viewver pdf, mais il devient impossible d'en extraire le texte !  
Un exemple de fichier pdf généré par ps2pdf est visible ici :
http://petoulachi.coldwire.net/datas/test.pdf
 
ps2pdf se servant au final de gs, en appelant la commande  
gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite
peut etre est-ce ma version du pdfwriter qui a un soucis :??:

Reply

Marsh Posté le 05-07-2005 à 18:46:21    

d'une console type gnome terminal ou kterm a eterm ou mrxvt il y un gouffre

Reply

Marsh Posté le 05-07-2005 à 18:46:21   

Reply

Marsh Posté le 06-07-2005 à 09:44:21    

Oui enfin là apparemment c'est plutot la transformation ps -> pdf qui ne fonctionne pas vraiment !

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed