detection de la langue d'installation du'un lecteur PDF - VB/VBA/VBS - Programmation
Marsh Posté le 28-11-2017 à 04:01:05
Salut, via Acrobat ( pas le Reader )
Voir Propriétés du document / Avancées
Option de lecture / Langue
Sinon concernant l'extraction du texte d'un pdf j'ai ceci :
Acrobat : http://www.developpez.net/forums/d [...] ost5920178
En relation avec http://www.developpez.net/forums/d [...] ost7982291
Ces 2 fichiers m'ont permis de traiter 6700 fichiers pdf ( 1.7 Go au total, dans 3 présentations différentes ) d'une base Kompass pour en extraire autour de 638 000 entreprises avec uniquement les infos utiles. Cette procédure étant loin d'être une sinécure et reste à la charge de l'utilisateur.
Constituent une alternative gratuite et nettement plus véloce pour l'extraction de texte que le Reader ou Acrobat et sans le tracassin des SendKeys.
Remarque 1 : http://www.developpez.net/forums/d [...] ost7850072
Sauvegarde en Texte avec Acrobat et Acrobat Reader
Remarque 2 : http://www.developpez.net/forums/d [...] ost7982291
pour Reader 10 + : concernant menu Edition/Préférences catégories
Marsh Posté le 28-11-2017 à 09:21:40
Merci
tu sembles bien connaitre a ce que je vois
je vais regarder cela
Marsh Posté le 28-11-2017 à 22:56:00
j'ai regardé quelques un de tes codes
ils sont efficaces, il n'y a pas a dire !
celui ci me semble prometteur
https://excel.developpez.com/telech [...] e-de-PDF-2
je vais surement changer ma methode avec les sendkeys qui assez lente, et qui de plus m'oblige a gérer les logiciel utilisés et les langues
Marsh Posté le 30-11-2017 à 08:01:32
Salut, cette alternative gratuite à Acrobat est très nettement plus véloce pour l'extraction du texte d'un ou plusieurs pdf.
Marsh Posté le 30-11-2017 à 17:52:16
oui, c'est rapide, quelque ms apparement
le TXT en resultant est différent, il y a peut être des option a ajouter a PDF2TXT.exe
le problème que j'ai c'est que je souhaite extraire le contenu d'un pdf ouvert et donc je ne connais pas l'arboresence
il peut être sur le bureau, sur un lecteur, dans les fichier temp
Marsh Posté le 01-12-2017 à 00:34:07
Salut, pour les options de Pdftotext.exe voir la man page sur le site d'XPDF : http://www.xpdfreader.com/pdftotext-man.html
A ajuster dans la procédure PDF2FichierTexte dans la chaine : Wsh.Run "cmd /c chcp 65001 && " & Chr(34) & sCheminAppli & Chr(34) & Chr(32) & Chr(34) & sFichier & Chr(34) & " -raw " & .....
Marsh Posté le 01-12-2017 à 08:23:32
le wshrun que tu mets au dessus je m'en suis inspiré
j'avais vu que tu avais utilisé cette méthode dans tes fichiers xls
Marsh Posté le 01-12-2017 à 12:59:29
Wsh.Run "cmd /c chcp 65001 && " & Chr(34) & EXE & Chr(34) & " " & Chr(34) & Source & Chr(34) & " " & Chr(34) & resultat
j'envoie le resutat dans un TXT, et sans options supplémentaires, le texte obtenu me convient
il y a juste quelques passage à la ligne, saut de page de décalé mais rien de bien génant
Marsh Posté le 02-12-2017 à 08:33:23
Salut, Il semble qu'un certain nombre d'options d'XPDF ne fonctionnent plus sous la version XPDF 4.00.01 qui est la seule dispo sur le site d'XPDF.
Pbs de syntaxe (?) ou pas, les exemples fonctionnels fournis ( sauf oubli de ma part ) sont inclus avec les binaires 32 bits idoines en version 3.04.
En attendant un hypothétique correctif de leur part.
Liste des fichiers concernés :
Conversion PDF en HTML : https://www.developpez.net/forums/d [...] ost9072450
Conversion PDF en PNG : https://www.developpez.net/forums/d [...] ost9280479
Conversion PDF en PPM : https://www.developpez.net/forums/d [...] ost9238254
Conversion PDF en PS ( PostScript ) : https://www.developpez.net/forums/d [...] ost9100164
Extraction des Pièces Jointes d'un PDF : https://www.developpez.net/forums/d [...] ost9028890
Extraction des Pièces Jointes d'un PDF (2) : https://www.developpez.net/forums/d [...] ost9034514
Extraction Images d'un PDF : https://www.developpez.net/forums/d [...] ost9051947
Lecture métadonnées d'un PDF (2) : https://www.developpez.net/forums/d [...] ost9104835
Liste des Polices d'un PDF : https://www.developpez.net/forums/d [...] ost9162613
Sauvegarder un PDF au format PDF/A via XPDF/Distiller : https://www.developpez.net/forums/d [...] ost9220715
Marsh Posté le 02-12-2017 à 12:00:11
j'ai testé pas mal d'option celle qui me fourni le meilleur résultat semble être -RAW
meilleur résultat => TXT final proche du TXT sauvé par un lecteur PDF
mais j'ai été obligé de corriger la macro qui lit le fichier ensuite
quelle seraient les option a mettre pour avoir un fichier de sortie identique a ce qui est produit par:
fichier, enregistrer, format texte d'un lecteur pdf ?
Marsh Posté le 02-12-2017 à 15:10:21
Salut, je me répète : voir la man page sur le site d'XPDF : http://www.xpdfreader.com/pdftotext-man.html
La sortie pdf dépendant du générateur de ce dernier il est impossible de dire quel est le meilleur paramétrage.
Extrait :
−raw Keep the text in content stream order. Depending on how the PDF file was generated, this may or may not be useful.
Marsh Posté le 07-12-2017 à 05:41:17
Suite du post du 02-12-2017 à 08:33:23
A voir pour téléchargement des outils XPDF 3.04 ( non customisés ..... ) : https://www.developpez.net/forums/d [...] ost9829065
Marsh Posté le 07-12-2017 à 22:55:31
Autre solution : utiliser AutoIt pour piloter le logiciel PDF. Mais plutôt que d'envoyer des raccourcis clavier qui dépendent de la langue, tu peux envoyer des séquences de touches de manière à aller sur les bons items des menus. En effet, d'une langue à l'autre, la position des items dans les menus ne varie pas. Au besoin, tu peux piloter la souris pour aller cliquer sur les menus.
Marsh Posté le 07-12-2017 à 23:33:24
la methode de kiki me convient
lire le fichier PDF avec un logiciel que le connais et que j'ai parametré est le meilleur moyen car je sais au moins quel en sera le résultat
le TXT sera toujours au même format
avec les sendkey, ou par auto it, je suis toujours tributaire
-de la langue eventuellement
-du logiciel de lecture
-du format du txt en sortant
merci quand même
Marsh Posté le 08-12-2017 à 22:38:37
kiki j'ai une autre question
peut être que tu sais, vu que tu sembles maitriser les manipulations de PDF
est il possible de connaitre l’arborescence exacte d'un PDF qu'on a déjà ouvert (chargé depuis SAP par exemple)
en réalité il se met temporairement dans un répertoire a rallonge... sur C:
si' j'en ouvre un autre depuis outlook, pareil
le fichier se met temporairement dans une répertoire a rallonge
le but est d'y accéder pour le traiter avec pdftotxt.exe
Marsh Posté le 09-12-2017 à 02:16:25
Salut, voir avec Liste des fichiers d'un dossier : Win 32/64 Bits : https://excel.developpez.com/telech [...] 32-64-Bits , s'il peut te rendre service.
Marsh Posté le 09-12-2017 à 14:10:28
merci mais ce n'est pas ça que je cherche
ça serait un code qui détecterait quelle fenêtre à pour nom *.pdf
et capturerait le fichier lu dans cette fenêtre
Marsh Posté le 10-12-2017 à 06:14:40
Salut, il te faudra faire appel aux APIs et aux recherches sur le net : un exemple à adapter : http://vbnet.mvps.org/index.html?c [...] simple.htm
Marsh Posté le 27-11-2017 à 22:38:08
Bonsoir
j'ai une macro en VBA qui manipule les lecteurs PDF, afin d'extraire le contenu du PDF en TXT
j'envoi donc des sendkey au logiciel PDF (acrobat reader par exemple)
les sendkey correspondent au racourci du genre fichier/sauver autre format/ format TXT
exemple de code :
If NomFenetre Like "*- Adobe Acrobat Reader DC" Then SendKeys "%hsx", True
If NomFenetre Like "*- Adobe Reader" Then SendKeys "%hsx", True
If NomFenetre Like "Adobe Reader*" Then SendKeys "%fx", True
If NomFenetre Like "*- Adobe Acrobat" Then SendKeys "%hsaa", True
le soucis que j'ai c'est que cela marche pour les versions francaises
est il possible de détecter la langue d'installation du logiciel PDF ?
attention, windows peux etre en francais, et acrobat en anglais