Extraction de données d'un PDF

Extraction de données d'un PDF - Python - Programmation

Marsh Posté le 20-10-2022 à 14:31:39    

Bonjour tout le monde,
 
J'ai une problématique un peu particulière : j'ai un schéma éléctronique en format PDF d'un sous traitant, avec des "objets" (composants élec) sur lesquels on peut avoir des infos en cliquant dessus (genre une résistance : repère topo, valeur, designation etc.).
Sauriez vous comment récupérer ces infos (metadata ?) pour les avoir sous excel (par exemple) pour faire une nomenclature (liste repère topo par feuille, valeurs etc. le tout ranger dans des colonnnes )?
Une moulinette Python, Java ou un truc comme ça (préférence python, c'est le seul truc que j'ai le droit d'install sur mon pc du boulot) ?
J'ai essayé avec Python et la librairie PyPDF2 mais quand je recherche les metadata, ça ne me sort que l'auteur, date de création etc. mais pas du tout ce que je veux.
J'ai essayé pas mal de combinaison pour récup le texte mais là pour le coup, je récupère un infame tas de texte mélangé.
 
J'admet que la programmation c'est pas mon truc, jusqu'à présent, j'étais plus dans le copié/collé de stackoverflow que dans le "design" pur.
 
Si quelqu'un a un début d'idée, une solution ou une librairie qui pourrait m'aider... :jap:

Reply

Marsh Posté le 20-10-2022 à 14:31:39   

Reply

Marsh Posté le 20-10-2022 à 17:32:03    

Difficile à dire sans avoir le pdf mais pour moi des zones cliquable affichant des informations implique des fonctionnalités avancé genre javascript.
Rien a voir avec les métadonnées qui sont effectivement des informations qualifiant le document "global" (auteur, générateur, etc.).
Aucune idée de comment (ni même si c'est possible en python) récupérer ses choses là...
 
Des pistes peut être ici après une recherche Google (parsing pdf extract javascript) : https://stackoverflow.com/questions [...] -line-tool


---------------
D3
Reply

Marsh Posté le 20-10-2022 à 17:40:07    

Oui, sans avoir le pdf sous la main (pdf que tu ne peux certainement pas partager) difficile... Sous Linux y'a différents outils pour décomposer des pdf, mais aucune idée où/comment sont sauvegardés tes données. Ca pourrait bien être du JS, avec de la chance tu peux récupérer un truc en JSON ou similaire que tu peux ensuite utiliser.

Reply

Marsh Posté le 20-10-2022 à 20:08:31    

Merci, je vais voir avec le lien. Et oui, je peux pas partager le PDF :;)

Reply

Marsh Posté le 20-10-2022 à 21:16:59    

Impossible de te répondre sans analyser le PDF.
Tu peux pas demander au sous-traitant un format plus exploitable, genre GenCAD ? :/

Reply

Marsh Posté le 20-10-2022 à 22:35:42    

Après, déjà si tu peux ouvrir le PDF avec un éditeur assez évolué, sans écrire une ligne de code tu pourrais te faire une idée de ce qui est réellement dedans. S'il n'est pas verrouillé dans tous les sens évidemment.


---------------
Topic .Net - C# @ Prog
Reply

Marsh Posté le 26-10-2022 à 12:55:22    

Question con mais tu as essayé d'ajouter le fichier directement dans Excel ?
Tu crées un nouveau workbook, tu vas dans data, get data, file, et là tu as pdf et peut être (si le fichier est pas trop mal) il va te sortir les données directement

Reply

Marsh Posté le 29-10-2022 à 19:51:01    

J'ai pas cette option dans excel (file - PDF) :??:


Message édité par moyen_moins le 29-10-2022 à 19:51:32
Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed