REGEX, ExtracPDF, et dictionnaire - Python - Programmation
Marsh Posté le 06-03-2019 à 21:16:03
Bonsoir.J'ai un peu avancé et fait ce code en utilisant les expressions régulières
Code :
|
Cela me trouve bien ce que je veux, mais ça me mets aussi les strings vides, pourquoi, comment l'écrire un peu mieux ?
[]
[]
[]
['D53230075']
['D532.30075.000']
[]
[]
[]
[]
[]
[]
[]
Marsh Posté le 07-03-2019 à 09:36:49
Bonjour,
Tu lis ton fichier ligne par ligne, à chaque ligne tu fais donc une recherche d'expression régulière et tu stockes la réponse dans une variable (text_trouve). Même quand rien n'est trouvé, il faut bien que ta fonction de recherche retourne quelque chose, ne serait-ce pour te dire qu'elle n'a rien trouvé.
Il te suffit de stocker les résultats non vides dans une autre variable.
Marsh Posté le 10-03-2019 à 21:51:35
Code :
|
Bonsoir. J'ai avancé et j'arrive a extraire un PDF en TXT, puis j'arrive aussi a extraire des séquences genre F123-13245-123 de mon texte. Mais j'ai un soucis
Le premier c'est extraction du PDF en TXT, sur certain PDF ca ne marche pas...L'auriez vous déjà fait, avec des code plus efficaces
le deuxieme, est l'extraction via re.findall sur le fichier TXT généré, mon code ne marche pas.par contre si j'édite le TXT ca marche. et sur d'autre fichier txt issue de pdf mais extrait différement ca marcheVous avez une idée ?
Marsh Posté le 14-03-2019 à 09:29:03
Hello,
Il y a PyPDF3 qui existe maintenant, mais je lui préfère quand même pdfminer
J'ai pas vraiment compris ton problème avec ta regex
Marsh Posté le 16-03-2019 à 16:51:25
Salut
le problème est résolu pour la partie regex
javais oublié au début de mettre
if len(r1)==1:
du coup j'avais les chaines vides qui remontaient
pour la partie PDF, le code que j'ai mis avec PyPDF2 fonctionne mais il est sensible au document qu'il doit traiter.
j'ai trouvé une solution avec un programme externe pdftotext
https://www.xpdfreader.com/
et un collègue m'a fourni une version avec pdfminer
si je veux rester a 100% en python, quel extracteur pdf=>txt vous me conseillez (d'après votre expérience)
Marsh Posté le 04-03-2019 à 23:19:41
Bonsoirje débute en python, depuis..1semainej'ai programmé des choses en VBA que je voudrais refaire en Python
Le but de mon outil est de :-lire et extraire le texte d'un PDF-lister des mot correspondant a une trame-comparer ces mots a un dictionnaire pour savoir s'ils sont bien ecrits et avoir des information dessus
Dans un premier temps, j'ai créé une boite de dialogue, qui me rempli une liste avec les lignes d'un fichier texte contenant un mot.
Ce que je voudais faire faire pour la suite, c'est lister les mot correspondant a une pattern regex
vous l'écririez comment ?
Message édité par daniel-12 le 05-03-2019 à 08:30:21