Problème avec un PDF

Problème avec un PDF - Logiciels - Windows & Software

Marsh Posté le 20-02-2009 à 23:18:43    

Bonjour
 
J'ai scanné une certaine quantité de documents en pdf. Chaque pdf ne dépasse pas 60 Ko une fois scanné. Néanmoins, certain ayant des écrits ou des ratures, je suis passé par PDF-Xchange Viewer pour extraire en image ma page. Une fois sur Photoshop j'enlève ce qui ne me convient pas, j'enregistre le tout en JPEG et je passe par PDF creator pour retrouver mon pdf ... oui mais voila après cette manipulation mon pdf à l'arrivé a une taille de 1 Mo en moyenne !
 
Comment faire pour garder un poids convenable ( environ 100 Ko au max), quelles sont les étapes ou j'augmente autant la taille sans le savoir ?
 
 
Merci d'avance pour votre aide.
 
kvf300
 

Reply

Marsh Posté le 20-02-2009 à 23:18:43   

Reply

Marsh Posté le 21-02-2009 à 04:22:26    

Je pense que tu insères en fait une image dans ton PDF pour présenter le texte. Evidemment, le poids numérique d'une image est beaucoup plus important qu'un simple texte, et techniquement parlant c'est pas très séduisant comme solution.
 
Afin d'être sûr, si le contenu de l'un de tes PDF n'est pas confidentiel, tu peux en poster un pour voir ?
Je pourrai probablement ensuite t'indiquer un remède.


Message édité par Profil supprimé le 21-02-2009 à 04:25:05
Reply

Marsh Posté le 21-02-2009 à 08:23:19    

Bonjour
 
Merci d'essayer de m'aider. Je ne pense pas que vous envoyer un de mes pdf puisses vous aider. Comme je vous l'ai dis les seuls étapes que je fais sont de scanner une page ( un sujet  d'examen ), ensuite j'exporte de mon pdf une image que je modifie via Photoshop, et enfin je remet mon image en pdf via PDFCreator.
Là ou je ne comprend pas bien c'est pourquoi mon pdf ne fait que 60 Ko au départ et plus de 1 Mo à l'arrivé. J'ai bien essayé de compresser l'image ( JPEG ) mais là je perd la qualité de départ.
 
Je te laisse quand même un lien vers un fichier que j'ai modifié et qui fait 1 Mo alors que lorsque je l'ai scanné il ne faisais que 60 ko envrion.
 
 
 
Fichier de départ ( et donc léger ) Lien ==> http://www.box.net/shared/qryasruhbo
 
Fichier  modifié ( et donc lourd ) Lien ==> http://www.box.net/shared/d0r5z8srbz  
 
 
Je suis vraiment perdu et je ne sais pas comment faire pour retrouver la taille de départ et garder la qualité  de départ.

Reply

Marsh Posté le 21-02-2009 à 08:34:05    

Ah la vache !
D'accord, c'est ce que je pensais: ton texte est transformé en image, et tu as une image du texte intégrée dans le pdf final. D'ou le gros poids.
 
Je t'aurai bien proposé d'utiliser un logiciel dit d'OCR (reconnaissance de caractères) qui va te transformer du texte issu d'une image en vrai texte. Le problème, c'est que tes cours de math sont bourrés de caractères spéciaux et de signes cabalistiques, tu risques de galérer.
 
Je vais voir si je trouve pas une autre solution, mais là c'est mal barré.

Reply

Marsh Posté le 21-02-2009 à 08:37:38    

Tiens stp, donne-moi un fichier de sortie de photoshop, aussi propre que possible, le moins compressé possible (du bmp à la rigueur).
Je vais essayer un truc.

Reply

Marsh Posté le 21-02-2009 à 09:00:41    

Ok je te prépare un fichier de la sorte
 
PS: Pourrais je réaliser ce que tu vas faire sur mes autres fichiers ?

Reply

Marsh Posté le 21-02-2009 à 09:02:58    

ouais, sans souci.
C'est juste une question de format, les expérimentations que je fais depuis une petite demi-heure m'amènent à des résultats qui s'annoncent très concluants.
Je veux pas vendre la peau de l'ours, mais je crois que... tu vas être content.


Message édité par Profil supprimé le 21-02-2009 à 09:04:32
Reply

Marsh Posté le 21-02-2009 à 09:09:21    

Voila je te l'ai mis en JPG, en bmp j'ai sorti une image de 25Mo alors avec mon forfait 256 k il m'aurait fallu trop de temps.
 
==> http://www.box.net/shared/0repij5f1t

Reply

Marsh Posté le 21-02-2009 à 09:24:13    

Salut,
 
En fait le problème est probablement que tu passes d'une image monochrome à une image en 24 millions de couleurs.
 
En faisant la manip sur ton fichier à l'aide de Photoshop CS4 j'ai pu conserver quasiment la taille initiale et surtout la qualité d'origine.
 
Voici comment j'ai procédé :
1) Ouvrir le PDF directement avec Photoshop ; paramètres de la boîte "importer un fichier PDF" : Ôter la coche "Lissé", Mode en "Niveaux de gris" Note . Si tu as scanné à autre chose que 300 dpi, change la valeur pour correspondre au nombre de dpi utilisés lors du scan !
2) Passer immédiatement ton image en monochrome : Menu Image -> Mode -> Bitmap -> "Fusionner les calques" -> OK -> dans la boîte de dialogue "Bitmap" choisir un "Mode" à 50% de seuil -> OK
3) Ôter les zones noires et y mettre du blanc
4) Menu Fichier -> Enregistrer sous... -> Sous format choisir Photoshop PDF (*.PDF, *.PDP) -> Bouton "Enregistrer"
5) Dans la boîte de dialogue choisir le paramètre prédéfini Adobe PDF : "Qualité supérieure"
6) Dans Général -> Options : ôter la coche "Conserver les fonctions d'éditions de Photoshop"
7) Dans Compression -> Options : choisi "Ne pas sous-échantilloner"
8) Bouton Enregistrer le fichier PDF
 
Voilà c'est tout, note que le fichier en 300 dpi faisait 66 Ko et en 600 dpi 93 Ko une fois traité. Fichier traité (93 Ko). Après si l'on souhaite être pinailleur on peut jouer sur les versions du format PDF, le nombre de dpi et d'autres paramètres pour gagner quelques Ko, mais le jeu n'en vaut pas forcément la chandelle ;)


Message édité par Requin le 21-02-2009 à 09:36:18
Reply

Marsh Posté le 21-02-2009 à 09:30:40    

Mieux que moi !
Je suis passé moi aussi en monochrome (dans illustrator, j'ai pas phototshop) j'ai mis ça en PNG-8 sans transparence, sans tramage, 2 couleurs.
enregistrement, reprise dans openoffice, export pdf avec a/1, compression JPEG des images, qualité 90%.
 
Je fais un PDF de 40 Ko en passant l'image en 150 dpi lors de l'export PDF, mais le rendu est bizarre: http://www.tomblois.fr/hfr/essai2.pdf


Message édité par Profil supprimé le 21-02-2009 à 09:40:54
Reply

Marsh Posté le 21-02-2009 à 09:30:40   

Reply

Marsh Posté le 21-02-2009 à 09:37:57    

Requin, d'après toi, ya des chances d'avoir des résultats convaincants en passant ça à l'OCR ?

Reply

Marsh Posté le 21-02-2009 à 09:38:40    

Si tu baisses trop la résolution en monochrome tu vas avoir des effets dégueulasses sur les bordures qui vont apparaître.
 
Par contre tu peux essayer de passer en niveau de gris et ensuite réduire la résolution, ça devrait faire un antialiasing assez agréable à l'oeil, avec un risque néanmoins de flou.
 
Pour l'OCR, si tu as un bon soft le gain peut être significatif, par contre il faut un soft capable de reconnaître correctement les formule mathématiques et recréer cela en "texte" et la c'est sûrement pas gagné d'avance, la plus part vont se contenter d'insérer en images ces formules.

Message cité 1 fois
Message édité par Requin le 21-02-2009 à 09:40:58
Reply

Marsh Posté le 21-02-2009 à 09:45:50    

Requin a écrit :

il faut un soft capable de reconnaître correctement les formule mathématiques et recréer cela en "texte" et la c'est sûrement pas gagné d'avance, la plus part vont se contenter d'insérer en images ces formules.


 
C'est la réflexion que je me suis faite aussi...  :sweat:  
 
EDIT: Je viens d'essayer avec Omnipage Pro, tout passe sauf la grande accolade (inverse de racine carrée de x² + y²).
A 2000 balles la licence, il peut bien.


Message édité par Profil supprimé le 21-02-2009 à 09:56:20
Reply

Marsh Posté le 21-02-2009 à 09:54:15    

Bon un petit test de l'OCR livré avec une imprimante multifonction HP Officejet Pro 7780 le résultat est correct. La taille est assez sympa : 48 Ko et l'on peut faire du copier-coller. Mais la qualité me semble un peu en deçà : Fichier traité en OCR


Message édité par Requin le 21-02-2009 à 09:55:43
Reply

Marsh Posté le 21-02-2009 à 09:56:23    

Merci à vous deux !! Je viens de faire un test avec un autre fichier de 45 Ko une fois scanné;  avec "ma technique" je ressortais un fichier de 800 Ko et avec les indications de requin je me retrouve avec un document de très bonne qualité de 39 Ko WAOU !!!!!!
 
Merci encore à vous deux et bonne continuation.

Reply

Marsh Posté le 21-02-2009 à 09:59:25    

Citation :

Bon un petit test de l'OCR livré avec une imprimante multifonction HP Officejet Pro 7780 le résultat est correct.


Ah pas mal, mais il aurait pu te remettre des caractères Times New Roman tout neufs. Dommage pour ça.


Message édité par Profil supprimé le 21-02-2009 à 10:00:25
Reply

Marsh Posté le 21-02-2009 à 10:01:25    

Content d'avoir pu contribuer ;)

Reply

Marsh Posté le 21-02-2009 à 10:07:59    

@tom1985 : Mouais, disons que je ne lui en demande pas trop à ce soft "livré avec"... pour être honnête c'est la première fois que je l'utilisais et pour avoir utilisé Omnipage il y a de ça plusieurs années il est quand même au top par rapport à la plupart des autres softs d'OCR.
 
Alors bon il propose d'autre formats de sortie : document Word XML, RTF, page Web, texte... mais mes craintes se sont révélées exactes ça coince sur les formules mathématiques.
 
@kvf300 : de rien !


Message édité par Requin le 21-02-2009 à 10:08:28
Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed