Récupérer un document HTLM à partir d'une URL et le parser

Marsh Posté le 10-03-2005 à 13:18:36

salut a tous!

voila je cherche comment récuperer le code source d'un document HTML a partir d'une URL, pour ensuite recuperer les valeurs comprises entre certaines balises.
j'ai cherché ds la javadoc mais j'ai rien trouvé de concluant

qq peut m'aider?

merci bcp

Reply

Marsh Posté le 10-03-2005 à 13:18:36

Reply

Marsh Posté le 10-03-2005 à 13:21:10

HttpUrlConnection.
ensuite, soit tu bidouilles à la main, soit tu bidouilles avec le parser de HtmlEditorKit.

---------------
trainoo.com, c'est fini

Reply

Marsh Posté le 10-03-2005 à 13:31:24

merci mon poulet

Reply

Marsh Posté le 10-03-2005 à 16:20:03

directement avec URL ca matche aussi. y a une méthode pour récupérer un InputStream directement

Reply

Marsh Posté le 10-03-2005 à 16:20:32

Et si le document est XHTML compliant, tu peux le parser tout facilement avec des fonctions DOM

Reply

Marsh Posté le 12-03-2005 à 12:59:23

Hum ok j'ai reussi à recuperer le fichier html et a le copier en local.......
mais pour le parser.... prendre ce qu'il y a entre certaines balises..... je vois pas du tout!
le parser de HtmlEditorKit ok, mais qq pourrait me dire comment s'en servir? pcq je suis dans le flou total ...

Reply

Marsh Posté le 12-03-2005 à 16:52:08

c'est du code propre le html ?

Reply

Marsh Posté le 12-03-2005 à 17:56:30

S'il est pas propre, tu peux utiliser Tidy (enfin, JTidy en java) pour transformer le HTML crade en XHTML propre.

(Je précise que j'ai jamais essayé Tidy personellement)

Message édité par benou le 12-03-2005 à 17:57:18

---------------
ma vie, mon oeuvre - HomePlayer

Reply

Marsh Posté le 14-03-2005 à 08:46:40

oui c'est du code propre HTML et je veux juste recuprer les valeurs entre certaines balises
genre <titre> mon titre </titre>
etc..

Reply

Marsh Posté le 14-03-2005 à 14:14:32

sitemesh à son propre parser, plutot efficace le bestiau.

---------------
Hey toi, tu veux acheter des minifigurines Lego, non ?

Reply

Récupérer un document HTLM à partir d'une URL et le parser

Sujets relatifs:

Leave a Replay