Récupérer un document HTLM à partir d'une URL et le parser - Java - Programmation
Marsh Posté le 10-03-2005 à 13:21:10
HttpUrlConnection.
ensuite, soit tu bidouilles à la main, soit tu bidouilles avec le parser de HtmlEditorKit.
Marsh Posté le 10-03-2005 à 16:20:03
directement avec URL ca matche aussi. y a une méthode pour récupérer un InputStream directement
Marsh Posté le 10-03-2005 à 16:20:32
Et si le document est XHTML compliant, tu peux le parser tout facilement avec des fonctions DOM
Marsh Posté le 12-03-2005 à 12:59:23
Hum ok j'ai reussi à recuperer le fichier html et a le copier en local.......
mais pour le parser.... prendre ce qu'il y a entre certaines balises..... je vois pas du tout!
le parser de HtmlEditorKit ok, mais qq pourrait me dire comment s'en servir? pcq je suis dans le flou total ...
Marsh Posté le 12-03-2005 à 17:56:30
S'il est pas propre, tu peux utiliser Tidy (enfin, JTidy en java) pour transformer le HTML crade en XHTML propre.
(Je précise que j'ai jamais essayé Tidy personellement)
Marsh Posté le 14-03-2005 à 08:46:40
oui c'est du code propre HTML et je veux juste recuprer les valeurs entre certaines balises
genre <titre> mon titre </titre>
etc..
Marsh Posté le 14-03-2005 à 14:14:32
sitemesh à son propre parser, plutot efficace le bestiau.
Marsh Posté le 10-03-2005 à 13:18:36
salut a tous!
voila je cherche comment récuperer le code source d'un document HTML a partir d'une URL, pour ensuite recuperer les valeurs comprises entre certaines balises.
j'ai cherché ds la javadoc mais j'ai rien trouvé de concluant
qq peut m'aider?
merci bcp