JTidy et filtre web

JTidy et filtre web - Java - Programmation

Marsh Posté le 29-09-2007 à 21:48:56    

Bonsoir à tous.
 
Voilà j'ai un petit projet à faire en java, je vous demande pas de le faire à ma place mais juste quelques conseils si vous voulez bien  :) .
 
Voilà globalement on va dire que c'est un filtre web. Je m'explique:
Un utilisateur entre un ou plusieur url de sites web, et définit des critères de filtres, style "météo" ou "news", le programme java par la suite devra renvoyer une page web à l'utilisateur avec des liens pointant uniquement sur ce contenu conforme au filtre. Le contenu devra être épuré pour ne contenir que la news par exemple, ou la météo, bref la page devra être reformaté. Et sans images pour la version pda par exemple.
 
Bref c'est galère  [:tinostar] .
 
Donc en gros ce que nous aviez pensé au départ c'était:
1. d'utiliser JTidy pour générer un fihcier xml permettant de générer un arbre hiérarchique du site (enfin plutôt la page uniquement de l'url que l'utilisateur a entré).
2. appliqué un filtre propre à chaque site et gérér les fichier xml via l'api DOM.
 
Mais on s'est rendu compte que finalement le JTidy ne servait qu'à généré un code DHTML épuré. Bref on est un peu perdu.
 
Voilà peut-être que vous avez plus d'expérience en java que moi, si vous avez une opinion ou voie (je ne demande une solution tout faite!) ca seras sympa
 
Merci.  :)


Message édité par Profil supprimé le 29-09-2007 à 21:55:12
Reply

Marsh Posté le 29-09-2007 à 21:48:56   

Reply

Marsh Posté le 01-10-2007 à 22:05:10    

Ca n'a pas l'air de passionner les foules  [:tinostar]

Reply

Marsh Posté le 02-10-2007 à 10:17:48    

Vous avez regarder du coté du projet Apache Lucene ?  
Il y a quelques mots sur le parsing d'html :  
http://wiki.apache.org/lucene-java [...] dc426d7d2e
 

Citation :

le programme java par la suite devra renvoyer une page web à l'utilisateur avec des liens pointant uniquement sur ce contenu conforme au filtre


Tu veux plutot dire renvoyer un page avec le contenu et non des liens , non ? Car sinon ils s'agit d'un moteur de recherche intra-site mais peut-etre que j'ai mal compris.
 


---------------
A religious war is like children fighting over who has the strongest imaginary friend.
Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed