Anti aspirateur de site.

Anti aspirateur de site. - Java - Programmation

Marsh Posté le 02-06-2004 à 16:47:00    

Bonjours.
J'aurais voulu savoir si java à de meilleurs capacité que d'autre language pour detecter ou limiter l'utilisation des aspirateurs de site. Si oui sur quoi devrais-je m'orienté. Je precise que c'est pour des images et non pas sur les documents.
Merci

Reply

Marsh Posté le 02-06-2004 à 16:47:00   

Reply

Marsh Posté le 02-06-2004 à 17:22:19    

Comment comptes-tu détecter un aspirateur de site à l'aide d'un langage de programmation quel qu'il soit ?
 
Tu comptes écrire un plug-in pour un webserver, à moins que ton server soit home-made ??


Message édité par sircam le 02-06-2004 à 17:22:52

---------------
Now Playing: {SYNTAX ERROR AT LINE 1210}
Reply

Marsh Posté le 02-06-2004 à 18:16:01    

berceker united a écrit :

J'aurais voulu savoir si java à de meilleurs capacité que d'autre language pour detecter ou limiter l'utilisation des aspirateurs de site.


non


---------------
ma vie, mon oeuvre - HomePlayer
Reply

Marsh Posté le 02-06-2004 à 18:41:16    

C'est un peu court, jeune homme.  :sol:


---------------
Now Playing: {SYNTAX ERROR AT LINE 1210}
Reply

Marsh Posté le 02-06-2004 à 18:44:42    

sircam a écrit :

C'est un peu court, jeune homme.  :sol:


y a pas grand chose à argumenter ... je vois pas pkoi un langage pourrait être plus adapté qu'un autre pour ce genre de truc ...


---------------
ma vie, mon oeuvre - HomePlayer
Reply

Marsh Posté le 02-06-2004 à 18:58:18    

c'est quand meme boulet, faudra un jour qu'on m'explique l'interet d'empecher de consulter un truc qui est supposé etre librement consultable


---------------
Hey toi, tu veux acheter des minifigurines Lego, non ?
Reply

Marsh Posté le 02-06-2004 à 21:06:00    

benou a écrit :

y a pas grand chose à argumenter ... je vois pas pkoi un langage pourrait être plus adapté qu'un autre pour ce genre de truc ...


Beh, si ton serveur est écrit en java (pas si farfelu comme idée), ajouter un module en java peut être plus adapté que de le faire dans tt autre langage...
 
Par contre, dans l'absolu, pour parser des chaînes de caractères, traiter des tableaux... ce qui serait manifestement le cas d'un anti-aspi, d'autres langages sont plus adaptés (Perl, ...)
 


---------------
Now Playing: {SYNTAX ERROR AT LINE 1210}
Reply

Marsh Posté le 02-06-2004 à 21:07:36    

the real moins moins a écrit :

c'est quand meme boulet, faudra un jour qu'on m'explique l'interet d'empecher de consulter un truc qui est supposé etre librement consultable


Boah... s'il a envie... Y'a même moyen d'empêcher l'accès purement et simplement, c'est même super facile  :lol:


---------------
Now Playing: {SYNTAX ERROR AT LINE 1210}
Reply

Marsh Posté le 02-06-2004 à 21:11:45    

sircam a écrit :

Beh, si ton serveur est écrit en java (pas si farfelu comme idée), ajouter un module en java peut être plus adapté que de le faire dans tt autre langage...
 
Par contre, dans l'absolu, pour parser des chaînes de caractères, traiter des tableaux... ce qui serait manifestement le cas d'un anti-aspi, d'autres langages sont plus adaptés (Perl, ...)


comme si tu pouvais avoir un "module" qui te permette de faire ca ...  
 
et dans ce cas, c'est pas vraiment le traitement de chaine qui sera un obstacle, hein  :pfff:


---------------
ma vie, mon oeuvre - HomePlayer
Reply

Marsh Posté le 02-06-2004 à 21:19:42    

benou a écrit :

comme si tu pouvais avoir un "module" qui te permette de faire ca ...  
 
et dans ce cas, c'est pas vraiment le traitement de chaine qui sera un obstacle, hein  :pfff:


Qu'est-ce qui t'empêche de créer un module pour ton propre programme, ou un plug-in si le serveur l'autorise ??? Remplace module par méthode, classe selon ta convenance, mais je ne vois pas l'obstacle.
 
Par ailleurs, tu pourrais décider de créer un proxy qui se chargerait de jouer les anti-aspis (je ne dis absolument pas que je me lancerais là-dedans, mais pq pas).
 
Dans ce cas, le gros du boulot de ton proxy étant d'examiner les requêtes entrantes, il est raisonnable de penser que le traitement de chaînes et de tableaux aura une place importante. Java n'est malheureusement pas le meilleur choix dans ce cas là (à mon grand regret). Mais il pourrait faire l'affaire, je ne dis pas.


---------------
Now Playing: {SYNTAX ERROR AT LINE 1210}
Reply

Marsh Posté le 02-06-2004 à 21:19:42   

Reply

Marsh Posté le 02-06-2004 à 21:28:39    


et comment tu vas faire pour différencier la requête d'un aspirateur de site de celle d'un browser ? [:itm]


---------------
ma vie, mon oeuvre - HomePlayer
Reply

Marsh Posté le 02-06-2004 à 22:32:23    

benou a écrit :

et comment tu vas faire pour différencier la requête d'un aspirateur de site de celle d'un browser ? [:itm]


 
le rythme de pompage, le multithread en général (10x la même ip qui te balance à fond des requetes avec un délai entre requete de l'ordre des millisecondes, ca doit se détecter...le coté systématique, etc...
 
par contre je vois que ca doit pourrir le server, vu qu'il faut tester si le délai entre requetes est raisonable...bref, c pas implémentable...


---------------
Jubi Photos : Flickr - 500px
Reply

Marsh Posté le 02-06-2004 à 22:36:13    

Jubijub a écrit :

le rythme de pompage, le multithread en général (10x la même ip qui te balance à fond des requetes avec un délai entre requete de l'ordre des millisecondes, ca doit se détecter...le coté systématique, etc...
 
par contre je vois que ca doit pourrir le server, vu qu'il faut tester si le délai entre requetes est raisonable...bref, c pas implémentable...


et en quoi java serait moins ou mieux adapté qu'un autre langage pour implémenter ca ? mmm ? [:itm]
 
sans dire qu'en faisant ca, tu risques d'avoir des problèmes avec les utilisateurs utilisant des proxys ...


Message édité par benou le 02-06-2004 à 22:36:29
Reply

Marsh Posté le 03-06-2004 à 09:39:16    

benou a écrit :

et en quoi java serait moins ou mieux adapté qu'un autre langage pour implémenter ca ? mmm ? [:itm]


Précisemment parce que la vitesse d'exécution serait primordiale, et que (je me répète) Java n'est pas le plus adapté pour ce genre de job.
 
Dans le même ordre d'idées, mais certainement plus fréquent : la détection de DoS attacks (là aussi, certains patterns : fréquences des requêtes etc) . Je ne pense pas que ce soit implémenté en java au niveau des routers.


---------------
Now Playing: {SYNTAX ERROR AT LINE 1210}
Reply

Marsh Posté le 03-06-2004 à 09:54:07    

sircam a écrit :

Précisemment parce que la vitesse d'exécution serait primordiale, et que (je me répète) Java n'est pas le plus adapté pour ce genre de job.


 :pfff:  
 
allez, je laisse tomber ...

Reply

Marsh Posté le 03-06-2004 à 09:58:58    

benou a écrit :

:pfff:  
 
allez, je laisse tomber ...


"Java, c'est beau, c'est génial, c'est le plus beau, le meilleur pour tout, ça marche très très bien"  :sarcastic:  


---------------
Now Playing: {SYNTAX ERROR AT LINE 1210}
Reply

Marsh Posté le 03-06-2004 à 12:10:12    

J'ai déja fait un anti aspirateur mais en Php et je me suis dit qu'avec Tomcat/Java il y avait des modules ou classe permettant de définir des regles etc... Je débute en java et j'en découvre tous les jours des possibilités.
 
J'ai posé la question a mon prof, il m'a dit que ce que j'ai fais en Php je pouvais le reutiliser en Java mais de maniere plus organisé.
Ce que j'avais fais en php c'etais un lien piégé il n'est pas visible a l'oeil donc s'il y a quelqu'un qui rentre dedans c'est forcement un moteur ou un aspirateur et je bloquais l'ip temporairement.
 
Pourquoi un anti aspirateur?
C'est tous simplement que j'ai fais un beau site et que ça me fait chier que les gens passe outre. qu'il prenne les pages ça me pose pas de probleme mais c'est les photos dont je ne souhaite pas qu'il prenne car ça bouffe énormement de bande passante.
 

Reply

Marsh Posté le 03-06-2004 à 12:12:43    

le fous pas sur le ouaib alors.


---------------
Hey toi, tu veux acheter des minifigurines Lego, non ?
Reply

Marsh Posté le 03-06-2004 à 12:13:23    

sircam a écrit :

"Java, c'est beau, c'est génial, c'est le plus beau, le meilleur pour tout, ça marche très très bien"  :sarcastic:


 
tu véhicules une idée reçue : java c pas plus lent qu'autre chose...prouve le que c plus lent


---------------
Jubi Photos : Flickr - 500px
Reply

Marsh Posté le 03-06-2004 à 12:13:56    

sircam a écrit :

C'est un peu court, jeune homme.  :sol:


 
t'ai pas la premiere a lui dire :O
 
 
 
 
 
 
 
 
 
(j'ai pas pu m'empecher [:itm])


---------------
IVG en france
Reply

Marsh Posté le 03-06-2004 à 12:25:15    

Berceker United a écrit :

J
Ce que j'avais fais en php c'etais un lien piégé il n'est pas visible a l'oeil donc s'il y a quelqu'un qui rentre dedans c'est forcement un moteur ou un aspirateur et je bloquais l'ip temporairement.


 
pas con ça tiens pour une fois...

Reply

Marsh Posté le 03-06-2004 à 12:36:33    

the real moins moins a écrit :

le fous pas sur le ouaib alors.


de quoi pas sur le web ?

Reply

Marsh Posté le 03-06-2004 à 13:45:20    

Tu as déjà essayer de faire un robots.txt
Ca peut être un début...


Message édité par pascal_ le 03-06-2004 à 13:46:45
Reply

Marsh Posté le 03-06-2004 à 13:48:41    

Berceker United a écrit :

de quoi pas sur le web ?


 
ben si tu met un contenu sur le web, tu pars du principe que les gens pourront le lire, l'enregistrer, le copier, modifier ect... alors empecher l'aspirateur  [:spamafote]


---------------
IVG en france
Reply

Marsh Posté le 03-06-2004 à 13:50:08    

Jubijub a écrit :

tu véhicules une idée reçue : java c pas plus lent qu'autre chose...prouve le que c plus lent


Relis mon post, je n'ai pas dit que java était lent. Simplement, si la vitesse d'exécution est un facteur critique, il me paraît normal de m'orienter vers une autre solution offrant de meilleures performances.
 
J'adore Java, je travaille en java toute la semaine, c'est mon langage de programmation préféré, mais pour certains types de traitements, y'a plus rapide (et/ou mieux adapaté pt de vue facilité de coding).
 
Inutile de le sacraliser.
 
A titre d'exemple, as-tu déjà comparé la différence de vitesse pour trier un large fichier entre Java et la commande sort sous Unix ? Est-ce à dire que Java est lent ? Pas forcément, mais vu la puissance et la rapidité de la commande sort, si le temps de tri est important, sort est mieux adapté.


---------------
Now Playing: {SYNTAX ERROR AT LINE 1210}
Reply

Marsh Posté le 03-06-2004 à 13:52:13    

the real moins moins a écrit :

le fous pas sur le ouaib alors.


+1


---------------
Now Playing: {SYNTAX ERROR AT LINE 1210}
Reply

Marsh Posté le 03-06-2004 à 14:07:52    

uriel a écrit :

ben si tu met un contenu sur le web, tu pars du principe que les gens pourront le lire, l'enregistrer, le copier, modifier ect... alors empecher l'aspirateur  [:spamafote]


 
Le problème des aspirateurs c'est que ça consomme plus de bande passante et de CPU que des visiteurs "normales".


---------------
mes programmes ·· les voitures dans les films ·· apprenez à écrire
Reply

Marsh Posté le 03-06-2004 à 14:08:44    

the real moins moins a écrit :

le fous pas sur le ouaib alors.


 
:heink: Il veut préserver sa bande passante à cause de certains qui aspirent n'importe comment les sites...
 
Il y a des méthodes, suffit de taper "anti aspirateur" dans [:google]


Message édité par pascal_ le 03-06-2004 à 14:09:14
Reply

Marsh Posté le 03-06-2004 à 14:09:03    

antp a écrit :

Le problème des aspirateurs c'est que ça consomme plus de bande passante et de CPU que des visiteurs "normales".


 
ouais enfin, on aspire pas ton site tous les jours  [:spamafote]  
 c'est un pic de temps en temps...


---------------
IVG en france
Reply

Marsh Posté le 03-06-2004 à 14:14:50    

uriel a écrit :

ouais enfin, on aspire pas ton site tous les jours  [:spamafote]  
 c'est un pic de temps en temps...


 
ça dépend du site
Un jour j'ai eu un gars qui a tenté plusieurs jours de suite de downloader mon forum avec Teleport Pro [:mlc] Ça faisait un méchant pic dans mes logs
Mais bon, mon site c'est pas le genre de trucs qui a un intérêt à aspirer. Un site avec des galleries photos c'est autre chose par exemple...


Message édité par antp le 03-06-2004 à 14:15:37

---------------
mes programmes ·· les voitures dans les films ·· apprenez à écrire
Reply

Marsh Posté le 03-06-2004 à 14:16:18    

downloader un forum??? [:mlc]  
  il est vrai que j'avais pas pris le facteur 'cretin' en consideration....


---------------
IVG en france
Reply

Marsh Posté le 03-06-2004 à 14:17:58    

uriel a écrit :

downloader un forum??? [:mlc]  


 
[:spamafote]


---------------
mes programmes ·· les voitures dans les films ·· apprenez à écrire
Reply

Marsh Posté le 03-06-2004 à 14:18:46    

Les galeries de photos, généralement, les images sont numérotés.
Donc un petit batch saupoudré de wget, et le tour est joué.
En plus comme ça on ne récupère QUE les images :D


---------------
Laissez l'Etat dans les toilettes où vous l'avez trouvé.
Reply

Marsh Posté le 03-06-2004 à 14:19:39    

uriel a écrit :

downloader un forum??? [:mlc]  
  il est vrai que j'avais pas pris le facteur 'cretin' en consideration....


C'est peut-être web.archive.org...


---------------
Laissez l'Etat dans les toilettes où vous l'avez trouvé.
Reply

Marsh Posté le 03-06-2004 à 14:20:43    

Mara's dad a écrit :

C'est peut-être web.archive.org...


 
Je doute qu'utilisent Teleport Pro ;) (il y avait le user agent)


Message édité par antp le 03-06-2004 à 14:20:55

---------------
mes programmes ·· les voitures dans les films ·· apprenez à écrire
Reply

Marsh Posté le 03-06-2004 à 15:47:45    

uriel a écrit :

ben si tu met un contenu sur le web, tu pars du principe que les gens pourront le lire, l'enregistrer, le copier, modifier ect... alors empecher l'aspirateur  [:spamafote]


Je suis d'accord dans le cas ou c'est du contenu text, par contre si c'est des galerie photo, non de chez non :non:  ça me bouffe des ressources CPU, bande passsante, cota de donnée. surtout que le server sera chez moi donc les saligots  il faut que je les traques.
 
google ?
J'ai déja cherché mais les solution proposé peuvent être contournées.
Pourquoi java et pas perl qui peut gérer cela plus facilement
Je débute en Java donc autant me faire les crocs dessus [:babakill].
Mettre un moteur Perl dessus ne fera qu'allourdire le server.  

Citation :


Apache=>Perle (pas le temps de jouer avec lui [:belokan])
Apache=>Tomcat=>Java
Mysql


Message édité par Berceker United le 03-06-2004 à 15:48:17
Reply

Marsh Posté le 03-06-2004 à 18:08:55    

Opte pour le bête robot-trap, que tu places à qq endroits judicieusement choisis  [:airforceone].
 
Et n'oublie pas le fichier robot.txt. Si un robot passe outre les directives qu'il contient, pas de quartier  [:suomi] .
 
Mais attention à ces pièges qui créent des boucles récursives pour noyer les robots (ea pour les collecteurs d'adresses emails dans le but de spammer) : là tu es certain d'alourdir la charge serveur  :lol:  
 
Maintenant, si tu veux te lancer dans ta propre implémentation... pq pas  [:airforceone]


---------------
Now Playing: {SYNTAX ERROR AT LINE 1210}
Reply

Marsh Posté le 03-06-2004 à 18:26:57    

ben le probleme avec ce genre de script c'est qu'il faut faire une difference entre les aspirateurs et les robots de moteur de recherche comme googlebot.
 
le moyen le plus simple c'est de faire un lien invisible pour les humain vers une page qui va soit mettre un cookie, soit logué l'ip afin de reconnaitre que c'est un robot.
le lien ressemble a ca:
 
<a href="/pagesecrete.php"> </a>


---------------
Découvre le HFRcoin ✈ - smilies
Reply

Marsh Posté le 03-06-2004 à 19:47:04    

Fabien a écrit :

ben le probleme avec ce genre de script c'est qu'il faut faire une difference entre les aspirateurs et les robots de moteur de recherche comme googlebot.
 
le moyen le plus simple c'est de faire un lien invisible pour les humain vers une page qui va soit mettre un cookie, soit logué l'ip afin de reconnaitre que c'est un robot.
le lien ressemble a ca:
 
<a href="/pagesecrete.php"> </a>


C'est ce que j'ai fais justement c'est ce qu'il y a marqué plus haut ;)

Reply

Marsh Posté le 03-06-2004 à 20:04:19    

Fabien a écrit :

ben le probleme avec ce genre de script c'est qu'il faut faire une difference entre les aspirateurs et les robots de moteur de recherche comme googlebot.


 
Précisemment, un moteur sérieux respectera les directives de robots.txt. Si j'ai bonne mémoire, certains aspi se proposent, par défaut, de les respecter également.
 
Ceux-là ne tenteront pas de ramper sur ton site et partant ne tomberont pas dans le trou noir.
 
Revers de la médaille : les pages de ton site ne sont pas indexées :-(.
 
Workaround : le piège mène sur une page qui résume le contenu (meta tags) ET qui te redirige vers la homepage. Ca devrait suffire.
 
Ca vous bot ?


---------------
Now Playing: {SYNTAX ERROR AT LINE 1210}
Reply

Marsh Posté le    

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed