Quel webcrawler pour un forum protégé par mot de passe ?

Quel webcrawler pour un forum protégé par mot de passe ? - Logiciels - Windows & Software

Marsh Posté le 19-05-2017 à 19:57:02    

Bonjour, je suis membre d'un forum dont les pages ne sont accessibles qu'après login. Je voudrais faire une copie de son contenu.
 
Quel logiciel est le plus adapté ? Il faut qu'il permette de régler la vitesse de crawl car je ne souhaite pas bourriner ni apparaître comme tel, si ça met une semaine ça ne me pose pas de soucis.
 
:jap:


---------------
New Technology is the name we give to stuff that doesn't work yet. Douglas Adams
Reply

Marsh Posté le 19-05-2017 à 19:57:02   

Reply

Marsh Posté le 19-05-2017 à 20:48:40    

À part enregistrer en local les pages depuis ton navigateur, je ne vois aucun moyen légal de procéder (surtout sans demander la permission aux admins du forum en question, qui n’ont pas dû mettre son contenu en accès privé sans raison).


Message édité par Trit' le 19-05-2017 à 20:49:16
Reply

Marsh Posté le 22-05-2017 à 04:23:17    

Si j'ai le droit de participer à ce forum (je suis membre) en quoi serait-ce illégal ?


---------------
New Technology is the name we give to stuff that doesn't work yet. Douglas Adams
Reply

Marsh Posté le 22-05-2017 à 11:17:57    

asmomo a écrit :

Si j'ai le droit de participer à ce forum (je suis membre) en quoi serait-ce illégal ?


Participer ne veut pas dire en être propriétaire (du contenant ou du contenu).  
 [:moundir]  
 
Pour quelle raison veux tu "aspirer" ce forum ? (surtout qu'un forum est "vivant" par définition, et donc son contenu évolue en permanence)


---------------
#TeamNoBidouille || Come to the Dark Side, we have cookies || Mangez 5 fruits et légumes par an ! || Le digital, c'est les doigts
Reply

Marsh Posté le 12-07-2019 à 14:05:36    

En fait j'ai envie d'un backup pour usage perso. Le forum a déjà disparu (et c'est arrivé à nouveau depuis mon dernier message) avant d'être remis en ligne.
 
J'enregistre les pages les plus intéressantes mais c'est un peu lourd.


---------------
New Technology is the name we give to stuff that doesn't work yet. Douglas Adams
Reply

Marsh Posté le 12-07-2019 à 14:29:30    

Tout dépend du système d'authentification.
Si c'est du HTTP Basic ou un système de token utilisateur, les logiciels comme HTTrack sont capables de gérer l'envoi des informations de connexion.
Sinon c'est beaucoup plus complexe.


---------------
#TeamNoBidouille || Come to the Dark Side, we have cookies || Mangez 5 fruits et légumes par an ! || Le digital, c'est les doigts
Reply

Marsh Posté le 12-07-2019 à 20:19:51    

Ou wget (HTTrack n’est qu’une surcouche).


---------------
Décentralisons Internet-Bépo-Troll Bingo - "Pour adoucir le mélange, pressez trois quartiers d’orange !"
Reply

Marsh Posté le 13-07-2019 à 09:12:51    

Salut  
 
J'utilise curl, j'ai demandé l'autorisation à l'admin quand même c'est pour faire des stats de foot


---------------

Reply

Marsh Posté le 02-12-2019 à 14:36:43    

J'ai essayé HTTrack, ça semblait fonctionner. J'ai juste testé vite fait puis j'ai un peu laissé tomber le sujet.
 
L'autre jour message des admin' du site comme quoi ils vont bannir tous ceux qui utilisent ce genre d'outil, donc je ne vais pas pousser plus loin.


---------------
New Technology is the name we give to stuff that doesn't work yet. Douglas Adams
Reply

Marsh Posté le 02-12-2019 à 16:06:34    

asmomo a écrit :

L'autre jour message des admin' du site comme quoi ils vont bannir tous ceux qui utilisent ce genre d'outil, donc je ne vais pas pousser plus loin.


Tu sais comment je faisais, moi, à mes débuts sur le Web (quand j’avais 16-17 ans, en 2001) ? Sélection de tout le texte des pages (du premier pseudo au dernier mot du dernier message) et copier-coller du texte sélectionné (tant pis pour les images et les smileys graphiques ; de toute façon, ils étaient souvent collés sous leur forme de code) dans un éditeur de texte tout simple comme WordPad (en, fait, je faisais pire, car j’ai longtemps préféré son ancêtre Write récupéré de Windows 3.1, encore plus basique). J’ai plein de fichiers textes datant de cette époque (j’ai dû arrêter vers 2005-2006, une fois qu’on a eu l’ADSL, car c’était avant tout dans un but de lecture hors-ligne) remplis de textes repris de sujets de forums comme Clubic ou autres.
 
C’est hyper rustique, mais là au moins, tu risques pas de te faire choper à utiliser un outil interdit par la charte de ton forum et qui pourrait se voir dans les logs du serveur, à cause de son user-agent qui le (et te) trahirait.

Reply

Marsh Posté le 02-12-2019 à 16:06:34   

Reply

Marsh Posté le 05-12-2019 à 10:03:44    

Je peux juste enregistrer les pages avec le navigateur. Bon certes ça DL les images à chaque fois.
 
Mais mon idée était de pouvoir faire une recherche avec des mots clés, hors ligne (puisque le site pourrait fermer).


---------------
New Technology is the name we give to stuff that doesn't work yet. Douglas Adams
Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed