Bonjour, Je réalise actuellement un crawler, et j'ai comme objectif de récupérer les URL externes issues des billets d'une liste de blogs. J'aimerais savoir si vous aviez une idée pour extraire facilement ces URL.
Actuellement, ma méthode consiste à 'filtrer' les URL issues du code source des pages de chaque blogs, car beaucoup de liens externes sont récurrents entre les blogs. J'ai déjà bien sur retirer tous les liens internes aux blogs. Mais cela n'est pas suffisant pour obtenir une liste 'propre'.
Marsh Posté le 11-08-2008 à 15:54:10
Bonjour,
Je réalise actuellement un crawler, et j'ai comme objectif de récupérer les URL externes issues des billets d'une liste de blogs.
J'aimerais savoir si vous aviez une idée pour extraire facilement ces URL.
Actuellement, ma méthode consiste à 'filtrer' les URL issues du code source des pages de chaque blogs, car beaucoup de liens externes sont récurrents entre les blogs. J'ai déjà bien sur retirer tous les liens internes aux blogs.
Mais cela n'est pas suffisant pour obtenir une liste 'propre'.
Merci d'avance pour votre aide.