Récupérer du texte d'une page web

Récupérer du texte d'une page web - Divers - Programmation

Marsh Posté le 19-11-2003 à 14:40:33    

Depuis ce matin, je cherche un peu dans le noir, car je ne sais pas vraiment quoi chercher pour résoudre mon problème.
 
Un client souhaiterait avoir une base de données de tous les kinés de France (répertoriés sur les pages jaunes www.pagesjaunes.fr).
 
Le but serait de pouvoir tirer ensuite des étiquettes (j'imagine sous word), le tout de manière automatisée.
Bien sur, j'aurais pu noter chaque kiné à la main depuis le site des pages jaunes, mais juste pour paris, il y a environ 2000 réponses, donc ca fait un peu long, et je sais qu'il existe d'autres moyens.
 
Ce que pas mal d'entre vous ont fait pour les bots m'interesse. Le coup de détecter le split se rapproche un peu de mon problème. Je lance une recherche sur le site pour chaque ville, et ca remplit la base de données.
 
Les questions que je me pose c'est : quel langage est le mieux adapté pour faire ca (à votre avis) ? Moi j'ai pensé à faire ca en VB et avec acess(je sais je sais...) ou en php avec mysql. De deux, vers quoi dois-je orienter mes recherches ?
 
Merci :)

Reply

Marsh Posté le 19-11-2003 à 14:40:33   

Reply

Marsh Posté le 19-11-2003 à 14:51:59    

zion a écrit :

A priori je penche pour Delphi évidemment, j'ai fait un robot comme ca y a 3 ans pour les pages d'or (un équivalent belge) et en un rien de temps le mec avait son jouet en main...
 
Mais bon c'est possible dans d'autres trucs évidemment, mais Delphi c'est top :whistle:


C'est gentil, mais je dois livrer le truc sous deux semaines (dont un premier exemplaire dans deux jours juste pour les kinés de paris), et j'ai jamais fait de delphi (c'est comme pascal c'est ca ?). Donc j'ai pas trop le temps d'apprendre.
J'ai fait un peu de pascal, mais ya deux ans à l'iut, donc bon...

Reply

Marsh Posté le 19-11-2003 à 14:53:41    

IL EST ABSOLUEMENT INTERDIT DE TRAITER DE FACON AUTOMATISEE DES INFORMATIONS PROVENANT DES ANNUAIRES DE FRANCE TELECOM.
 
Ca doit faire à peut près 4 ou 5 entrées dans les textes de lois à propos de la protection des données personnelles. Chaque entrée conduisant à des amandes de 5 MF et 5 ans d'emprisonement. Après, si t'as toujours envie de faire ça, tu fais comme tu veux, mais faudra pas venir te plaindre si tu bouffe des oranges pendant 20 ans.

Reply

Marsh Posté le 19-11-2003 à 14:57:04    

Ah... J'y avais pas pensé. Pourtant ca parait logique. Etant donné que le site offre un service gratuit, je pensais pas qu'il était interdit d'utiliser ces données...
 
Je peux faire comment ?

Reply

Marsh Posté le 19-11-2003 à 15:01:32    

zion a écrit :

Les acheter moyennant beaucoup d'argent à des firmes privées qui les ont collectées tout aussi illégalement la plupart du temps
 
[:neowen]


 
Ben justement, le truc c'est que ce kiné voulait éviter de donner des sous à france télécom, préférant me les donner à moi...
Puis, j'aurais bien aimé lui rendre ce service...

Reply

Marsh Posté le 19-11-2003 à 15:02:27    

c'est con cette loi ! 'fin pas forcément, mais le contexte donné ...
 
sinon, avec bash, wget, lynx et awk, ca doit se faire en pas très longtemps :D

Reply

Marsh Posté le 19-11-2003 à 15:05:25    

bobuse a écrit :

c'est con cette loi ! 'fin pas forcément, mais le contexte donné ...
 
sinon, avec bash, wget, lynx et awk, ca doit se faire en pas très longtemps :D


ben je connais pas tout ca moi...  
C'est vrai que c'est un peu con de livrer des données gratuites mais d'interdire l'automatisation de ce traitement.... C'est tout à fait illogique, mais bon, vive la france...
php ou vb ca peut pas marcher ???

Reply

Marsh Posté le 19-11-2003 à 15:13:19    

backdafuckup a écrit :

Ah... J'y avais pas pensé. Pourtant ca parait logique. Etant donné que le site offre un service gratuit, je pensais pas qu'il était interdit d'utiliser ces données...
 
Je peux faire comment ?


A ton avis, pourquoi le 3611 (minitel) deviens extrêment cher au bout de 3 minutes ? Simplement pour empêcher les entreprises malveillantes de récupérer les informations depuis ce service gratuit. Sur internet c'est pas possible, mais c'est la même lois qui s'applique ;)

Reply

Marsh Posté le 19-11-2003 à 15:17:27    

backdafuckup a écrit :


ben je connais pas tout ca moi...  
C'est vrai que c'est un peu con de livrer des données gratuites mais d'interdire l'automatisation de ce traitement.... C'est tout à fait illogique, mais bon, vive la france...
php ou vb ca peut pas marcher ???


Si, c'est tout à fait logique.
C'est un service offert aux particuliers, pas aux entreprises. Et heureusement que c'est interdit (et c'est tout aussi interdit dans tous les pays du monde) parceque sinon, y'a plus aucune confidentialité des données, du coup tout le monde passe en liste reouge, et super, plus personne peut appeler personne.
 
Et faut pas jouer au con avec les annuaires comme ça, parceque FT use du droit fondamental du mensonge en diffusant des données erronées dans leurs annuaires (des personnes avec des adresses et numéros fictifs) qui leur permettent de retrouver assez aisément les personnes qui abusent des infos récupérées de cette façon. Un call-center par exemple, qui va faire 500 appels à l'heure, il se fait repérer tout de suite.
 
Sinon, techniquement parlant tu peux tout simplement utiliser une macro Excel très simple à programmer) et comme ça tu lui met les données directement dans excel, il sera super content. Par contre, fait-toi payer en liquide, laisse pas ton nom dans le code, et coupe tous les liens avec ce gars si tu veux pas risquer des ennuis.
 
Parceque pour info, c'est pas du piratage de "copie sans authorisation" comme pour Windows, mais il s'agit de vol de données personnelles et de consitution de fichier individuel sans déclaration à la CNIL, plus ce que j'ai indiqué plus haut. Et clairement, si un jour FT ou la CNIL tombe sur le gars, il est pas près de s'en sortir, ça va pas se limiter à une amende.
 
PS: et ça peut très bien être un kiné qui fasse la démarche de porter plainte pour atteinte à la vie privée et acquisition illégales de données personnelles.


Message édité par MagicBuzz le 19-11-2003 à 15:22:29
Reply

Marsh Posté le 19-11-2003 à 16:59:18    

MagicBuzz a écrit :


Si, c'est tout à fait logique.
C'est un service offert aux particuliers, pas aux entreprises. Et heureusement que c'est interdit (et c'est tout aussi interdit dans tous les pays du monde) parceque sinon, y'a plus aucune confidentialité des données, du coup tout le monde passe en liste reouge, et super, plus personne peut appeler personne.
 
Et faut pas jouer au con avec les annuaires comme ça, parceque FT use du droit fondamental du mensonge en diffusant des données erronées dans leurs annuaires (des personnes avec des adresses et numéros fictifs) qui leur permettent de retrouver assez aisément les personnes qui abusent des infos récupérées de cette façon. Un call-center par exemple, qui va faire 500 appels à l'heure, il se fait repérer tout de suite.
 
Sinon, techniquement parlant tu peux tout simplement utiliser une macro Excel très simple à programmer) et comme ça tu lui met les données directement dans excel, il sera super content. Par contre, fait-toi payer en liquide, laisse pas ton nom dans le code, et coupe tous les liens avec ce gars si tu veux pas risquer des ennuis.
 
Parceque pour info, c'est pas du piratage de "copie sans authorisation" comme pour Windows, mais il s'agit de vol de données personnelles et de consitution de fichier individuel sans déclaration à la CNIL, plus ce que j'ai indiqué plus haut. Et clairement, si un jour FT ou la CNIL tombe sur le gars, il est pas près de s'en sortir, ça va pas se limiter à une amende.
 
PS: et ça peut très bien être un kiné qui fasse la démarche de porter plainte pour atteinte à la vie privée et acquisition illégales de données personnelles.


 
 
Merci pour ton explication mon cher magic buzz, j'avais pas envisagé les choses comme ca (je ne vois pas forcément le mal partout...).
Ben je vais appeler mon client pour lui dire que c'est pas possible...
Merci à tout le monde...
 
Ceci dit, quel est la méthode qu'ont utilisé certains de ce forum pour programmer les bots (récupérations de texte dans les pages de hfr) ? J'ai vu les langages utilisés : asm pour harko(...), java pour benou, et après les autres je sais pas...
C'est possible dans tout langage non ?

Reply

Marsh Posté le 19-11-2003 à 16:59:18   

Reply

Marsh Posté le 19-11-2003 à 20:29:40    

HFR n'est pas protégé par cette loi, d'autant plus qu'il n'est pas cencé diffuser la moindre information personnelle, ou alors c'est avec le consentement de la personne concernée.

Reply

Marsh Posté le 19-11-2003 à 20:30:58    

Par exemple, si tu postes ton numéro de téléhone, c'est toi qui l'a fait. Donc si qq1 récupère ce numéro, bah dans le cul la balayette, tu va être emmerdé pendant 6 mois.
 
Par contre, si tu postes le numéro de ton ex en demandant aux formeurs de la faire chier, alors elle peut te foutre au trou pour avoir diffusé des données personnelles.
 
Seuls les noms de marques et nom publics (Sarkozy par exemple) sont authorisés. Après, pour la moindre information (y compris un simple nom+prénom permettant d'identifier la personne) sont rigoureusement interdits sans authorisation.


Message édité par MagicBuzz le 19-11-2003 à 20:32:06
Reply

Marsh Posté le 19-11-2003 à 20:34:01    

popen('lynx -dump www.perdu.com') :whistle:


Message édité par Taz le 19-11-2003 à 20:34:11
Reply

Marsh Posté le 20-11-2003 à 18:00:44    

backdafuckup > wget, lynx et awk sont des programmes GNU très faciles à scripter en bash (interpréteur de commande GNU.
mais bon, si tu connais pas ...

Reply

Marsh Posté le 20-11-2003 à 21:32:13    

backdafuckup a écrit :


Ceci dit, quel est la méthode qu'ont utilisé certains de ce forum pour programmer les bots (récupérations de texte dans les pages de hfr) ? J'ai vu les langages utilisés : asm pour harko(...), java pour benou, et après les autres je sais pas...
C'est possible dans tout langage non ?


personnellement, moi j'y suis allé de manière assez bourrine :
- ouverture d'un socket pour me connecter sur http://forum.hardware.fr/forum1.php3?cat=10
- envoi par ce socket d'une requete GET pour obtenir la page HTML
- avec une lib que j'avais trouvée pour gérer les expressions régulières en assembleur, je parsais la page pour trouver le titre du topic Blabla@prog et le nombre de posts. Je récupérais ainsi le numéro du post et dés qu'il était égal à 999 (et non à 997 comme ce tricheur de Benou :kaola:), je postais via une requete POST
 
on avait fait un topic pour ça :'(
http://forum.hardware.fr/forum2.ph [...] 571&cat=10


---------------
J'ai un string dans l'array (Paris Hilton)
Reply

Marsh Posté le 20-11-2003 à 23:56:05    

Harkonnen a écrit :


personnellement, moi j'y suis allé de manière assez bourrine :
- ouverture d'un socket pour me connecter sur http://forum.hardware.fr/forum1.php3?cat=10
- envoi par ce socket d'une requete GET pour obtenir la page HTML
- avec une lib que j'avais trouvée pour gérer les expressions régulières en assembleur, je parsais la page pour trouver le titre du topic Blabla@prog et le nombre de posts. Je récupérais ainsi le numéro du post et dés qu'il était égal à 999 (et non à 997 comme ce tricheur de Benou :kaola:), je postais via une requete POST
 
on avait fait un topic pour ça :'(
http://forum.hardware.fr/forum2.ph [...] 571&cat=10


là c'est plus compliqué, faut remplir le formulaire et faire un post ;)
 
nan, franchement, techniquement, avec un macro excel de 10 lignes ça roule tout seul (j'ai déjà dû en poster une qui fait ça ici)
seulement je filerai pas un bout de code si c'est pour récupérer des infos sur ce site.

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed