Mais comment font ces méta moteurs pour alimenter leur base de données - PHP - Programmation
Marsh Posté le 05-11-2008 à 18:09:42
Ils utilisent simplement un programme qui bosse 24h/24 sans interruption.
Il n'y a rien d'exceptionnel dans cette quantité là.
Marsh Posté le 05-11-2008 à 18:22:57
Tu penses qu'il s'agisse d'un script genre PHP qui tourne constamment?
ou un programme tiers sur le serveur?
J'y connais pas grand chose dans ce domaine
Marsh Posté le 05-11-2008 à 18:26:36
Pour gagner en vitesse d'exécution il est plus logique de faire un programme en C, en delphi ou tout autre langage compilé. Mais c'est faisable en php si on a une machine assez puissante.
Marsh Posté le 05-11-2008 à 18:41:10
donc si je comprends bien c'est soit:
- un programme tiers sur le serveur qui passent son tps à crawler internet et alimente la base de données.
- un programme tiers en local qui crawle en utilisant la connexion internet du gars et qui se connecte à la base distante pour l'alimenter
J'ai tout pigé? ^^
Marsh Posté le 05-11-2008 à 19:01:57
Merci omega2 pour ton intervention, j'apprécie beaucoup!
Si quelqu'un d'autre en sait davantage sur la question, je reste ouvert
Marsh Posté le 05-11-2008 à 19:08:58
sur l'intranteque je developpe, j'indexe un peu plus de 400 000 documents , en php , masi je m'appuie sur lucene pour indexer tout ca , d'autre utilise sphinx pour stocker et organiser les données
l'avantage de sphinx est d'etre une surcouche sur mysql , c'est assez simple a mettre en place. PErso , j'ai préféré lucene pour sa puissance au niveau des filtres
apres , tu fasi, en php , les interface de consultation, ou tu t'appuie sur des crawler qui fonctionnent deja et tu te contente des les intégrer
Marsh Posté le 05-11-2008 à 22:21:19
welcominh a écrit : Bonjour à tous, j'ai une question plutot d'ordre général que technique. |
'lut
ce nombre est complètement ridicule pour un moteur de recherche, si tu nous parlais de millions/jours ce serait déjà plus proche de la réalité
comme le souligne omega2, faut pas chercher à rivaliser avec les moteurs les plus connus avec un moteur en php
omega2 -> c'est un peu la facilité la "machine assez puissante" : cela peu cacher un algorithme super lent
Marsh Posté le 06-11-2008 à 11:54:07
MegaLeech mwé .. vérifies les broken links aussi
+1
Marsh Posté le 06-11-2008 à 13:20:47
Heu, je me permet quand même de vous rappeler que faute d'info contraire il faut considérer que la base de donné sera sur le même serveur que celui qui traite les pages et qu'une base très remplis (plusieurs dizaines ou centaines de gigas de données dans une même table) finis par ralentir la machine dès qu'on y rajoute des données ou qu'on y cherche des données.
Là où un pentium 400 suffit très largement pour parser une page en deux secondes même avec un mauvais algo, il n'en est pas de même quand on a une base de donnée qui patine à côté.
Marsh Posté le 13-11-2008 à 18:37:20
grosbin a écrit : MegaLeech mwé .. vérifies les broken links aussi |
Oui j'ai aussi remarqué des liens morts. Je comptais rajouter la possibilité de signaler des liens morts.
Pour en revenir, j'ai un hébergement mutualisé. Je ne peux donc rien installer.
Je cherche donc un web crawler gratuit sous windows donc. (Oui blamez moi si vous voulez mais je ne suis pas à l'aise avec Linux ) j'ai cherché un peu mais je n'ai rien trouvé à part un win web crawler qui n'est pas terrible après l'avoir testé
Si quelqu'un en connait, je suis preneur
Merci
Marsh Posté le 13-11-2008 à 18:38:32
lucene/nutch ?
mias l'installation est loin d'etre triviale
Marsh Posté le 16-11-2008 à 23:44:46
woah tu ments pas toi quand tu dis que l'installation n'est pas simple
Je n'y suis pas vraiment arrivé. Problème de java, l'install du SE sur le site de Sun avait l'air buggé, j'ai du la prendre sur un autre site. Même après ca, en faisant un "nutch crawl" d'après le tuto à suivant, j'ai une exception. Donc problème de java. J'ai désinstallé plein de fois, réinstallé java plein de fois. J'en peux plus
Je laisse de coté pour le moment, à moins qu'il n'y ait une solution plus simple
Marsh Posté le 05-11-2008 à 17:54:59
Bonjour à tous, j'ai une question plutot d'ordre général que technique.
Vous connaissez surement ces sites rapidlibrary.com et 4megaupload.com qui sont deux moteurs de recherche pour 2 célèbres hébergeurs de fichiers. J'ai pu lire qu'apparemment ils étaient codés en PHP et javascript. Jusque là pas de probleme.
J'ai essayé de faire un méta moteur moi-même. Le résultat n'est pas mauvais à mon sens. Il s'agit du site dans ma signature. C'est alors que je me trouve confronté à une énigme: ces 2 fameux sites voient leurs bases s'agrandir à une vitesse folle chaque jour. Et j'ai beau me creuser la tête, je ne vois pas où ils vont piquer tous ces liens. 40 000 lignes ajoutées en un jour c'est énorme
Quelqu'un n'aurait-il pas une idée de comment ces moteurs alimentent leur base?
Merci beaucoup.
Message édité par welcominh le 05-11-2008 à 17:56:16
---------------
Direct-download.com, le moteur de recherche pour Mega