Mais comment font ces méta moteurs pour alimenter leur base de données

Marsh Posté le 05-11-2008 à 17:54:59

Bonjour à tous, j'ai une question plutot d'ordre général que technique.

Vous connaissez surement ces sites rapidlibrary.com et 4megaupload.com qui sont deux moteurs de recherche pour 2 célèbres hébergeurs de fichiers. J'ai pu lire qu'apparemment ils étaient codés en PHP et javascript. Jusque là pas de probleme.
J'ai essayé de faire un méta moteur moi-même. Le résultat n'est pas mauvais à mon sens. Il s'agit du site dans ma signature. C'est alors que je me trouve confronté à une énigme: ces 2 fameux sites voient leurs bases s'agrandir à une vitesse folle chaque jour. Et j'ai beau me creuser la tête, je ne vois pas où ils vont piquer tous ces liens. 40 000 lignes ajoutées en un jour c'est énorme :ouch:

Quelqu'un n'aurait-il pas une idée de comment ces moteurs alimentent leur base?
Merci beaucoup.

Message cité 1 fois
Message édité par welcominh le 05-11-2008 à 17:56:16

---------------
Direct-download.com, le moteur de recherche pour Mega

Reply

Marsh Posté le 05-11-2008 à 17:54:59

Reply

Marsh Posté le 05-11-2008 à 18:09:42

Ils utilisent simplement un programme qui bosse 24h/24 sans interruption.
Il n'y a rien d'exceptionnel dans cette quantité là.

Reply

Marsh Posté le 05-11-2008 à 18:22:57

Tu penses qu'il s'agisse d'un script genre PHP qui tourne constamment?
ou un programme tiers sur le serveur?
J'y connais pas grand chose dans ce domaine

---------------
Direct-download.com, le moteur de recherche pour Mega

Reply

Marsh Posté le 05-11-2008 à 18:26:36

Pour gagner en vitesse d'exécution il est plus logique de faire un programme en C, en delphi ou tout autre langage compilé. Mais c'est faisable en php si on a une machine assez puissante.

Reply

Marsh Posté le 05-11-2008 à 18:41:10

donc si je comprends bien c'est soit:
- un programme tiers sur le serveur qui passent son tps à crawler internet et alimente la base de données.
- un programme tiers en local qui crawle en utilisant la connexion internet du gars et qui se connecte à la base distante pour l'alimenter

J'ai tout pigé? ^^

Message édité par welcominh le 05-11-2008 à 18:41:26

---------------
Direct-download.com, le moteur de recherche pour Mega

Reply

Marsh Posté le 05-11-2008 à 18:42:31

C'est ça.

Reply

Marsh Posté le 05-11-2008 à 19:01:57

Merci omega2 pour ton intervention, j'apprécie beaucoup!
Si quelqu'un d'autre en sait davantage sur la question, je reste ouvert

---------------
Direct-download.com, le moteur de recherche pour Mega

Reply

Marsh Posté le 05-11-2008 à 19:08:58

sur l'intranteque je developpe, j'indexe un peu plus de 400 000 documents , en php , masi je m'appuie sur lucene pour indexer tout ca , d'autre utilise sphinx pour stocker et organiser les données

l'avantage de sphinx est d'etre une surcouche sur mysql , c'est assez simple a mettre en place. PErso , j'ai préféré lucene pour sa puissance au niveau des filtres

apres , tu fasi, en php , les interface de consultation, ou tu t'appuie sur des crawler qui fonctionnent deja et tu te contente des les intégrer

Message édité par flo850 le 05-11-2008 à 19:12:11

Reply

Marsh Posté le 05-11-2008 à 22:21:19

welcominh a écrit :

Bonjour à tous, j'ai une question plutot d'ordre général que technique.

...
Et j'ai beau me creuser la tête, je ne vois pas où ils vont piquer tous ces liens.40 000 lignes ajoutées en un jour c'est énorme :ouch:

Merci beaucoup.

'lut
ce nombre est complètement ridicule pour un moteur de recherche, si tu nous parlais de millions/jours ce serait déjà plus proche de la réalité
comme le souligne omega2, faut pas chercher à rivaliser avec les moteurs les plus connus avec un moteur en php
omega2 -> c'est un peu la facilité la "machine assez puissante" : cela peu cacher un algorithme super lent

Reply

Marsh Posté le 06-11-2008 à 11:54:07

:ange: MegaLeech mwé .. vérifies les broken links aussi
+1

Message cité 1 fois
Message édité par grosbin le 06-11-2008 à 11:54:35

---------------
Photos Panoramiques Montagnes Haute Savoie

Reply

Marsh Posté le 06-11-2008 à 11:54:07

Reply

Marsh Posté le 06-11-2008 à 13:20:47

Heu, je me permet quand même de vous rappeler que faute d'info contraire il faut considérer que la base de donné sera sur le même serveur que celui qui traite les pages et qu'une base très remplis (plusieurs dizaines ou centaines de gigas de données dans une même table) finis par ralentir la machine dès qu'on y rajoute des données ou qu'on y cherche des données.
Là où un pentium 400 suffit très largement pour parser une page en deux secondes même avec un mauvais algo, il n'en est pas de même quand on a une base de donnée qui patine à côté.

Reply

Marsh Posté le 13-11-2008 à 18:37:20

grosbin a écrit :

:ange: MegaLeech mwé .. vérifies les broken links aussi

Oui j'ai aussi remarqué des liens morts. Je comptais rajouter la possibilité de signaler des liens morts.

Pour en revenir, j'ai un hébergement mutualisé. Je ne peux donc rien installer.
Je cherche donc un web crawler gratuit sous windows donc. (Oui blamez moi si vous voulez mais je ne suis pas à l'aise avec Linux :kaola: ) j'ai cherché un peu mais je n'ai rien trouvé à part un win web crawler qui n'est pas terrible après l'avoir testé
Si quelqu'un en connait, je suis preneur

Merci

---------------
Direct-download.com, le moteur de recherche pour Mega

Reply

Marsh Posté le 13-11-2008 à 18:38:32

lucene/nutch ?
mias l'installation est loin d'etre triviale

---------------

Reply

Marsh Posté le 16-11-2008 à 23:44:46

woah tu ments pas toi quand tu dis que l'installation n'est pas simple :sweat:
Je n'y suis pas vraiment arrivé. Problème de java, l'install du SE sur le site de Sun avait l'air buggé, j'ai du la prendre sur un autre site. Même après ca, en faisant un "nutch crawl" d'après le tuto à suivant, j'ai une exception. Donc problème de java. J'ai désinstallé plein de fois, réinstallé java plein de fois. J'en peux plus :sweat:
Je laisse de coté pour le moment, à moins qu'il n'y ait une solution plus simple

---------------
Direct-download.com, le moteur de recherche pour Mega

Reply

Mais comment font ces méta moteurs pour alimenter leur base de données

Sujets relatifs:

Leave a Replay