Comment Google trouve t'il les mots dans les livres?

Comment Google trouve t'il les mots dans les livres? - Hébergement - Réseaux grand public / SoHo

Marsh Posté le 12-10-2009 à 18:07:55    

Salut,
 
La question me turlupine...  
 
Avec Google books ont peu chercher un mot ou une expression dans LA bibliothèque.  
 
Les livres apparaissent en fichiers image (scanné) donc comment ils font pour trouver un mot?  
 
Il leur faudrait avoir scanné ET passé toutes les pages a la reconnaissance de caractère...  :sweat:  
 
Si ils l'ont fait, pourquoi se faire hiech à présenter les bouquins en photo (parfois limite lisible) et pas en fichiers pdf par exemple?  
 
 :wahoo:


---------------
>>>>Mon feed<<<< - Le Jour J -
Reply

Marsh Posté le 12-10-2009 à 18:07:55   

Reply

Marsh Posté le 12-10-2009 à 18:16:29    

Ce sujet a été déplacé de la catégorie Windows & Software vers la categorie Réseaux grand public / SoHo par Wolfman

Reply

Marsh Posté le 12-10-2009 à 19:56:45    

Les livres sont effectivement passés à l'OCR pour être indexés de la sorte.
 
Pourquoi ils ne sont pas en PDF ?
 
Ben parce que sinon tu les retrouverais un peu partout sur la toile de façon totalement gratuite & incontrôlée.
 
Avec leur système, ils gardent "un peu" la main sur le contenu qu'ils proposent.

Reply

Marsh Posté le 12-10-2009 à 21:27:19    

Suite à ma question, j'en ai téléchargé un (libre de droit, donc) et effectivement ils proposent le fichier complet en PDF.  
 
Cependant, c'est un PDF non OCR... si on veux un mot ou une phrase on doit repasser la page à l'OCR...  
 
bizarre.  
 


---------------
>>>>Mon feed<<<< - Le Jour J -
Reply

Marsh Posté le 26-04-2010 à 21:15:30    

Les fautes de l'OCR empêchent la LECTURE, mais pas l'INDEXATION
 
La version scannée JPG, même si pas très propre, est en général lisible. Par contre le passage par l'OCR, sans doute pour un certain temps encore, détériore trop le texte pour la lecture.
 
Autrement dit, les mots altérés par OCR sont, pour encore un certain temps, trop nombreux pour permettre une lecture satisfaisante. Mais ils ne gênent pas trop l'indexation : si un mot est erroné, il sera rare, et viendra loin dans les ranks, donc ne perturbera pas vraiment les résultats de cette indexation.
 
Ce n'est qu'une supposition de ma part, mais j'aurais tendance à y lui donner plus de poids qu'à celle de la protection des droits ("Ben parce que sinon tu les retrouverais un peu partout sur la toile de façon totalement gratuite & incontrôlée" ). À noter que le fait que les PDF fournis soient des images (JPG ou autre) s'explique dans les 2 cas et ne fait donc pas sensiblement pencher pour une hypothèse ou une autre.
 
Versailles, Mon 26 Apr 2010 21:15:30 +0200


---------------
Se méfier des citations, et même des posts originaux : contexte trompeur, bannissement des victimes de lynchages ainsi empêchées de répondre, destructions de posts sélectives et massives mais non-mentionnées, etc.
Reply

Marsh Posté le 26-04-2010 à 22:01:13    

tu vas pas recommencer à upper des topics et à mettre ta signature ringade ...

Reply

Marsh Posté le 17-05-2010 à 10:52:13    

Lors d'une inscription sur un site internet, vous avez sûrement déjà croisé le système de vérification humaine reCAPTCHA qui permet de lutter contre le spam, en retapant 2 mots écrits dans un formulaire.  
 
Et bien en fait ce système anti-spam, propriété de Google, sert à numériser des livres pour le service Google Books !
Ils sont vraiment ingénieux chez Google :D
 
http://fr.wikipedia.org/wiki/ReCAPTCHA
http://recaptcha.net/learnmore.html
http://recaptcha.net/reCAPTCHA_Science.pdf
http://www.geekmaispastrop.com/200 [...] -francais/

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed