Service
de recherche
documentaire par Marc Duval, bibliothécaire |
Le
langage
|
Dernière mise à jour 2003-03-04 |
.
|
Champs et sites de recherche
Les sites de recherche ont développé des préfixes
de recherche comme nous l'avons vu avec AltaVista. Le but de
ce chapitre est d'identifier chacun de ces champs, leur utilisation
et le préfixe correspondant utilisé par chacun des sites
de recherche.
1.01 Le champ Texte
Tous les automates sauvegardent la page intégralement,
c'est-à-dire la page visible et la page invisible comprenant les
codes HTML. Cependant, tous limitent leur indexation à
une taille du fichier afin d'accélérer le traitement.
Quelques-uns tiennent comptent des métadonnées. 1.011 La casse La casse est l'usage de la majuscule et de la minuscule. Aucun des automates n'en tient compte. Pourtant, la casse est utile pour distinguer les noms communs des noms propres comme «atlas» et «Atlas», «corneille» et «Corneille», «pascal» et «Pascal», «paris» et «Paris». HotBot France a bien la recherche «trouver une personne». Toutefois, ce paramètre de recherche est inopérant. Elle n'est plus sur le formulaire d'Inktomi sur le site de HotBot, ni sur celui de MSN. Si les concepteurs des logiciels de recherche n'ont pas crû bon de mettre ce paramètre, c'est en raison de la pratique de plusieurs auteurs, surtout anglophones, qui mettent des majuscules à tous les mots principalement dans les titres (voir les actualités de Yahoo!). Cela n'empêche pas que ces concepteurs pourraient inclure ce paramètre à l'aide d'opérateurs de «contrainte» comme le signe «+» (remplaçant aussi l'opérateur logique ET).
1.012 Les signes diacritiques
Les signes diacritiques sont les accents, la cédille, le tilde
et tout autre signe donnant une nouvelle valeur à une lettre.
La reconnaissance de ces signes est importante parce qu'elle
réduit le bruit causé principalement par les homographes
comme «cru» et «crû», «cote»,
«côte» et «côté»,
«Paris» et «Pâris». AltaVista,
Inktomi/HotBot, Teoma et WiseNut reconnaissent les diacritiques. 1.013 Le correcteur orthographique En 2000, lors de la première description des automates de recherche, seul AltaVista avait un correcteur orthographique. Aujourd'hui, il est devenu un outil important. Exalead, Google, MSN/Inktomi, Teoma et Tout le web francophone ont des vérificateurs d'orthographes. Ces vérificateurs sont d'inégales valeurs. Celui de Google ressort du lot. Malheureusement, ils ne rivalisent pas encore avec le bon vieux dictionnaire. C'est pourquoi certains d'entre eux conseillent de consulter un dictionnaire lorsqu'il n'y a aucune réponse. 1.014 La taille du fichier Tous les automates de recherche tronquent les fichiers afin de réduire le temps de recherche. Cette troncation a pour résultat de soustraire de l'information. Exalead est le roi de cette pratique en réduisant son champ de recherche à environ 23K. La taille médiane des fichiers est de 110K. AltaVista, Gigablast, Google, Teoma et WiseNut arrêtent leur indexation entre 100 et 130K. Inktomi recherche jusqu'à 524K, OpenFind à 610K et AlltheWeb à 976K. Toute le web francophone de Voila est le champion avec 1582K, le plus grand fichier trouvé. ConclusionLorsque l'on parle de web invisible, on fait référence aux pages que les automates ne peuvent indexer. Il y a 2 ans, les fichiers «pdf» et ceux de microsoft faisaient partie de ce web invisible. A cette époque, nous pouvions en atteindre par Inktomi mais ils n'étaient pas dans la liste des références. Aujourd'hui, les fichiers autres que les pages web sont «recherchables» par quelques automates. Mais le web invisible ne se trouve pas là où on le pense. Il se trouve là, dans les entrailles des automates, au-delà des frontières qu'ils se sont données. Il se trouve dans le bruit provoqué par l'absence de discrimination dans les mots, par l'absence des accents et des majuscules. Plus les index des automates de recherche augmentent, plus ces automates devront trouver des moyens pour éliminer le bruit. La reconnaissance de la casse et des signes diacritiques, un correcteur d'orthographe performant et la compression de données font partie des moyens pour atteindre l'optimisation de la pertinence.
* Taille donnée dans la référence. ** Plus grande taille trouvée. (e) Taille estimée. |
Page précédente: Les
opérateurs de troncature |
Retour
au
début de la page |
Page
suivante: Le
champ Langue |
|
|
|