DSI. Le langage de recherche: le champ de recherche «Texte»

Service de recherche documentaire

par Marc Duval, bibliothécaire

Le langage
des automates de recherche:

Le champ de recherche

Texte

Dernière mise à jour 2003-03-04

Introduction	Opérateurs booléens	Opérateurs de proximité	Troncature
Champs de recherche	Requêtes complexes	Conclusion	Formulaire de recherche
Tableaux	Les opérateurs logiques	Les champs de recherche	Affichage et fonctions

Accueil DSI

Introduction

La nature du web

Le mot clé

Les automates de recherche

-Les fiches techniques

-Le langage de recherche

Le classement des automates de recherche

Les répertoires

Les banques de données

Le web universitaire

Le palmarès des villes: un exemple de recherche

Le carnet de recherche

Les actualités

Les brèves


Conseils
Lors de vos requêtes, écrivez en minuscules.

Si vous recherchez un nom propre, écrivez-le avec les majuscules initiales même si elles sont reconnues par quelques moteurs. Lorsque la casse sera reconnue, vous y serez habitué.

Accentuez vos requêtes quel que soit l'automate. Vous pouvez aussi ajouter le signe «+» qui représente à la fois l'opérateur logique «ET» et pour Google un opérateur de «contrainte»

La vérification orthographique est une règle d'or de la recherche. N'hésitez pas à utiliser un dictionnaire comme Le Larousse ou Le Robert-Collins anglais-français.

Références
Dicorama
Yahoo! Encyclopédie
WebEncyclopédie

Champs et sites de recherche

Les sites de recherche ont développé des préfixes de recherche comme nous l'avons vu avec AltaVista. Le but de ce chapitre est d'identifier chacun de ces champs, leur utilisation et le préfixe correspondant utilisé par chacun des sites de recherche.
Les champs de recherche sont aussi utilisés pour l'affichage. C'est ce qui clora ce chapitre. En voici les parties:

1. - Les champs
   1.01    Champ Texte
        1.011    La casse
        1.012    Les signes diacritiques
        1.013    Le correcteur orthographique
        1.014 La taille du fichier
Tableau
    1.02    Champ Langue
    1.03 Champ Domaine géographique
    1.04    Champ Méta-titre
    1.05    Champ Méta-description
    1.06    Champ Meta Keywords (méta-mots)
    1.07    Champ URL
    1.08    Champ Serveur
    1.09    Champ Domaine de tête
    1.10    Champ Format de fichiers
    1.11    Champ Hyperlien
    1.12    Champ Dates [en préparation]

2. - Affichage
    2.01    Les formats d'affichage
    2.02    Le tri

1.01 Le champ Texte

    Tous les automates sauvegardent la page intégralement, c'est-à-dire la page visible et la page invisible comprenant les codes HTML. Cependant, tous limitent leur indexation à une taille du fichier afin d'accélérer le traitement. Quelques-uns tiennent comptent des métadonnées.
    Au cours des ans, des personnes peu scrupuleuses ont voulu tromper les automates en détournant l'usage des métadonnées et en dissimulant des requêtes et des liens populaires en utilisant la même couleur que fond. Ces pages qui ne contiennent pas apparemment les mots de la requête constituent du bruit. Le champ «texte» a été créé afin de contrecarrer le bruit occasionné par ces pratiques malhonnêtes appelées «spamindexation». Ce champ exclut le texte des hyperliens, des commentaires, des listes déroulantes et des textes alternatifs des images.
    Trois automates possèdent ce champ: AlltheWeb, AltaVista, Google et Inktomi/HotBot. Le tableau ci-dessous détaillent ce champ. L'utilisation du champ «texte» doit être faite en accord avec d'autres préfixes.
    Il est à noter que pour voir la page invisible avec Internet Explorer, il faut sélectionner «Affichage», puis «Source». Avec Netscape, il faut sélectionner «Afficher», puis «Source de la page». La recherche à partir de mots est soumise à trois paramètres: la casse, le signe diacritique et à l'orthographe.

1.011 La casse

La casse est l'usage de la majuscule et de la minuscule. Aucun des automates n'en tient compte. Pourtant, la casse est utile pour distinguer les noms communs des noms propres comme «atlas» et «Atlas», «corneille» et «Corneille», «pascal» et «Pascal», «paris» et «Paris». HotBot France a bien la recherche «trouver une personne». Toutefois, ce paramètre de recherche est inopérant. Elle n'est plus sur le formulaire d'Inktomi sur le site de HotBot, ni sur celui de MSN. Si les concepteurs des logiciels de recherche n'ont pas crû bon de mettre ce paramètre, c'est en raison de la pratique de plusieurs auteurs, surtout anglophones, qui mettent des majuscules à tous les mots principalement dans les titres (voir les actualités de Yahoo!). Cela n'empêche pas que ces concepteurs pourraient inclure ce paramètre à l'aide d'opérateurs de «contrainte» comme le signe «+» (remplaçant aussi l'opérateur logique ET).

1.012 Les signes diacritiques

    Les signes diacritiques sont les accents, la cédille, le tilde et tout autre signe donnant une nouvelle valeur à une lettre. La reconnaissance de ces signes est importante parce qu'elle réduit le bruit causé principalement par les homographes comme «cru» et «crû», «cote», «côte» et «côté», «Paris» et «Pâris». AltaVista, Inktomi/HotBot, Teoma et WiseNut reconnaissent les diacritiques.
    Exalead et Google utilisent des opérateurs de contrainte. Exalead emploie les guillemets anglais et Google le signe «+» avec ses interfaces nationales. Singulièrement, Google a un comportement équivoque avec son interface «google.com». Tantôt, il répond adéquatement au mot accentué, tantôt il retire l'accent selon qu'il reconnaît la langue du fureteur.
    Comparez la requête «Pâris» et «+Pâris» dans Google Canada.
    L'automate de Voila «Tout le web francophone» est insensible aux diacritiques bien qu'il soit spécialisé dans le web en français.

1.013 Le correcteur orthographique

En 2000, lors de la première description des automates de recherche, seul AltaVista avait un correcteur orthographique. Aujourd'hui, il est devenu un outil important. Exalead, Google, MSN/Inktomi, Teoma et Tout le web francophone ont des vérificateurs d'orthographes. Ces vérificateurs sont d'inégales valeurs. Celui de Google ressort du lot. Malheureusement, ils ne rivalisent pas encore avec le bon vieux dictionnaire. C'est pourquoi certains d'entre eux conseillent de consulter un dictionnaire lorsqu'il n'y a aucune réponse.

1.014 La taille du fichier

Tous les automates de recherche tronquent les fichiers afin de réduire le temps de recherche. Cette troncation a pour résultat de soustraire de l'information. Exalead est le roi de cette pratique en réduisant son champ de recherche à environ 23K. La taille médiane des fichiers est de 110K. AltaVista, Gigablast, Google, Teoma et WiseNut arrêtent leur indexation entre 100 et 130K. Inktomi recherche jusqu'à 524K, OpenFind à 610K et AlltheWeb à 976K. Toute le web francophone de Voila est le champion avec 1582K, le plus grand fichier trouvé.

Conclusion

Lorsque l'on parle de web invisible, on fait référence aux pages que les automates ne peuvent indexer. Il y a 2 ans, les fichiers «pdf» et ceux de microsoft faisaient partie de ce web invisible. A cette époque, nous pouvions en atteindre par Inktomi mais ils n'étaient pas dans la liste des références. Aujourd'hui, les fichiers autres que les pages web sont «recherchables» par quelques automates. Mais le web invisible ne se trouve pas là où on le pense. Il se trouve là, dans les entrailles des automates, au-delà des frontières qu'ils se sont données. Il se trouve dans le bruit provoqué par l'absence de discrimination dans les mots, par l'absence des accents et des majuscules. Plus les index des automates de recherche augmentent, plus ces automates devront trouver des moyens pour éliminer le bruit. La reconnaissance de la casse et des signes diacritiques, un correcteur d'orthographe performant et la compression de données font partie des moyens pour atteindre l'optimisation de la pertinence.

Les automates
(Liste)	Texte visible	Casse	Signes diacritiques	Correcteur orthographique	Taille
AlltheWeb (Fast Search)	in the text text:	Non	Non	Non	976K*
AltaVista	text:	Non	Oui	Oui	128K*
AntiSearch	Non	Non	Non	Non	129K*
Exalead (AOL)	Non	Non	Oui (avec guillemets)	Oui	23K (e)
Gigablast	Non	Non	Non	Non	101K*
Google	in the text of the page intext:	Non	Oui (précédé du signe +)	Oui	101K*
Google en français	dans le corps de la page intext:	Non	Oui (précédé du signe +)	Oui	101K*
Inktomi (HotBot)	in the body	Non	Oui	Non	524K*
MSN Search (Inktomi)	Non	Non	Non	Oui	524K (e)
Northern Light	Non	Non	Non	Non	1418K (e)
OpenFind	Non	Non	Non	Non	610K (e)
Teoma	Non	Non	Oui	Oui	115K (e)
Tout le web francophone (Voila)	Non	Non	Non	Oui	1582K**
WiseNut	Non	Non	Oui	Non	120K (e)

* Taille donnée dans la référence.
** Plus grande taille trouvée.
(e) Taille estimée.

Page précédente: Les opérateurs de troncature

Retour au début de la page

Page suivante: Le champ Langue

Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: info@dsi-info.ca

Adresse de cette page : Marc Duval. (Page créée le 1er août 2000). «Langage de recherche: le champ texte». [En ligne]. Longueuil. Québec, ©2000-2002. http://www.dsi-info.ca/moteurs-de-recherche/langages/champ-de-recherche-texte.html

Cette page a été éditée le 1er août 2000.

Le langage des automates de recherche:

Le champ de recherche

Texte

Champs et sites de recherche

Conclusion

Le langage
des automates de recherche: