DSI. Classement des moteurs de recherche. La sémantique

SERVICE DE
RECHERCHE
DOCUMENTAIRE
Service de recherche documentaire DSI

par Marc Duval, bibliothécaire

Classement
des automates de recherche

Le classement selon les requêtes

Partie 5. Le champ sémantique

Introduction	Les répertoires	Les noms de domaines	Classement des sites de recherche
La nature du web	Les automates	Les bases de données	Actualités
Le mot-clé	Le langage de recherche	Formulaire de recherche web	Les brèves
Le web universitaire Partie 1 Les départements	Le web universitaire Partie 2 Les bibliothèques	Le palmarès des villes : un exemple de recherche	Accueil

Introduction

Le protocole de recherche

Les critères de classement

Les formulaires

- La grille d'évaluation

Les requêtes

- La liste

- Les critères

- La grille d'évaluation

Le classement des automates de recherche

Par formulaires
Par résultats

-Le pointage

global

-La pertinence directe

-La pertinence indirecte

-Le champ sémantique

-Le bruit

-Le silence

-Les codes d’erreurs

-La non- correspondance

-Le doublon

-La dysfonction

-Les thèmes

Conclusion

Le champ sémantique

La bibliothéconomie s’est penchée sur l’optimisation des résultats de recherche depuis la fin des années 1950 en proposant de normaliser le vocabulaire et d’établir des relations conceptuelles entre les termes. Ce vocabulaire a été réuni dans un ouvrage appelé « thésaurus ». Dans cet ouvrage, les relations entre les concepts sont établies par des termes rejetés, des termes spécifiques, des termes génériques dans le but d’indexer ou de représenter le contenu d’un document. Parallèlement, les sciences de l’éducation ont exploré les cartes conceptuelles. Bibliothéconomie et sciences de l’éducation se sont rejoints pour mettre en commun leur expertise.

Les thésaurus sont répandus dans le milieu des banques de données professionnelles. Depuis quelques années, les sociétés de recherche documentaire se sont penchées sur la meilleure façon d’optimiser la recherche en adjoignant des thésaurus. Déjà, nous pouvons apercevoir des application sur les automates de recherche. Excite a la fonction « Zoom In » et AltaVista utilise le logiciel de Teragram pour repérer des termes fautifs et des suggestions. Lycos US, Sympatico-Lycos, HotBot soumettent des suggestions de termes de recherche déjà utilisés par des internautes par l'intermédaire de Direct Hit. Bien que ce ne soit pas des thésaurus proprement dits, c’est un début. Parmi les sociétés de recherche, Fast Search, en collaboration avec Elsevier, est la seule à proposer une banque de données utilisant un thésaurus, du moins en apparence : Scirus. Au départ, Scirus liste 21 sujets scientifiques. A la suite d’une requête, il donne une série de concepts à choisir afin de raffiner la recherche. Allant dans la même direction, le méta-chercheur Kartoo met les sites en relations avec une liste de mots communs provenant des pages web, mots que l’on peut ajouter ou soustraire de la requête initiale.

Dans le cadre de cette étude, nous avons voulu savoir où en étaient les automates de recherche dans ce domaine. Nous avons observé qu’aucun d’entre eux n’exploite efficacement ce mode de recherche. Ils ne tiennent pas compte des relations sémantiques. Ils se cantonnent strictement au terme de recherche. C’est ce que l’on peut s’attendre d’un logiciel de recherche tout à fait correct. On ne peut le blâmer de faire resurgir des pages non pertinentes qui peuvent être perçues comme du « bruit ».

Si les automates de recherche n’utilisent pas les thésaurus, on peut au moins s’attendre à ce que les pages non pertinentes ayant les termes de recherche soient classées après les pages pertinentes. Pour arriver à ce classement, les automates de recherche auraient été programmés pour donner une pondération aux champs d'une page web. Cette pondération constituerait les fameux algorithmes gardés jalousement secret par les sociétés de recherche. Ces champs sont le méta-titre, la méta-description, les méta-identificateurs (keywords), les titres et sous-titres, l'URL, les hyperliens, le premier paragraphe, le texte (pourcentage du terme de recherche par rapport au nombre total de mots) et la proximité des termes de recherche. Les sociétés de recherche ajoutent à ce traitement l'analyse des hyperliens (le classement par notoriété) et le classement par popularité (liens cliqués par les internautes). Dans ce cas, nous pourrions penser que les premières références tiennent compte de tous ces éléments et, suivant la pondération descendante, les pages qui ont uniquement les termes de recherche enfouis dans le texte suivraient les pages pertinentes.

Dans ce contexte, le champ sémantique représente un mot correspondant à la requête mais non pertinent à la question parce qu’il n’est ni le sujet du texte - principal ou secondaire - ni ne représente aucun concept défini dans le texte.

Par exemple, sur la recherche « déserts d’Australie », les mots « déserts » et « Australie » peuvent se retrouver dans deux phrases contiguës. Dans une recherche sur la « définition de l’UMTS », le mot « définition » peut se rapporter non pas à l’UMTS mais aux longueurs d’ondes allouées à ce moyen de communication. Dans celle du « syndrome de Rett », cette maladie peut faire partie d’une nomenclature d’handicaps mentaux. Dans certains cas, le ou les mots peuvent faire partie d’une référence. Dans tous les cas, ils ne sont pas hyperliés. C’est ici que l’on peut constater une erreur de rédactions de pages. Beaucoup d’entre elles auraient pu mener à des pages de références si elles avaient été hyperliées.

Le cas est patent avec les questions qui ont un taux de rappel de sites d’entreprises élevé comme celles sur la norme ISO 9000 et le dressage de chiens.

La norme ISO 9000 concerne la gestion de la qualité dans les entreprises publiée par l’Organisation internationale de normalisation. Cette question reçoit l’un des plus hauts taux, avec celui du dressage canin, dans la comparaison des champs sémantiques des questions.

Dans le premier cas, beaucoup d’entreprises de gestion proposent d’implanter cette norme en la nommant et en donnant les grandes lignes ou les modifications, mais aucune ne se réfère par hyperlien à la norme. Leur client ou futur client doit avoir une foi aveugle en eux ! J’ai pu remarquer que peu de ces entreprises sont certifiées ISO 9000 !

Dans le cas du dressage de chien, la situation est similaire. Beaucoup d’entreprises offrent ce service comme si leur site était une brochure publicitaire. Pourtant, donner des conseils - que l’on retrouve sur le web - pourrait fidéliser leur clientèle et leur apporter une renommée qui les positionnerait mieux dans les résultats de recherche.

**Tableau 1 - Classement par taux de rappel**
Rang	Automates	C. S. %	Pert. %	Total %
1	Google français	41	38	79
2	MSN	45	34	79
3	Excite Canada/USA	46	32	78
4	Lycos US	44	32	76
5	Excite France	44	27	71
6	AllTheWeb	39	31	70
7	Lycos Canada	39	29	68
8	NorthernLight	45	23	68
9	AltaVista France	32	35	67
10	Lycos France	39	27	66
11	Voila	39	23	62
12	HotBot USA	35	26	61
13	AltaVista USA	39	17	56
14	AltaVista Canada	37	18	55
15	AltaVista Belgique	41	11	52
16	HotBot France	32	17	49

Pourcentage calculé sur 480 réponses potentielles pour chaque automate.
C.S. = Champ sémantique
Pert. = Pertinence

**Tableau 2. Comparaison C.S. et**
**pertinence dans les 10 premières références**
Rang	Automates	C.S. %	Pert. %
1	AltaVista USA	76%	76%
2	AltaVista Canada	58%	65%
3	HotBot France	56%	59%
4	Excite France	53%	84%
5	HotBot USA	52%	75%
6	Google français	51%	52%
7	Voila	50%	58%
8	AltaVista Belgique	48%	57%
9	AltaVista France	48%	66%
10	Excite USA	48%	65%
11	Lycos France	48%	77%
12	Lycos Canada	47%	68%
13	MSN	47%	79%
14	AllTheWeb	46%	69%
15	Lycos USA	45%	66%
16	Northern Light	45%	82%

Le champ sémantique peut être perçu comme du « bruit ». En matière de recherche, ce «bruit» est une apparence. Les pages contenant seulement et uniquement les termes de recherche peuvent receler ce qui est appelé des «signaux faibles », c’est-à-dire une information pertinente perdue dans un texte. Par exemple, un terme relevant de notre «champ sémantique » peut être accompagné d’une référence non hyperliée ou d’un synonyme, d’un antonyme, etc. Ces pages peuvent servir à réorienter une recherche. Nous n’avons pas pousser aussi loin l’analyse de ces pages. Notre but est de souligner l’importance que peuvent avoir certaines de ces pages.

Nous avons vu précédemment que la pertinence directe avait un médiocre résultat, que les pages pertinentes se partageaient entre la première et la deuxième page et que la pertinence indirecte faisait augmenter la pertinence totale au tiers des réponses. Comme nous le voyons ci-contre, en additionnant les pourcentages du « champs sémantique » et de la pertinence totale, Google, MSN, Lycos / AllTheWeb et Excite France ont, somme toute, un taux de rappel des termes de recherche très honorable.

Jusqu’ici, nous pouvions penser théoriquement que les pages ayant des champs sémantiques se placeraient après celles des pages pertinentes - directes et indirectes. Il n’en est rien. Nos pages de « champ sémantique » se glissent entre des pages pertinentes - quelles soient directes ou indirectes. Le tableau 2 met en parallèle le pourcentage des pages pertinentes directes et celles ayant des champs sémantiques dans les 10 premiers résultats. Si la pondération citée plus haut avait une valeur réelle, nous devrions retrouver peu de références inutiles dans la première page des résultats et ces références avoisineraient au pire les dix pour-cent.

Le cas d’AltaVista est étonnant. 76% de toutes les pages ayant un champ sémantique et autant ayant des pages pertinentes se trouvent parmi les 10 premières références.

L’étude des champs sémantiques met en lumière d’une part la rédaction de pages inadaptée aux automates de recherche et d’autre part l’immobilisme ou la timidité des sociétés de recherche à innover ou à appliquer des solutions dans les champs bibliothéconomiques (thésaurus) et sémiologiques. Direct Hit offre une approche intéressante qui a favorisé certains automates sans pour autant être décisif. Si ces techniques de recherche ne peuvent s’appliquer pour l’instant de façon performante aux immenses banques de données des automates, nous pouvons envisager que ces banques se divisent en domaines spécialisés comme l’a fait Fast Search avec Scirus.

Pour en savoir plus :

Valerie Basseville. (Page consultée le 12 octobre 2001). Les thésaurus. Université de Technologie de Compiègne. S.d. http://www.utc.fr/butc/thesaurus.htm

Jean-Pierre Cahier. (Page consultée le 12 octobre 2001). « Comment fonctionnent les moteurs de recherche sémantique » [En ligne] in Le Monde Informatique. ©2000
http://www.weblmi.com/TECHNO/2000/875_32_standardsettech00.htm

Cambridge Scientific Abstracts (CSA).(Page consultée le 12 octobre 2001). Listes des thésaurus et des mots clés. (2001). http://www.csa.com/csa-fr/HelpV5/thesauri.shtml

Antoine Crochet-Damais. (Page consultée le 12 octobre 2001). « Moteurs de recherche: la quête du sens » [En ligne] in JDN solutions. (2001). http://solutions.journaldunet.com/dossiers/moteurs/sommaire.shtml

Direct Hit. (Page consultée le 12 octobre 2001). « Direct Hit Announces "Related Search Terms" Internet Search Technology ». Communiqué. January 25, 1999. http://www.directhit.com/about/press/releases/related_searches_release.html

Lalthoum Saadani et Suzanne Bertrand-Gastaldy. (Page consultée le 12 octobre 2001). « Cartes conceptuelles et thésaurus : essai de comparaison entre deux modèles de représentation issus de différentes traditions disciplinaires ». [En ligne] in ACSI 2000: Les dimensions d'une science de l'information globale. Association canadienne des sciences de l'information. Travaux du 28e congrès annuel tenu dans le cadre du Congrès des sciences sociales et humaines du Canada à la School of Library & Information Studies Université d'Alberta Edmonton, Alberta, Canada 28-30 mai 2000. http://www.slis.ualberta.ca/cais2000/saadani.htm

*Les sites Excite Canada et Excite France ont disparu en décembre 2001. Excite USA a retiré son formulaire avancé.

***

page

Classement des formulaires

Conclusion

Page

Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: marcduval@dsi-info.ca

Adresse de cette page : Marc Duval. (Page créée le 12 octobre 2001). « Classement des automates de recherche ». [En ligne]. Longueuil. Québec, ©2001. http://www.dsi-info.ca/moteurs-de-recherche/classement-requetes8e.html

Cette page a été éditée le 15 octobre 2001

Mots clés : Bibliothèques (vedettes matières) : recherche sur Internet -- évaluation ; recherche de l'information ; recherche documentaire ; ouvrages de références -- évaluation ; ouvrages de références -- classement ; gestion de l'information / Nomade : recherche sur le Web / ODP : recherche sur le Net / Toile du Québec : gestion de l'information ; Internet - Guides ; guides perfectionnement à la recherche / Voila : internet - recherche d'info sur le web / Yahoo : recherche sur le Net ; recherche sur le Web ; moteurs de recherche ; recherche et traitement de l'information ; internet - information et documentation / Pages jaunes : renseignements-service Longueuil