SERVICE DE
RECHERCHE
DOCUMENTAIRE
Service de recherche documentaire DSI
par Marc Duval, bibliothécaire

Classement
des automates de recherche

Le classement selon les requêtes

Partie 5. Le champ sémantique




 Introduction

Les répertoires

 Les noms de domaines

Classement des sites de recherche
 La nature du web

Les automates

Les bases de données

 Actualités
 Le mot-clé

 Le langage de recherche
 Formulaire de recherche web
 Les brèves
 Le web universitaire
 Partie 1
 Les départements
 Le web universitaire
 Partie 2
 Les bibliothèques
 Le palmarès des villes :
 un exemple de recherche
 Accueil



  • Introduction
  • Le protocole de recherche
  • Les critères de classement
  • Le classement des automates de recherche

  • Le champ sémantique

    La bibliothéconomie s’est penchée sur l’optimisation des résultats de recherche depuis la fin des années 1950 en proposant de normaliser le vocabulaire et d’établir des relations conceptuelles entre les termes.  Ce vocabulaire a été réuni dans un ouvrage appelé « thésaurus ».  Dans cet ouvrage, les relations entre les concepts sont établies par des termes rejetés, des termes spécifiques, des termes génériques dans le but d’indexer ou de représenter le contenu d’un document.  Parallèlement, les sciences de l’éducation ont exploré les cartes conceptuelles.  Bibliothéconomie et sciences de l’éducation se sont rejoints pour mettre en commun leur expertise.
    Les thésaurus sont répandus dans le milieu des banques de données professionnelles.  Depuis quelques années, les sociétés de recherche documentaire se sont penchées sur la meilleure façon d’optimiser la recherche en adjoignant des thésaurus.  Déjà, nous pouvons apercevoir des application sur les automates de recherche.  Excite a la fonction « Zoom In » et AltaVista utilise le logiciel de Teragram pour repérer des termes fautifs et des suggestions.  Lycos US, Sympatico-Lycos, HotBot soumettent des suggestions de termes de recherche déjà utilisés par des internautes par l'intermédaire de Direct Hit.  Bien que ce ne soit pas des thésaurus proprement dits, c’est un début.  Parmi les sociétés de recherche, Fast Search, en collaboration avec Elsevier, est la seule à proposer une banque de données utilisant un thésaurus, du moins en apparence : Scirus. Au départ, Scirus liste 21 sujets scientifiques. A la suite d’une requête, il donne une série de concepts à choisir afin de raffiner la recherche.  Allant dans la même direction, le méta-chercheur Kartoo met les sites en relations avec une liste de mots communs provenant des pages web, mots que l’on peut ajouter ou soustraire de la requête initiale.
    Dans le cadre de cette étude, nous avons voulu savoir où en étaient les automates de recherche dans ce domaine.  Nous avons observé qu’aucun d’entre eux n’exploite efficacement ce mode de recherche.   Ils ne tiennent pas compte des relations sémantiques.  Ils se cantonnent strictement au terme de recherche.  C’est ce que l’on peut s’attendre d’un logiciel de recherche tout à fait correct.  On ne peut le blâmer de faire resurgir des pages non pertinentes qui peuvent être perçues comme du « bruit ».
    Si les automates de recherche n’utilisent pas les thésaurus, on peut au moins s’attendre à ce que les pages non pertinentes ayant les termes de recherche soient classées après les pages pertinentes.  Pour arriver à ce classement, les automates de recherche auraient été programmés pour donner une pondération aux champs d'une page web.  Cette pondération constituerait les fameux algorithmes gardés jalousement secret par les sociétés de recherche.  Ces champs sont le méta-titre, la méta-description, les méta-identificateurs (keywords), les titres et sous-titres, l'URL, les hyperliens, le premier paragraphe, le texte (pourcentage du terme de recherche par rapport au nombre total de mots) et la proximité des termes de recherche. Les sociétés de recherche ajoutent à ce traitement l'analyse des hyperliens (le classement par notoriété) et le classement par popularité (liens cliqués par les internautes).   Dans ce cas, nous pourrions penser que les premières références tiennent compte de tous ces éléments et, suivant la pondération descendante, les pages qui ont uniquement les termes de recherche enfouis dans le texte suivraient les pages pertinentes.
    Dans ce contexte, le champ sémantique représente un mot correspondant à la requête mais non pertinent à la question parce qu’il n’est ni le sujet du texte - principal ou secondaire - ni ne représente aucun concept défini dans le texte.
    Par exemple, sur la recherche « déserts d’Australie », les mots « déserts » et « Australie » peuvent se retrouver dans deux phrases contiguës.  Dans une recherche sur la « définition de l’UMTS », le mot « définition » peut se rapporter non pas à l’UMTS mais aux longueurs d’ondes allouées à ce moyen de communication.  Dans celle du « syndrome de Rett », cette maladie peut faire partie d’une nomenclature d’handicaps mentaux.  Dans certains cas, le ou les mots peuvent faire partie d’une référence.  Dans tous les cas, ils ne sont pas hyperliés.  C’est ici que l’on peut constater une erreur de rédactions de pages.  Beaucoup d’entre elles auraient pu mener à des pages de références si elles avaient été hyperliées.
    Le cas est patent avec les questions qui ont un taux de rappel de sites d’entreprises élevé comme celles sur la norme ISO 9000 et le dressage de chiens.
    La norme ISO 9000 concerne la gestion de la qualité dans les entreprises publiée par l’Organisation internationale de normalisation.  Cette question reçoit l’un des plus hauts taux, avec celui du dressage canin, dans la comparaison des champs sémantiques des questions.
    Dans le premier cas, beaucoup d’entreprises de gestion proposent d’implanter cette norme en la nommant et en donnant les grandes lignes ou les modifications, mais aucune ne se réfère par hyperlien à la norme.  Leur client ou futur client doit avoir une foi aveugle en eux !  J’ai pu  remarquer que peu de ces entreprises sont certifiées ISO 9000 !
    Dans le cas du dressage de chien, la situation est similaire.  Beaucoup d’entreprises offrent ce service comme si leur site était une brochure publicitaire.  Pourtant, donner des conseils - que l’on retrouve sur le web - pourrait fidéliser leur clientèle et leur apporter une renommée qui les positionnerait mieux dans les résultats de recherche.
    Tableau 1 - Classement par taux de rappel
    Rang Automates C. S. % Pert. % Total %
    1 Google français 41 38 79
    2 MSN  45 34 79
    3 Excite Canada/USA 46 32 78
    4 Lycos US 44 32 76
    5 Excite France 44 27 71
    6 AllTheWeb  39 31 70
    7 Lycos Canada  39 29 68
    8 NorthernLight  45 23 68
    9 AltaVista France  32 35 67
    10 Lycos France  39 27 66
    11 Voila  39 23 62
    12 HotBot USA  35 26 61
    13 AltaVista USA  39 17 56
    14 AltaVista Canada  37 18 55
    15 AltaVista Belgique  41 11 52
    16 HotBot France  32 17 49
    Pourcentage calculé sur 480 réponses potentielles pour chaque automate.
    C.S. =  Champ sémantique
    Pert. = Pertinence
    Tableau 2.  Comparaison C.S. et
    pertinence dans les 10 premières références
    Rang Automates C.S. % Pert. %
    1 AltaVista USA  76% 76%
    2 AltaVista Canada  58% 65%
    3 HotBot France  56% 59%
    4 Excite France 53% 84%
    5 HotBot USA  52% 75%
    6 Google français  51% 52%
    7 Voila  50% 58%
    8 AltaVista Belgique  48% 57%
    9 AltaVista France  48% 66%
    10 Excite USA 48% 65%
    11 Lycos France  48% 77%
    12 Lycos Canada 47% 68%
    13 MSN  47% 79%
    14 AllTheWeb  46% 69%
    15 Lycos USA  45% 66%
    16 Northern Light  45% 82%
    Le champ sémantique peut être perçu comme du « bruit ».  En matière de recherche, ce «bruit» est une apparence.  Les pages contenant seulement et uniquement les termes de recherche peuvent receler ce qui est appelé des «signaux faibles », c’est-à-dire une information pertinente perdue dans un texte.  Par exemple, un terme relevant de notre «champ sémantique » peut être accompagné d’une référence non hyperliée ou d’un synonyme, d’un antonyme, etc.  Ces pages peuvent servir à réorienter une recherche.  Nous n’avons pas pousser aussi loin l’analyse de ces pages.  Notre but est de souligner l’importance que peuvent avoir certaines de ces pages.
    Nous avons vu précédemment que la pertinence directe avait un médiocre résultat, que les pages pertinentes se partageaient entre la première et la deuxième page et que la pertinence indirecte faisait augmenter la pertinence totale au tiers des réponses.  Comme nous le voyons ci-contre, en additionnant les pourcentages du « champs sémantique » et de la pertinence totale, Google, MSN, Lycos / AllTheWeb et Excite France ont, somme toute, un taux de rappel des termes de recherche très honorable.
    Jusqu’ici, nous pouvions penser théoriquement que les pages ayant des champs sémantiques se placeraient après celles des pages pertinentes - directes et indirectes.  Il n’en est rien.  Nos pages de « champ sémantique » se glissent entre des pages pertinentes - quelles soient directes ou indirectes.  Le tableau 2  met en parallèle le pourcentage des pages pertinentes directes et celles ayant des champs sémantiques dans les 10 premiers résultats.  Si la pondération citée plus haut avait une valeur réelle, nous devrions retrouver peu de références inutiles dans la première page des résultats et ces références avoisineraient au pire les dix pour-cent.
    Le cas d’AltaVista est étonnant.  76% de toutes les pages ayant un champ sémantique et autant ayant des pages pertinentes se trouvent parmi les 10 premières références.
    L’étude des champs sémantiques met en lumière d’une part la rédaction de pages inadaptée aux automates de recherche et d’autre part l’immobilisme ou la timidité des sociétés de recherche à innover ou à appliquer des solutions dans les champs bibliothéconomiques (thésaurus) et sémiologiques.  Direct Hit offre une approche intéressante qui a favorisé certains automates sans pour autant être décisif.  Si ces techniques de recherche ne peuvent s’appliquer pour l’instant de façon performante aux immenses banques de données des automates, nous pouvons envisager que ces banques se divisent en domaines spécialisés comme l’a fait Fast Search avec Scirus.



    Pour en savoir plus :

    Valerie Basseville. (Page consultée le 12 octobre 2001).  Les thésaurus. Université  de Technologie de Compiègne. S.d. http://www.utc.fr/butc/thesaurus.htm

    Jean-Pierre Cahier. (Page consultée le 12 octobre 2001). « Comment fonctionnent les moteurs de recherche sémantique » [En ligne] in Le Monde Informatique. ©2000
    http://www.weblmi.com/TECHNO/2000/875_32_standardsettech00.htm

    Cambridge Scientific Abstracts (CSA).(Page consultée le 12 octobre 2001). Listes des thésaurus et des mots clés. (2001). http://www.csa.com/csa-fr/HelpV5/thesauri.shtml

    Antoine Crochet-Damais. (Page consultée le 12 octobre 2001). « Moteurs de recherche: la quête du sens » [En ligne] in JDN solutions. (2001). http://solutions.journaldunet.com/dossiers/moteurs/sommaire.shtml

    Direct Hit. (Page consultée le 12 octobre 2001).  « Direct Hit Announces "Related Search Terms" Internet Search Technology ». Communiqué. January 25, 1999. http://www.directhit.com/about/press/releases/related_searches_release.html

    Lalthoum Saadani et Suzanne Bertrand-Gastaldy. (Page consultée le 12 octobre 2001). « Cartes conceptuelles et thésaurus : essai de comparaison entre deux modèles de représentation issus de différentes traditions disciplinaires ». [En ligne] in ACSI 2000: Les dimensions d'une science de l'information globale. Association canadienne des sciences de l'information. Travaux du 28e congrès annuel tenu dans le cadre du Congrès des sciences sociales et humaines du Canada à la School of Library & Information Studies Université d'Alberta Edmonton, Alberta, Canada 28-30 mai 2000. http://www.slis.ualberta.ca/cais2000/saadani.htm



    *Les sites Excite Canada et Excite France ont disparu en décembre 2001.  Excite USA a retiré son formulaire avancé.
    ***




    page
    8a
    8b
    8c
    8d
    8e
    8f
    8g
    8h
    8i
    8j
    8k
    8l




    Classement des formulaires Conclusion





     
    Page
    1
    2
    3
    4
    5
    6
    7
    8







    Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: marcduval@dsi-info.ca
    Adresse de cette page : Marc Duval. (Page créée le 12 octobre  2001).  « Classement des automates de recherche ». [En ligne]. Longueuil. Québec, ©2001. http://www.dsi-info.ca/moteurs-de-recherche/classement-requetes8e.html
    Cette page a été éditée le 15 octobre 2001
    ©2001. Marc Duval.

    Mots clés : Bibliothèques (vedettes matières) : recherche sur Internet -- évaluation ;  recherche de l'information ; recherche documentaire ; ouvrages de références -- évaluation ; ouvrages de références -- classement ; gestion de l'information  / Nomade : recherche sur le Web / ODP : recherche sur le Net / Toile du Québec : gestion de l'information ;  Internet - Guides ; guides perfectionnement à la recherche / Voila : internet - recherche d'info sur le web / Yahoo : recherche sur le Net ; recherche sur le Web ; moteurs de recherche ; recherche et traitement de l'information ; internet - information et documentation / Pages jaunes : renseignements-service Longueuil