Le champ sémantique
La bibliothéconomie
s’est penchée sur l’optimisation des résultats de recherche
depuis la fin des années 1950 en proposant de normaliser le vocabulaire
et d’établir des relations conceptuelles entre les termes.
Ce vocabulaire a été réuni dans un ouvrage appelé
« thésaurus ». Dans cet ouvrage, les relations
entre les concepts sont établies par des termes rejetés,
des termes spécifiques, des termes génériques dans
le but d’indexer ou de représenter le contenu d’un document.
Parallèlement, les sciences de l’éducation ont exploré
les cartes conceptuelles. Bibliothéconomie et sciences de
l’éducation se sont rejoints pour mettre en commun leur expertise.
Les thésaurus
sont répandus dans le milieu des banques de données professionnelles.
Depuis quelques années, les sociétés de recherche
documentaire se sont penchées sur la meilleure façon d’optimiser
la recherche en adjoignant des thésaurus. Déjà,
nous pouvons apercevoir des application sur les automates de recherche.
Excite a la fonction « Zoom In » et AltaVista utilise le logiciel
de Teragram pour repérer des termes fautifs et des suggestions.
Lycos US, Sympatico-Lycos, HotBot soumettent des suggestions de termes
de recherche déjà utilisés par des internautes par
l'intermédaire de Direct Hit. Bien que ce ne soit pas des
thésaurus proprement dits, c’est un début. Parmi les
sociétés de recherche, Fast Search, en collaboration avec
Elsevier, est la seule à proposer une banque de données utilisant
un thésaurus, du moins en apparence : Scirus.
Au départ,
Scirus liste 21 sujets
scientifiques. A la suite d’une requête, il donne une série
de concepts à choisir afin de raffiner la recherche. Allant
dans la même direction, le méta-chercheur Kartoo
met les sites en relations avec une liste de mots communs provenant des
pages web, mots que l’on peut ajouter ou soustraire de la requête
initiale.
Dans le
cadre de cette étude, nous avons voulu savoir où en étaient
les automates de recherche dans ce domaine. Nous avons observé
qu’aucun d’entre eux n’exploite efficacement ce mode de recherche.
Ils ne tiennent pas compte des relations sémantiques. Ils
se cantonnent strictement au terme de recherche. C’est ce que l’on
peut s’attendre d’un logiciel de recherche tout à fait correct.
On ne peut le blâmer de faire resurgir des pages non pertinentes
qui peuvent être perçues comme du « bruit ».
Si les
automates de recherche n’utilisent pas les thésaurus, on peut au
moins s’attendre à ce que les pages non pertinentes ayant les termes
de recherche soient classées après les pages pertinentes.
Pour arriver à ce classement, les automates de recherche auraient
été programmés pour donner une pondération
aux champs d'une page web. Cette pondération constituerait
les fameux algorithmes gardés jalousement secret par les sociétés
de recherche. Ces champs sont le méta-titre, la méta-description,
les méta-identificateurs (keywords), les titres et sous-titres,
l'URL, les hyperliens, le premier paragraphe, le texte (pourcentage du
terme de recherche par rapport au nombre total de mots) et la proximité
des termes de recherche. Les sociétés de recherche ajoutent
à ce traitement l'analyse des hyperliens (le classement par notoriété)
et le classement par popularité (liens cliqués par les internautes).
Dans ce cas, nous pourrions penser que les premières références
tiennent compte de tous ces éléments et, suivant la pondération
descendante, les pages qui ont uniquement les termes de recherche enfouis
dans le texte suivraient les pages pertinentes.
Dans ce
contexte, le champ sémantique représente un mot correspondant
à la requête mais non pertinent à la question parce
qu’il n’est ni le sujet du texte - principal ou secondaire - ni ne représente
aucun concept défini dans le texte.
Par exemple,
sur la recherche « déserts d’Australie », les mots «
déserts » et « Australie »
peuvent se retrouver dans deux phrases contiguës. Dans une recherche
sur la « définition de l’UMTS », le mot « définition
» peut se rapporter non pas à l’UMTS mais aux longueurs d’ondes
allouées à ce moyen de communication. Dans celle du
« syndrome de Rett », cette maladie peut faire partie d’une
nomenclature d’handicaps mentaux. Dans certains cas, le ou les mots
peuvent faire partie d’une référence. Dans tous les
cas, ils ne sont pas hyperliés. C’est ici que l’on peut constater
une erreur de rédactions de pages. Beaucoup d’entre elles
auraient pu mener à des pages de références si elles
avaient été hyperliées.
Le cas
est patent avec les questions qui ont un taux de rappel de sites d’entreprises
élevé comme celles sur la norme ISO 9000 et le dressage de
chiens.
La norme
ISO 9000 concerne la gestion de la qualité dans les entreprises
publiée par l’Organisation internationale de normalisation.
Cette question reçoit l’un des plus hauts taux, avec celui du dressage
canin, dans la comparaison des champs sémantiques des questions.
Dans le
premier cas, beaucoup d’entreprises de gestion proposent d’implanter cette
norme en la nommant et en donnant les grandes lignes ou les modifications,
mais aucune ne se réfère par hyperlien à la norme.
Leur client ou futur client doit avoir une foi aveugle en eux ! J’ai
pu remarquer que peu de ces entreprises sont certifiées ISO
9000 !
Dans le
cas du dressage de chien, la situation est similaire. Beaucoup d’entreprises
offrent ce service comme si leur site était une brochure publicitaire.
Pourtant, donner des conseils - que l’on retrouve sur le web - pourrait
fidéliser leur clientèle et leur apporter une renommée
qui les positionnerait mieux dans les résultats de recherche.
Tableau
1 - Classement par taux de rappel
Rang |
Automates |
C.
S. % |
Pert.
% |
Total
% |
1 |
Google
français |
41 |
38 |
79 |
2 |
MSN |
45 |
34 |
79 |
3 |
Excite
Canada/USA |
46 |
32 |
78 |
4 |
Lycos
US |
44 |
32 |
76 |
5 |
Excite
France |
44 |
27 |
71 |
6 |
AllTheWeb |
39 |
31 |
70 |
7 |
Lycos
Canada |
39 |
29 |
68 |
8 |
NorthernLight |
45 |
23 |
68 |
9 |
AltaVista
France |
32 |
35 |
67 |
10 |
Lycos
France |
39 |
27 |
66 |
11 |
Voila |
39 |
23 |
62 |
12 |
HotBot
USA |
35 |
26 |
61 |
13 |
AltaVista
USA |
39 |
17 |
56 |
14 |
AltaVista
Canada |
37 |
18 |
55 |
15 |
AltaVista
Belgique |
41 |
11 |
52 |
16 |
HotBot
France |
32 |
17 |
49 |
Pourcentage
calculé sur 480 réponses potentielles pour chaque automate.
C.S.
= Champ sémantique
Pert.
= Pertinence
Tableau
2. Comparaison C.S. et
pertinence
dans les 10 premières références
Rang |
Automates |
C.S.
% |
Pert.
% |
1 |
AltaVista
USA |
76% |
76% |
2 |
AltaVista
Canada |
58% |
65% |
3 |
HotBot
France |
56% |
59% |
4 |
Excite
France |
53% |
84% |
5 |
HotBot
USA |
52% |
75% |
6 |
Google
français |
51% |
52% |
7 |
Voila |
50% |
58% |
8 |
AltaVista
Belgique |
48% |
57% |
9 |
AltaVista
France |
48% |
66% |
10 |
Excite
USA |
48% |
65% |
11 |
Lycos
France |
48% |
77% |
12 |
Lycos
Canada |
47% |
68% |
13 |
MSN |
47% |
79% |
14 |
AllTheWeb |
46% |
69% |
15 |
Lycos
USA |
45% |
66% |
16 |
Northern
Light |
45% |
82% |
|
Le champ
sémantique peut être perçu comme du « bruit
».
En matière de recherche, ce «bruit» est une apparence.
Les pages contenant seulement et uniquement les termes de recherche peuvent
receler ce qui est appelé des «signaux faibles », c’est-à-dire une information pertinente
perdue dans un texte. Par exemple, un terme relevant de notre «champ sémantique » peut être accompagné
d’une référence non hyperliée ou d’un synonyme, d’un
antonyme, etc. Ces pages peuvent servir à réorienter
une recherche. Nous n’avons pas pousser aussi loin l’analyse de ces
pages. Notre but est de souligner l’importance que peuvent avoir
certaines de ces pages.
Nous avons
vu précédemment que la pertinence directe avait un médiocre
résultat, que les pages pertinentes se partageaient entre la première
et la deuxième page et que la pertinence indirecte faisait augmenter
la pertinence totale au tiers des réponses. Comme nous le
voyons ci-contre, en additionnant les pourcentages du « champs
sémantique » et de la pertinence totale, Google, MSN,
Lycos / AllTheWeb et Excite France ont, somme toute, un taux de rappel
des termes de recherche très honorable.
Jusqu’ici,
nous pouvions penser théoriquement que les pages ayant des champs
sémantiques se placeraient après celles des pages pertinentes
- directes et indirectes. Il n’en est rien. Nos pages de «
champ sémantique » se glissent entre des pages pertinentes
- quelles soient directes ou indirectes. Le tableau 2 met en
parallèle le pourcentage des pages pertinentes directes et celles
ayant des champs sémantiques dans les 10 premiers résultats.
Si la pondération citée plus haut avait une valeur réelle,
nous devrions retrouver peu de références inutiles dans la
première page des résultats et ces références
avoisineraient au pire les dix pour-cent.
Le cas
d’AltaVista est étonnant. 76% de toutes les pages ayant un
champ sémantique et autant ayant des pages pertinentes se trouvent
parmi les 10 premières références.
|
L’étude
des champs sémantiques met en lumière d’une part la rédaction
de pages inadaptée aux automates de recherche et d’autre part l’immobilisme
ou la timidité des sociétés de recherche à
innover ou à appliquer des solutions dans les champs bibliothéconomiques
(thésaurus) et sémiologiques. Direct Hit offre une
approche intéressante qui a favorisé certains automates sans
pour autant être décisif. Si ces techniques de recherche
ne peuvent s’appliquer pour l’instant de façon performante aux immenses
banques de données des automates, nous pouvons envisager que ces
banques se divisent en domaines spécialisés comme l’a fait
Fast Search avec Scirus.
Pour
en savoir plus :
Valerie
Basseville. (Page consultée le 12 octobre 2001). Les thésaurus.
Université de Technologie de Compiègne. S.d. http://www.utc.fr/butc/thesaurus.htm
Jean-Pierre
Cahier. (Page consultée le 12 octobre 2001). « Comment fonctionnent
les moteurs de recherche sémantique » [En ligne] in Le
Monde Informatique. ©2000
http://www.weblmi.com/TECHNO/2000/875_32_standardsettech00.htm
Cambridge
Scientific Abstracts (CSA).(Page consultée le 12 octobre 2001).
Listes
des thésaurus et des mots clés. (2001). http://www.csa.com/csa-fr/HelpV5/thesauri.shtml
Antoine
Crochet-Damais. (Page consultée le 12 octobre 2001). « Moteurs
de recherche: la quête du sens » [En ligne] in JDN
solutions. (2001). http://solutions.journaldunet.com/dossiers/moteurs/sommaire.shtml
Direct
Hit. (Page consultée le 12 octobre 2001). « Direct Hit
Announces "Related Search Terms" Internet Search Technology
». Communiqué. January 25, 1999. http://www.directhit.com/about/press/releases/related_searches_release.html
Lalthoum
Saadani et Suzanne Bertrand-Gastaldy. (Page consultée le 12 octobre
2001). « Cartes conceptuelles et thésaurus :
essai de comparaison entre deux modèles de représentation
issus de différentes traditions disciplinaires ». [En ligne]
in
ACSI
2000: Les dimensions d'une science de l'information globale. Association
canadienne des sciences de l'information. Travaux du 28e congrès
annuel tenu dans le cadre du Congrès des sciences sociales et humaines
du Canada à la School of Library & Information Studies Université
d'Alberta Edmonton, Alberta, Canada 28-30 mai 2000. http://www.slis.ualberta.ca/cais2000/saadani.htm
*Les
sites Excite Canada et Excite France ont disparu en décembre 2001.
Excite USA a retiré son formulaire avancé.
|