1.08 Champ
Serveur
Le nom de
domaine est le nom du site. Il remplace l’adresse IP (Internet
Protocol) numérique qui permet à deux ordinateurs de
communiquer. Il est constitué habituellement de trois
parties: l’indicatif, le nom et le domaine. L’indicatif est
généralement les trois w pour le web. Il est de
plus en plus absent de l’adresse et remplacé par un mot.
Le nom est un mot représentant une activité, une
société, une personne, etc. et le domaine de tête
représentant une catégorie ou une organisation (com, org,
etc.) ou un pays. Chacune des parties est divisée par un
point.
Les automates étudiés sont AlltheWeb,
AltaVista, Exalead, Gigablast, Google,
Inktomi, Teoma et Voila. Inktomi est
représenté par HotBot, HotBot.fr et MSN.
Le préfixe de recherche a été
testé sur la page d’accueil pour tous et dans la case de
recherche booléenne d’AlltheWeb et d’AltaVista.
Nous avons l’habitude de faire correspondre le
nombre de pages affichées avec celui du site. En fait, le
nombre de pages affiché correspont au nombre de pages
indexées mais
pas à celui de pages actives. Plusieurs d’entre elles ont
été soit retirées du web, soit
déménagées vers une nouvelle adresse. C’est
pourquoi nous employons notice ou référence
pour désigner la page.
Les sites ont été testés avec
et sans les trois w pour voir comment réagissent les automates.
La majorité des automates de recherche
exploite la recherche par nom de domaine. Ce mode de recherche
est utilisé pour faire une recherche dans un site. Pour
les webmestres, il permet de connaître le nombre de pages
indexées dans la banque de
données des automates.
Alors que le préfixe privilégié
est site:, AltaVista a préféré le
préfixe host:.
Le préfixe s’utilise seulement avec le nom de
domaine qui est la première partie d’une adresse URL. Par
exemple, le nom de domaine d’AlltheWeb est www.alltheweb.com.
La
stratégie de recherche consiste à mettre la recherche par
domaine
avant le terme de recherche comme ceci: site:www.dsi-info.ca
“nom
de domaine”.
Certains sites de recherche ont adopté
l’usage du préfixe sans terme de recherche pour faciliter le
décompte des pages indexées d’un site. AlltheWeb,
Altavista, Gigablast et Google ont suivi
ce modèle. Google l’a adopté en janvier
2004 au grand plaisir des webmestres. Auparavant, il avait choisi
le modèle du préfixe et un terme de recherche. Ce
dernier modèle est utilisé par Inktomi - avec le
formulaire de recherche -, par Teoma et Exalead. Voila
est ambivalent par un usage des deux formats pour son automate
Tout le web francophone: le préfixe seul en mode de recherche
booléenne
et le nom de domaine et un terme de recherche avec le formulaire.
Le résultat de la recherche par nom de
domaine est inconstant Cette inconstance provient de deux
facteurs: les modes de recherche et l’usage des w. Chez AlltheWeb,
le résultat de recherche varie selon que la requête est
posée dans la case de recherche d’accueil, le formulaire et la
recherche booléenne. Le test a montré que le nombre
de notices augmente de la page d’accueil au formulaire et à la
case de recherche booléenne pour la
plupart des requêtes.
Tout le web francophone de Voila a
les deux modes de recherche par site. La recherche avec le
formulaire exige un mot supplémentaire tandis que le
préfixe peut être utilisé seul.
AlltheWeb
AlltheWeb
utilise
le formulaire et le préfixe de recherche. Le
libellé de la recherche par domaine dans son formulaire de
recherche est Domain Filters - Filter results from specific domains
(com, gov, dell.com, etc.) [...] Include results from. Le
préfixe de recherche est site:.
AlltheWeb a développé deux
opérateurs pour sa recherche par sites. Le premier est
l’accent circonflexe. Placé devant le nom, il recherche le
domaine exact. Le second est l’astérisque, un
opérateur de troncature. Placé après le nom,
il recherche toutes les variantes d’un domaine de tête incluant
les domaines géographiques. Par exemple, site:^google*
trouvera tous les sites qui commencent par http://google.
L’usage des www
Une
requête avec et sans les w ne donnent pas toujours le même
résultat. Voici quelques exemples: La requête site:www2.faa.gov
en page d’accueil a donné 21 442 notices, site:faa.gov
en page d’accueil aussi, 43,147. Les deux mêmes
requêtes avec le formulaire ont apporté respectivement
22,382 et 44,946. Enfin, les deux requêtes ont
donné 22,708 et 45,903 dans la recherche
booléenne. Alors que la première requête
restreint
la recherche au site précis, la seconde l’élargit au
réseau
que forme la Federal Aviation Administration.
Peut-on conclure que l’usage des 3w restreint la
recherche à un site en particulier alors que le retrait des w
l’élargit à un réseau?
La requête site:www.celinedion.com a
donné 15 références; celle-ci - site:celinedion.com
aucune. Le retrait des w aurait dû apporter au moins le
même
nombre de références. En comparaison, les
requêtes site:www.rongeurs.net et site:rongeurs.net
ont
donné le même nombre de notices.
En général, la recherche est
élargie au réseau d’un site en retirant les w. En
contrepartie, la
recherche avec l’adresse exacte d’un site la restreint uniquement au
site. L’usage des opérateurs apporte un
résultat plus précis.
AltaVista
AltaVista
utilise le formulaire et le préfixe de recherche. Le
libellé
de la recherche par domaine dans son formulaire de recherche est Emplacement
: [] Seulement ce domaine ou cette URL: http://.
Le préfixe de recherche est host:.
Chez AltaVista, la recherche par domaine doit
être accompagnée d’un mot lorsque nous utilisons le
formulaire de recherche. La recherche avec le préfixe de
recherche host: peut être faite seul autant en page
d’accueil que dans la case de recherche booléenne.
Le résultat de la recherche d’AltaVista peut
être trompeur si nous utilisons le formulaire. AltaVista
affiche
une ou deux pages par défaut. Pour voir toutes les notices
d’un
site, il faut désactiver l’option de groupement de pages dans le
formulaire ou cliquer sur Plus de pages avec. D’autre part,
AltaVista affiche
toutes les notices en recherche booléenne.
AltaVista ne recherche pas exactement le site
donné. La requête host:www.celinedion.com
a donné le
site brésilien www.celinedion.com.br. Il
faut
retiré le site indésirable pour avoir seulement celui
recherché
par le retrait du site soit avec le préfixe host: soit
avec
le préfixe domain:.
Tout comme AlltheWeb, AltaVista a son
opérateur de troncature: l’astérisque.
Exalead
Exalead est
utilisé par AOL France sur son site et sur celui de Netscape
France. Exalead utilise le formulaire et le préfixe site:
accompagné d'un mot pour la recherche des pages d'un site.
Le formulaire à la zone Rechercher sur un site.
Celle-ci comprend deux cases libellées ainsi: Rechercher
et Sur le site.
Exalead n’a fait aucune différence notable
entre la recherche avec les w et sans les w.
Il est à noter qu’Exalead est appliqué
au web français et non au web mondial dévolu à
Google.
Gigablast
Gigablast
possède la recherche de nom de domaines dans son formulaire et
par préfixe. Le libellé de la recherche
par domaine dans son formulaire
de recherche est Restrict to this Site. Le préfixe
de
recherche est site:.
La page du résultat de recherche comprend
l’option de recherche dans l’ensemble : Search [site].
Cette option
est immédiatement sous la case de recherche en haut de la
page.
Elle permet soit de poursuivre la recherche dans le site soit de
commencer
une nouvelle recherche
La recherche se fait soit avec le nom de domaine
seul, soit avec un terme de recherche. Il donne le même
résultat quel que soit son mode de recherche, mais avec un
bémol. Tantôt la requête avec les w et sans
les w d’un site unique donne le même résultat,
tantôt seule la première apporte son lot de
références. Par exemple, la requête site:www.hc-sc.gc.ca
donne toutes les références du site unique. La
même requête sans les w n’en donne aucune. En
comparaison, les requêtes site:www.saphirnet.info et site:saphirnet.info
ont le même résultat pour une adresse unique.
Si le site est fédérateur comme celui
de la Federal Aviation Administration, le retrait des w affiche tous
les
notices quelque soit la chaîne de caractères les
remplaçant.
Gigablast a une caractéristique
intéressante. Il a affiché la page d’accueil en
premier pour tous les sites testés, même pour les sites en
réseau comme celui de la Federal Aviation Association.
Dans certains cas, les notices ont le lien [ More
results from this site ] pour développer le site.
Google
Google a la
recherche par sites dans son formulaire et par préfixe. Le
libellé de la recherche par domaine dans son formulaire de
recherche est Domaines [ ] Pages du site ou du domaine.
Le préfixe de recherche est site:.
La recherche se fait soit avec le nom de domaine
seul, soit avec un terme de recherche. Google distingue les
adresses avec et sans les w. Si le site est
fédérateur comme
celui de la Federal Aviation Administration, le retrait des w affiche
toutes
les notices quelque soit la chaîne de caractères les
remplaçant.
Inktomi (Hotbot.com, Hotbot.fr,
MSN.com)
Inktomi a la
recherche par site uniquement dans son formulaire. Le
libellé de la recherche par domaine dans son formulaire de
recherche est Domain/Site Include pour HotBot, Nom
de Domaine Les résultats doivent appartenir à
pour HotBot France et Domaine : pour MSN. La recherche se
fait avec le nom de domaine et un terme de recherche.
Nous aurions pu croire que tous les sites auraient
donné le même résultat. Il s’avère
qu’Hotbot France
donne légèrement plus de sites que MSN et Hotbot.com.
Les trois sites sur lesquels est
déployé Inktomi ont le même défaut. Le
nombre de notices trouvées changent à chaque page du
résultat de recherche. Par
conséquent, il devient difficile d’obtenir le nombre exact de
pages
indexées par le robot. Il faut paramétrer le nombre
de
notices affichées à 50 pour contourner ce problème
en
ce qui concerne des petits sites.
HotBot France donne par défaut la meilleure
page unique. Il faut paramétrer les Résultats
Maximum
par Serveur à Toutes les pages du formulaire de
recherche
pour que toutes les notices soient affichées. Enfin, il
est
sage de paramétrer le champ langue à Toutes les
langues
et le champ Pays à Indéterminé.
Teoma
Teoma a
la recherche par sites dans son formulaire et par préfixe. Le
libellé de la recherche par domaine dans son formulaire de
recherche est Domain or site et son préfixe de
recherche est site:.
La recherche se fait seulement avec le nom de
domaine et un terme de recherche. Teoma distingue les
adresses avec et sans les w quelque soit le mode de
recherche. Si le site est fédérateur comme
celui de la Federal Aviation Administration, le retrait des w affiche
toutes les notices quelque soit la chaîne de
caractères les remplaçant.
Tout le web francophone de Voila
Tout le web
francophone de Voila a la recherche par sites dans son
formulaire et par préfixe. Le libellé de la recherche par
domaine dans son formulaire de recherche est Dans le domaine :
et son préfixe est site:.
La recherche se fait avec le nom de domaine et un
terme de recherche pour le formulaire tandis que la recherche par
préfixe se fait seule.
Tout le web francophone de Voila ne
distingue pas les adresses avec et sans les w quand la recherche est
exécutée à partir du formulaire tandis qu’il fait
la distinction avec la recherche par préfixe. Cependant,
la recherche par préfixe s’est révélée
déficiente en donnant des notices provenant de plusieurs sites
quelque soit le domaine de tête lorsque le site
n’est pas dans la banque de données. Tout le web
francophone
retire les domaines de tête. Par exemple, la requête
faa.gov
ne donne aucun résultat avec le formulaire, mais plus de 270
avec
le préfixe provenant de tous les sites ayant faa dans le
nom
de domaine.
Conclusion
Plusieurs
webmestres déclinent leur site en plusieurs sous-domaines.
Avec AlltheWeb, nous avons avantage à utiliser les
préfixes dans la case de la recherche booléenne.
AltaVista est moins fiable en ne donnant pas le nom de domaine
exact. Inktomi donne de bons résultat
avec une faiblesse dans le nombre de notices, peu fiable pour
connaître
le nombre exact de pages indexées. Exalead, Gigablast,
Google
et Teoma, tous de la même génération, sont de
valeur
égale. Enfin, Tout le web francophone de Voila est
déficient
en donnant n’importe quelle page de domaines similaires quand le site
n’est
pas indéxé.
Il faut porter une attention à AltaVista et
Gigablast qui font des groupements de notices. Si l’on n’y prend
garde, nous
pouvons croire qu’il n’y a que deux ou trois pages
indexées.
De même pour HotBot France qui met par défaut la meilleure
page
unique afin de réduire le nombre de notices.
Enfin, AltaVista et Teoma assimilent les noms de
domaine ayant ou non les w. AlltheWeb, Exalead, Gigablast, Google
et Teoma
les distinguent. Si l’on ne connaît pas un site, il est
préférable de retirer les w pour avoir toutes les
notices. En contre-partie,
il faut mettre le nom de domaine exact du site si la recherche porte
sur
un sous-domaine. En tout état cause, une recherche dans un
site
se fait en utilisant le nom de domaine en conjonction avec un terme de
recherche.
Par conséquent, les w ont peu d’importance, sauf si l’on
établit
des statistiques de nom de domaine.
Tableau des
automates de recherche et du champ serveur ou nom de domaine
Automates |
Libellé |
Préfixe |
Préfixe seul |
AlltheWeb |
Include results from |
site: |
Oui |
AltaVista |
Seulement ce domaine ou cette URL |
host: |
Oui |
Exalead |
Sur le site |
site: |
Non |
Gigablast |
Restrict to this site |
site: |
Oui |
Google |
Pages du site ou du domaine |
site: |
Oui |
Inktomi / Hotbot |
Domain/site |
S.O. |
Non |
Inktomi / Hotbot France |
Les résultats doivent
appartenir à |
S.O. |
Non |
Inktomi / MSN Canada |
Domaine |
S.O. |
Non |
Teoma |
Domain or site |
site: |
Non |
Voila |
Dans le domaine |
site: |
Non/Oui |