Service de recherche documentaire
Service de recherche documentaire DSI 
par Marc Duval, bibliothécaire

Le langage
des automates de recherche:


Le champ de recherche Domaine géographique
Dernière mise à jour 2003--06-02

Introduction
Opérateurs  booléens
Opérateurs de proximité
Troncature
Champs de recherche
Requêtes complexes
Conclusion
Formulaire de recherche
Tableaux
Les opérateurs logiques
Les champs de recherche
Affichage et fonctions

.
Accueil DSI
Introduction
La nature du web
Le mot clé
Les automates de recherche
-Les fiches techniques
-Le langage de recherche
Le classement des automates de recherche
Les répertoires
Les banques de données
Le web universitaire
Le palmarès des villes: un exemple de recherche
Le carnet de recherche
Les actualités
Les brèves

Conseils
AltaVista et Google ont des interfaces nationales, la recherche par langue, la recherche par pays et la recherche par domaine géographique.   Prenez soin de ne pas les confondre.

Lors de vos recherches, considérez que la recherche par codes de pays n'inclut pas les adresses ayant des domaines génériques.

Les portails comme MSN/Inktomi sont adaptés à leur clientèle.  Utlisez-les pour une recherche selon le pays simple et efficace.

Utilisez les sites des automates de recherche pour des recherches complexes comportant plus d'un pays de «régions» différentes.

Pour une recherche optimale selon la langue et le pays dans Google, utilisez le formulaire de Yahoo!

Si Google,  par ses fichiers témoin,  vous enclave dans votre interface nationale, allez dans les outils linguistiques pour changer de pays ou de langue.

Si vous avez une recherche de pages canadiennes, n'oubliez pas AlltheWeb qui le place sous l'intitulé «Find results from a specific geographic region».
Références
Index des codes domaines/pays d'Altavista
Index des codes domaines/pays de Internet Assigned Numbers Authority


Champs et sites de recherche

    Les sites de recherche ont développé des préfixes de recherche comme nous l'avons vu avec AltaVista.  Le but de ce chapitre est d'identifier chacun de ces champs, leur utilisation et le préfixe correspondant utilisé par chacun des sites de recherche.
    Les champs de recherche sont aussi utilisés pour l'affichage.  C'est ce qui clora ce chapitre. En voici les parties:


1. - Les champs
     1.01    Champ Texte
        1.011    La casse
        1.012    Les signes diacritiques
        1.013    Le correcteur orthographique
        1.014    La taille du fichier
                    Tableau
    1.02    Champ Langue
    1.03    Champ Domaine géographique
    1.04    Champ Méta-titre
    1.05    Champ Méta-description
    1.06    Champ Meta Keywords (méta-mots)
    1.07    Champ URL
    1.08    Champ Serveur
    1.09    Champ Domaine de tête
    1.10    Champ Format de fichiers
    1.11    Champ Hyperlien
    1.12    Champ Dates
[en préparation]

2. - Affichage
    2.01    Les formats d'affichage
    2.02    Le tri


    La recherche géographique est parfois utile pour circonscrire une recherche dans un pays et pour faciliter la résurgence de pages pertinentes.  Pourtant, ce qui semble facile ne l'est pas.  Malgré les apparences, aucun des automates n'a mis en place les outils permettant une recherche efficace.  La convivialité n'est certes pas au rendez-vous.  Pour arriver à faire une recherche géographique, l'internaute doit être familier avec les arcanes de la recherche web.
    La recherche géographique se trouve sous quatre formes: par suffixes de domaines, par pays, par régions et par interfaces. (Voir le Tableau de la recherche géographique par automates de recherche).

La recherche par suffixe de domaines

    Dès l'apparition du web, les sites sont divisés par noms de domaines génériques et de pays.  Mais Internet est dominé par les États-Unis et les noms de domaines génériques (com (commerce), edu (établissement scolaire des États-Unis), gov (gourvenement des États-Unis), mil (institutions militaires des États-Unis), net (réseau), org (organisme sans but lucratif) lui sont essentiellement liés.  Trois noms de domaines sont exclusifs: edu, gov et mil.  Les noms de domaines «com», «net» et «org» sont cédés à des entreprises (des «registraires») qui les louent selon le régime de l'enregistrement à périodes variables.  Ces entreprises commercent avec laxisme.  Les «pointcoms» sont destinés aux entreprises états-uniennes.  Or, ces «registraires» ne se préoccupent pas de ceux qui enregistrent les «pointcoms».  Commerces, individus, associations... autant des États-Unis que des autres pays ont adopté le «pointcom».  Ils croyaient que cela faciliterait la mémorisation de leur nom ou encore s'imaginaient que ce domaine donnait une image internationale, bien à tort.  Aujourd'hui, la recherche en souffre.  Nous sommes confrontés à la confusion sur les sites mêmes des automates de recherche.  La place de plus en plus importante des domaines de pays ne peut enrayer le désordre.  La main-mise des États-Unis sur la plupart des noms de domaine (1) et l'arrivée confuse des récents noms comme «.info» et «.biz» ne sont pas là pour améliorer la situation (2).  Il est faux de croire que la recherche par suffixes de pays est un moyen sûr de le couvrir.  Il convient plutôt de l'utiliser comme un outil de sous-ensembles.
    Les automates de recherche n'ont pas imaginé un préfixe de recherche spécifique au pays.  Le préfixe utilisé est celui du site ou du domaine.  Notons qu'AltaVista est le seul à avoir une liste complète des codes de pays.

    Un autre obstacle vient contrecarrer la recherche géographique: la censure (3).   La censure a été mise en évidence par une étude de l'Université Harvard (4) mettant en cause les interfaces françaises et allemandes de Google.  L'étude a montré que 113 sites des deux pays avaient été censurés en tout ou en partie mais qu'ils étaient disponibles sur «google.com».  À ce jour, aucune société de recherche ne peut nous assurer qu'elle a une politique claire de censure.

La recherche par pays

    Il est étrange de constater qu'aucun site majeur n'a mis la recherche par pays dans son formulaire de recherche.  Pourtant, Google aurait pu l'intégrer.  Il a choisi de le séparer de son formulaire pour le mettre dans sa page d'outils linguistiques.  Il faut aller sur le site de Yahoo! pour voir un formulaire pourvu de cette option de recherche.  Sur AlltheWeb, deux pays ont le privilège d'être un critère de recherche: le Canada et la Grande-Bretagne.  Ces deux pays ont été insérés dans la recherche par régions.

La recherche par régions

    Les régions des automates de recherche ne correspondent pas aux quatre continents mais à des ensembles géopolitiques.  Chacun d'entre eux rassemble les pays désignés par leur nom de domaine.  Ils ne comprennent donc pas les sites ayant des domaines génériques.
   Quatre automates ont la recherche par régions: AlltheWeb, Inktomi (HotBot), MSN Search (Inktomi) et  Teoma.  HotBot et MSN Search ont Inktomi comme automate.  Pourtant, leur liste des régions est différente.
    Les régions communes sont: l'Afrique, l'Amérique centrale, l'Amérique du Nord, l'Amérique du Sud, l'Asie du Sud Est, l'Europe et le Moyen Orient.
    L'Asie et l'Océanie sont couvertes par AlltheWeb, Inktomi (HotBot) et Teoma.
    MSN s'est gardé en exclusivité l'Australasie et la Méditerranée tandis que Inktomi/HotBot a intégré les cinq domaines de têtes (com, edu, gov, mil, net, org) avec l'Amérique du Nord.  Cette division de l'Amérique du Nord témoigne de leur origine chez Inktomi.  Elle assimile cette «région» aux États-Unis en tant que zone d'influence incluant le Mexique et le Canada. (Voir le tableau de la liste des régions par automate de recherche).

La recherche par interfaces nationales

    Les interfaces nationales sont apparues rapidement sur le web pour pallier la confusion des «pointcoms» notamment.  AltaVista et Inktomi - à travers les portails et HotBot - sont les précurseurs.  Le but des interfaces nationales est de couvrir un pays quel que soit le domaine de tête.  AltaVista Canada avait réussi cette gageure alors qu'il était affilié à AltaVista.  Son intégration à la «maison-mère» en 2001 a dilué sa particularité.  La banque de données a été fondue à celle d'AltaVista.
  Google a repris l'idée de l'interface nationale jusqu'à l'hypertrophier vers le territorial.  Soixante-dix pays et territoires ont leur interface.  En faisant une place à des îles comme l'île Pitcairn, il en a fait un facteur de vanité.  Cette interface n'est en rien différente de celle de «google.com» si ce n'est le changement de nom, ni n'apporte un avantage à la recherche.  Il en va ainsi de beaucoup d'autres interfaces.
    MSN Search a vingt-huit interfaces nationales en plus de quatre linguistiques.  MSN Search avec Inktomi donne les meilleurs résultats.  Il y a peu de présence de pages d'autres pays à moins qu'un mot n'en appelle.  Par exemple, la requête «"moteurs de recherche"» donne des pages canadiennes sur MSN Canada.  En ajoutant «abondance», le site français apparaît dans la liste de pages canadiennes.

Conclusion

    La recherche géographique est un outil de raffinement de recherche.   Elle divise un ensemble en sous-ensembles.   Quelle que soit la forme sous laquelle elle apparaît, elle ne peut être considérée comme une solution.  Cependant, celle qui donne un résultat est celle de l'interface nationale. Bien que son efficacité soit loin d'être convaincante, elle constitue un pis-aller mieux que la recherche par noms de domaine, par pays et par régions.  Inktomi avec MSN est le meilleur automate pour la recherche par pays.  Il faut attendre que les centres de données des services de recherche reviennent à la division physique des données par pays ou que les sociétés de recherche trouvent un moyen pour mieux délimiter les frontières.  Maintenant que Yahoo! a Inktomi dans son escarcelle, il deviendra un adversaire de taille pour Google lorsqu'il sera opérationnelle.
    L'internationalisation aidant, les sites amiraux ne sont plus arrimés aux États-Unis.  AltaVista et Google ont inséré ce pays sans tambour ni trompette dans leur liste.  La présence des États-Unis dans cette liste peut paraître banale si ce n'est que peu de sites ont le code de pays «us».  Elle est peut-être le prélude à l'arrivée de la mention «pages from the United States» sur «google.com».
    A l'autre extrémité, la «nationalisation» de la recherche veut pallier cette faiblesse.  Les sites de recherche français comme AOL avec Exalead, Voila avec son index du web francophone, AntiSearch et Dir témoignent de ce désir de «nationalisme».


Tableau de la recherche géographique par automates de recherche

Automates Par domaines Par pays Par régions Par interfaces nationales
AlltheWeb Oui / Sans liste Non Liste Non
AltaVista Oui / Liste Non Non Oui / 22 interfaces
AntiSearch Oui / Liste Liste Non Non
Exalead (AOL) Non Non Non Oui (France seulement)
Gigablast Oui / Sans liste Non Non Non
Google Oui / Sans liste Oui (Outils linguistiques) Non Oui / 70 interfaces
Inktomi (HotBot) Oui / Sans liste Non Liste Oui / 6 interfaces
MSN Search (Inktomi) Oui / Sans liste Non
Liste Oui / 28 interfaces
Northern Light s.o. s.o. s.o. s.o.
OpenFind s.o. s.o. s.o. s.o.
Teoma Oui /Sans liste Non Liste Non
Tout le web francophone (Voila) Non Non Non Non
WiseNut Non Non Non Non
(Retour au début)

Régions
AlltheWeb Inktomi (HotBot) MSN Teoma
Afrique X X X X
Amérique centrale X X X X
Amérique du Nord X X X X
Amérique du Nord (.com)
X

Amérique du Nord (.edu)
X

Amérique du Nord (.gov)
X

Amérique du Nord (.mil)
X

Amérique du Nord (.net)
X

Amérique du Nord (.org)
X

Amérique du Sud X X X X
Asie X X
X
Asie du Sud-est X X X X
Australasie

X
Canada X


Europe X X X X
Grande-Bretagne X


Méditerranée


X
Moyen orient X X X X
Océanie
X X
X

1) Céline Delacourt. (Page consultée le 28 mai 2003). «Les noms de domaine, enjeu de la géopolitique américaine» [En ligne] in ZDNet France, 6 mai 2003.
http://news.zdnet.fr/story/0,,t235-s2134301,00.html [Retour à la ligne]
2) Estelle Dumout. (Page consultée le 28 mai 2003). «L'Icann souhaite des noms de domaine plus réglementés» [En ligne] in ZDNet France, 11 janvier 2002.
http://news.zdnet.fr/story/0,,t118-s2102427,00.html
[Retour à la ligne]
3) Benoît Bisson (Page consultée le 2 juin 2003). «Google s'auto-censure (sic)» [En ligne] in Canoë, 25 décembre 2002
http://www2.canoe.com/techno/nouvelles/archives/2002/10/20021025-102409.html [Retour à la ligne]
4) Jonathan Zittrain et Benjamin Edelman. (Page consultée le 2 juin 2003). «Localized Google search result exclusions. Statement of issues and call for data» [En ligne].  Berkman Center for Internet & Society, Harvard Law School, octobre 2002
http://cyber.law.harvard.edu/filtering/google/ [Retour à la ligne]



Page précédente: Les opérateurs de troncature
Retour au début de la page
Page suivante: Le champ Méta-titre

Service de recherche documentaire DSI. 1280-4, boulevard de Montarville. Longueuil. Québec. Canada. J4B 8B4. Tél.: 450-655-3709 / Tlc.:450-655-8201 courriel: info@dsi-info.ca
Adresse de cette page : Marc Duval. (Page créée le 1er août 2000).  «Langage de recherche: le champ langue». [En ligne]. Longueuil. Québec, ©2000-2003. http://www.dsi-info.ca/moteurs-de-recherche/langages/domaine-geographique.html
Cette page a été éditée le 1er août 2000.

Hit-Parade
Mots clés : Bibliothèques (vedettes matières) : recherche sur Internet ; recherche de l'information ; recherche documentaire ; ouvrages de références ; gestion de l'information / Nomade : recherche sur le Web / ODP : recherche sur le Net / Toile du Québec : gestion de l'information ;  Internet - Guides ; guides perfectionnement à la recherche / Voila : internet - recherche d'info sur le web / Yahoo : recherche sur le Net ; recherche sur le Web ; recherche et traitement de l'information ; internet - information et documentation / Pages jaunes : renseignements-service Longueuil ; Identificateur : recherche géographique
©2000-2003. Marc Duval