Cours no4: La recherche sur le WEB


Généralités

Les types de recherches:


Les recherches par index

Les engins de recherche par Index utilisent un "web crawler" (que j'appellerai robot pour fins de compréhension) qui parcourent des millions de pages Web et de forums dans le but d'indexer leur contenu dans des bases de données. Le robot indexe le contenu d'une page et continu ensuite sur les hyperliens de cette page pour trouver une autre page et ainsi continuer à créer des index.

Ces robots sont en fait des modules de programmation qui utilisent différentes approches. Certains placent plus d'emphase sur les mots-clés placés dans le titre de la page, d'autres sur la fréquence d'apparition des mots dans le texte de la page, d'autres encore sur les mots placés dans les entêtes de premier niveau etc.

Certains robots vont indexer tout le contenu de la page alors que d'autres vont indexer certains termes significatifs.

Quelques exemples d'engins de recherche par Index:

NB: La majorité des engins de recherche par index offrent aussi la possibilité de faire des reherches par répertoires

Quelques considérations lorsqu'on effectue des recherches. La recherche s'effectue à l'aide de mots-clés. La plupart du temps un ou quelques mots seront suffisants. Si les mots clés utilisés sont trop communs, la recherche donnera une quantité incroyable de résultats. Il faut alors utiliser d'autres techniques comme:


Les recherches par répertoires

Les engins de recherche par répertoire sont des pages contenant des liens hypertextes organisés hiérarchiquement. On y retrouve d'abord des répertoires très généraux qui permettent d'accéder vers des sous-répertoires de plus en plus précis.

La recherche s'effectue en commençant par de l'information générale pour ensuite approfondir jusqu'au niveau de spécificité souhaité.

Ce sont des individus qui créent et gèrent les répertoires hiérarchiques. Il faut donc comprendre que la quantité de liens avec l'information recherchée est généralement inférieure aux engins de recherche par Index mais les pages proposées sont invariablement plus ciblées.

Quoique des individus gèrent ces répertoires, n'importe qui peut ajouter une nouvelle adresse dans le répertoire en passant par la page principale de l'engin en question

Quelques exemples d'engins de recherche par répertoire:


Les méta-index

Ces index permettent d'effectuer des recherches dans plusieurs index à la fois sans avoir à charger les différents engins et sans avoir à ré-écrire les termes de la recherche.

Quelques exemples d'engins de recherche par Index:


Quelques termes généralement employés dans les recherches


La notion de taux de précision versus taux de rappel


La stratégie de recherche à favoriser


Les opérateurs booléens, de voisinage et de troncature

Les opérateurs


Stratégies de recherche dans Yahoo!

Allier la recherche par catégories et la recherche par mots clés dans Yahoo!

Autres options de Yahoo!


Stratégies de recherche dans AltaVista

Formulaire de requête simple d'AltaVista

Le tableau suivant présente les options disponibles dans le formulaire de recherche simple de AltaVista.

Type de recherche
Exemple
Explication
un ou plusieurs motsparis louvre Trouve les documents contenant autant de mots que possible et les présente par ordre de pertinence*
mots entre guillemetsparis "petite galerie" louvre Trouve précisément la suite de caractères entre guillemets
lettres majusculesPARISTrouve les mots contenant les lettres majuscules seulement (les requêtes en lettres minuscules ne font pas la distinction)
mot obligatoire+paris +louvreTrouve les pages contenant au moins les mots précédés du symbole "+"
mot excluslouvre -parisExclut les pages contenant le mot précédé du symbole "-"
troncatureparis*Trouve les pages contenant les mots composés au moins des caractères précédant le caractère de troncature (ex. pour "paris*": Paris, parisien, parisiennes, paris-breste, etc.)

Tri des résultats par ordre de pertinence

AltaVista présente d'abord les pages...

Lettres majuscules et accentuées

Restreindre la recherche à des parties précises des pages Web

Partie
Exemple
Explication
Texte des liensanchor:cliquez ici Trouve les pages dont le texte d'un lien comporte les mots spécifiés
Serveurshost:domaine.netTrouve les pages hébergées sur le serveur indiqué
Adresse des lienslink:domaine.netTrouve les pages dont un lien pointe vers l'adresse indiquée
Titrestitle:"extrait du titre"Trouve les pages dont les mots apparaissent dans le titre de la page

Formulaire de requête AVANCÉE d'AltaVista

Toutes les notions déjà vues concernant AltaVista s'appliquent toujours sauf les symboles "+"et "-" qui sont remplacés par des opérateurs booléens.

Opérateur
Exemple
Explication
ANDfruit AND rouge

fruit & rouge

Trouve les pages contenant chacun des mots liés par le AND
ORfruit OR légume

fruit | légume

Trouve les pages contenant l'un ou l'autre des mots liés par le OR
NEARorange NEAR fruit

orange ~ fruit

Trouve les pages contenant les mots liés par le NEAR à une distance de dix (10) mots ou moins l'un de l'autre
NOTorange AND NOT fruit

orange & ! fruit

Trouve les pages contenant le premier mot sauf celle contenant aussi le mot précédé par NOT

Les expressions booléennes peuvent être regroupées par des parenthèses pour plus de souplesse et de clarté. Par exemple:

Autres options du formulaire avancé


Les résultats des recherches

Généralement la recherche produira des résultats qui seront affichés dans un ordre quelconque ou encore selon certains critères de tri reliés à la pertinence de l'information trouvée.

Lorsqu'un tri basé sur la pertinence est effectué, les critères qui feront qu'un document sera présenté avant un autre sont généralement:

Une règle de base est ici essentielle à donner, les résultats affichés ne garantissent pas nécessairement qu'ils sont tous très pertinents. Il faudra du discernement pour faire un choix éclairé généralement basé sur la crédibilité de l'auteur, la crédibilité du lieu où est entreposé l'information, la date de publication et une bonne dose de GBS (gros bon sens)


La recherche d'un individu (téléphone)


La recherche d'un individu (adresse de courrier électronique)


La recherche d'une liste de discussion (listserv)

Si vous désirez vous abonner à la liste des listes (nouvelles listes de discussion), allez voir le guide d'utilisaiton à partir de la page principale

La recherche de partagiciels

  • Shareware.com (http://www.shareware.com)
  • Jumbo shareware (http://www.jumbo.com)


    La recherche d'une entreprise

    Quelques répertoires téléphoniques

    Quelques répertoires de sites Web

    Quelques base de données sur les entreprises

    Quelques répertoires gouvernementaux


    La recherche dans les fichiers FAQ (frequently asked questions)


    La recherche d'une image


    La vigilance dans les pages Web

    Surveillance d'une page Web


    Suivez ce lien pour voir le travail à exécuter durant le laboratoire sur la recherche.


    ©Jacques Masson, le 30 janvier 1998
    Des remerciements à Jean Lalonde pour certains éléments que l'on retrouve dans cette page.