Cours no4: La recherche sur le WEB
Généralités
- Il existe une grande quantité d'information sur leWEB. Ce qui existait hier, existe encore peut-être aujourd'hui mais peut-être que demain il n'y sera plus.
- Il n'existe pas de répertoire complet de l'information. Aucun engin de recherche ne peut prétendre tout posséder dans ses bases de données.
- La qualité de l'information doit toujours être considérée. Ce n'est pas parce qu'on le trouve sur Internet que c'est nécessairement vrai.
- Il faut essayer de bien cibler le type de recherche afin d'éviter la surabondance.
Les types de recherches:
- la recherche par index (textuelles)
- La recherche par répertoires
- les méta-index
Les recherches par index
Les engins de recherche par Index utilisent un "web crawler" (que j'appellerai robot pour fins de compréhension) qui parcourent des millions de pages Web et de forums dans le but d'indexer leur contenu dans des bases de données. Le robot indexe le contenu d'une page et continu ensuite sur les hyperliens de cette page pour trouver une autre page et ainsi continuer à créer des index.
Ces robots sont en fait des modules de programmation qui utilisent différentes approches. Certains placent plus d'emphase sur les mots-clés placés dans le titre de la page, d'autres sur la fréquence d'apparition des mots dans le texte de la page, d'autres encore sur les mots placés dans les entêtes de premier niveau etc.
Certains robots vont indexer tout le contenu de la page alors que d'autres vont indexer certains termes significatifs.
Quelques exemples d'engins de recherche par Index:
- Alta Vista (http://www.altavista.digital.com). Probablement le plus connu. Conçu par Digital Equipment Corp (DEC).
Au début de l'été 97, Digital a installé une version améliorée de son engin de recherche. Suivez ce lien pour voir les pricipaux changements. L'adresse suivante vous permet d'accéder à l'engin de recherche version française: http://altavista.telia.com/cgi-bin/query?pg=q&country=fr&mss=fr%2Fsearch&x=47&y=14
- Lokace (http://www.lokace.com/). Le plus élaboré engin de recherche par index en français. Les robots ne recherchent que des contenus en français.
- HotBot (http://www.hotbot.com/) PC Magasine Editors' choice (Déc 96)
- Francité (http://www.i3d.qc.ca/) Un autre engin de recherche par index québécois.
- Francoroute (http://www.francoroute.org/francoaupelf/owa/FRANCOROUTE) Un site québécois du CRIM
- Excite (http://www.excite.com) PC Magasine Editors' choice (Déc 96)
- Lycos (http://lycos.cs.cmu.edu)
- Web Crawler (http://webcrawler.com)
NB: La majorité des engins de recherche par index offrent aussi la possibilité de faire des reherches par répertoires
Quelques considérations lorsqu'on effectue des recherches. La recherche s'effectue à l'aide de mots-clés. La plupart du temps un ou quelques mots seront suffisants. Si les mots clés utilisés sont trop communs, la recherche donnera une quantité incroyable de résultats. Il faut alors utiliser d'autres techniques comme:
- plusieurs mots ayant un lien direct avec le sujet recherché
- l'utilisation de phrases
- l'utilisation d'opérateurs logiques (et, ou, sauf, proximité) communément appelés opérateurs booléens.
- l'utilisation de lettre Capitale
- l'utilisation de lettre accentuée
- chaque engin de recherche fournit des particularités qu'il est bon de connaître (généralement dans l'aide de l'engin)
Les recherches par répertoires
Les engins de recherche par répertoire sont des pages contenant des liens hypertextes organisés hiérarchiquement. On y retrouve d'abord des répertoires très généraux qui permettent d'accéder vers des sous-répertoires de plus en plus précis.
La recherche s'effectue en commençant par de l'information générale pour ensuite approfondir jusqu'au niveau de spécificité souhaité.
Ce sont des individus qui créent et gèrent les répertoires hiérarchiques. Il faut donc comprendre que la quantité de liens avec l'information recherchée est généralement inférieure aux engins de recherche par Index mais les pages proposées sont invariablement plus ciblées.
Quoique des individus gèrent ces répertoires, n'importe qui peut ajouter une nouvelle adresse dans le répertoire en passant par la page principale de l'engin en question
Quelques exemples d'engins de recherche par répertoire:
Les méta-index
Ces index permettent d'effectuer des recherches dans plusieurs index à la fois sans avoir à charger les différents engins et sans avoir à ré-écrire les termes de la recherche.
Quelques exemples d'engins de recherche par Index:
- Metasearch (http://metasearch.com)
Fait des recherches dans Yahoo!, WebCrawler, InfoSeek,Lycos, Open Text, TradeWave Galaxy et AltaVista
- All4one (http://www.all4one.com)
Fait des recherches dans Yahoo!, AltaVista, Lycos et WebCrawler
- All in one page
(http://www.media-prisme.ca/all/all1srch.html)
Version française. Présente d'abors des grands thèmes de recherches et lorsqu'à l'intérieur d'un thème, il fait des recherches à partir d'outils divers.
- Savvy Search (http://guaraldi.cs.colostate.edu:2000/)
Fait des recherches à partir de plus de 25 outils différents.
- Highway 61 (http://www.highway61.com/)
Fait des recherches dans Excite, Web Crawler, Infoseek, Lycos, Yahoo, Alta-Vista.
Quelques termes généralement employés dans les recherches
- Le bruit: recherche qui donne trop de résultats (beaucoup de bruit) car les mots-clés sont trop vagues.
- Le silence: peu ou pas de résultats car les mots clés sont trop précis.
La notion de taux de précision versus taux de rappel
- Le taux de précision est la quantité de résultats pertinents parmi l'ensemble des résultats obtenus. On doit maximiser le taux de précision dans une recherche. L'utilisation d'un ET logique dans la recherche permettra généralement d'augmenter le taux.
- Le taux de rappel est la quantité de résultats pertinents parmi l'ensemble des documents contenus dans la base de donnée. Encore une fois on doit maximiser ce taux. L'utilisation d'un OU logique dans la recherche permettra généralement d'augmenter ce taux.
La stratégie de recherche à favoriser
- Persévérer
- Bien définir l'objet de la recherche (quels mots clés, quelles catégories, etc.)
- Essayer plusieurs requêtes similaires (essayer différentes combinaisons, différents opérateurs)
- Comparer les résultats de plusieurs outils (ne pas conclure à l'absence d'un contenu après une recherche
dans seul outil)
- Choisir le type d'outil approprié
- Une idée précise ("une aiguille dans une botte de foin"): les index tel que AltaVista
- Une idée générale ("cela devrait être dans cette catégorie là"): les répertoires tel que Yahoo!
- Choisir le niveau de précision approprié
- Recherche trop vague:
- donne un bon taux de rappel mais une précision faible
- à cause du bruit qui cache le résultat recherché (trop de fiches inutiles)
- Recherche trop précise:
- donne une bonne précision mais un faible taux de rappel
- à cause du silence qui fait manquer la cible... peut-être de près!
- Si on veut faire une recherche précise, les engins de recherche par Index sont à favoriser.
- Si on a une idée générale, il est préférable d'utiliser les engins de recherche par répertoire.
- Si on ne trouve pas ou peu d''information avec un engin de recherche, essayer un autre engin et comparez les résultats.
- Dans une recherche par Index, définissez bien bien les mots-clés à utiliser.
Les opérateurs booléens, de voisinage et de troncature
Les opérateurs
- Opérateurs: ET (AND), OU (OR), parenthèses (voir une excellente illustration de ces opérateurs à l'adresse http://www.bibl.ulaval.ca/vitrine/giri/mod3/booleen.htm)
- Opérateurs de voisinage (ou de proximité): mots consécutifs avec les guillemets (par exemple, "suite de mots"), opérateur PRÈS (NEAR)
- Opérateur d'exclusion: SAUF (NOT)
- Restriction de la zone de recherche: title:... ou url:... (voir, plus bas, l'exemple de AltaVista)
- Troncature: * (le critère stat* trouve "statistique", "statistiques", "statisticien" et "statistics")
Stratégies de recherche dans Yahoo!
Allier la recherche par catégories et la recherche par mots clés dans Yahoo!
- Lorsqu'une une catégorie a été identifiée, la recherche peut porter uniquement sur le contenu de cette catégorie (bouton Search only in) et des sous catégories: cela améliore la précision.
- Par exemple, une recherche du mot television (sans accents) donne un très grand nombre de sites. Mais dans
le menu
http://www.yahoo.com/Society_and_Culture/Organizations/, la même recherche donne un nombre plus restreint si on coche
l'option Search only in Organizations.
- Mais il arrive qu'un site soit inscrit dans une catégorie que l'on aurait pas soupçonné. Cochez alors le bouton Search all of Yahoo pour une recherche globale
- Par exemple, une recherche de mother teresa dans la section http://www.yahoo.com/Society_and_Culture/Religion/
donne plus de réponses si on effectue une recherche globale.
Autres options de Yahoo!
- Les guillemets permettent de faire des recherches de mots contigus, par exemple: "the who"
- Il accepte la troncature, par exemple: statisti*
- On peut préciser des mots requis (+) et des mots à exclure (-), par exemple: +media -television
Le tableau suivant présente les options disponibles dans le formulaire de recherche simple de AltaVista.
| Type de recherche | Exemple
| Explication |
| un ou plusieurs mots | paris louvre | Trouve les documents contenant autant de mots que possible et les présente par ordre de pertinence* |
| mots entre guillemets | paris "petite galerie" louvre | Trouve précisément la suite de caractères entre guillemets |
| lettres majuscules | PARIS | Trouve les mots contenant les lettres majuscules seulement (les requêtes en lettres minuscules ne font pas la distinction) |
| mot obligatoire | +paris +louvre | Trouve les pages contenant au moins les mots précédés du symbole "+" |
| mot exclus | louvre -paris | Exclut les pages contenant le mot précédé du symbole "-"
|
| troncature | paris* | Trouve les pages contenant les mots composés au moins des caractères précédant le caractère de troncature (ex. pour "paris*": Paris, parisien, parisiennes, paris-breste, etc.) |
Tri des résultats par ordre de pertinence
AltaVista présente d'abord les pages...
- dont les mots recherchés se retrouvent dans le titre ou dans les premiers paragraphes de la page;
- dont les mots recherchés se situent près les uns des autres;
- contenant le plus grand nombre de répétitions des mots recherchés.
Lettres majuscules et accentuées
- AltaVista ne tient PAS compte de la casse des lettres lorsque le mot demandé est écrit en lettres MINUSCULES;
- AltaVista TIENT compte des lettres majuscules pour les lettres écrites en MAJUSCULES dans le mot demandé;
- AltaVista ne tient PAS compte des lettres accentuées lorsque le mot demandé est écrit SANS lettres accentuées;
- AltaVista TIENT compte des lettres accentuées pour les lettres écrites AVEC l'accent dans le mot demandé;
Restreindre la recherche à des parties précises des pages Web
| Partie | Exemple
| Explication |
| Texte des liens | anchor:cliquez ici | Trouve les pages dont le texte d'un lien comporte les mots spécifiés |
| Serveurs | host:domaine.net | Trouve les pages hébergées sur le serveur indiqué
|
| Adresse des liens | link:domaine.net | Trouve les pages dont un lien pointe vers l'adresse indiquée |
| Titres | title:"extrait du titre" | Trouve les pages dont les mots apparaissent dans le titre de la page
|
Toutes les notions déjà vues concernant AltaVista s'appliquent toujours sauf les symboles "+"et "-" qui sont remplacés par des opérateurs booléens.
| Opérateur | Exemple | Explication |
| AND | fruit AND rouge fruit & rouge | Trouve les pages contenant chacun des mots liés par le AND |
| OR | fruit OR légume fruit | légume | Trouve les pages contenant l'un ou l'autre des mots liés par le OR |
| NEAR | orange NEAR fruit orange ~ fruit | Trouve les pages contenant les mots liés par le NEAR à une distance de dix (10) mots ou moins l'un de l'autre |
| NOT | orange AND NOT fruit orange & ! fruit | Trouve les pages contenant le premier mot sauf celle contenant aussi le mot précédé par NOT |
Les expressions booléennes peuvent être regroupées par des parenthèses pour plus de souplesse et de clarté. Par exemple:
- (fruit AND rouge) OR tomate
- NOT (fruit OR légume)
Autres options du formulaire avancé
- Pour classer les pages trouvées, il faut indiquer dans le formulaire avancé le ou les mots à utiliser pour mesurer la pertinence des pages (Critères de classement des résultats). Sans cette indication, les résultats sont présentés dans un ordre aléatoire.
- Le formulaire de recherche avancée d'AltaVista permet aussi de sélectionner le résultat de la recherche selon un intervalle de dates d'indexation.
Les résultats des recherches
Généralement la recherche produira des résultats qui seront affichés dans un ordre quelconque ou encore selon certains critères de tri reliés à la pertinence de l'information trouvée.
Lorsqu'un tri basé sur la pertinence est effectué, les critères qui feront qu'un document sera présenté avant un autre sont généralement:
- la fréquence des mots dans le document
- la fréquence des mots dans la base de données
- la localisation des mots dans le document
- le nombre de mots trouvés dans le document
Une règle de base est ici essentielle à donner, les résultats affichés ne garantissent pas nécessairement qu'ils sont tous très pertinents. Il faudra du discernement pour faire un choix éclairé généralement basé sur la crédibilité de l'auteur, la crédibilité
du lieu où est entreposé l'information, la date de publication et une bonne dose de GBS (gros bon sens)
La recherche d'un individu (téléphone)
- Canada 411 (http://canada411.sympatico.ca)
la recherche d'un individu dans le bottin téléphonique de Bell et des entreprises affiliées (Stentor). Recherche parmi les inscriptions des pages blanches canadiennes.
- Switchboard (http://www.switchboard.com)
Répertoire d'adresses et téléphone américain
- WhoWhere (http://www.whowhere.com/wwphone/world.html)
Répertoire d'adresses et téléphone pour la planète
- Pages Zoom (http://www.pageszoom.com)
Annuaire des adresses et numéro de téléphone de France Télécom (bientôt en fonction)
En attendant, Epita voyez le service d'annuaire Minitel sur le Web (http://www.epita.fr:5000/11/)
- Telephone Directories on the Web (http://www.contractjobs.com/tel/)
Répertoire mondial des répertoire téléphoniques
sur le Web
La recherche d'un individu (adresse de courrier électronique)
- WhoWhere (http://www.whowhere.com/wwphone/world.html)
Permet de faire des recherches de tout genres. Un outil très populaire.
- Four 11 http://www.four11.com/
Adresses, téléphones USA
- BigFoot (http://fr.bigfoot.com/)
Version française de l'outil de langue anglaise du même nom
- Internet@address.finder (http://www.iaf.net/)
La recherche d'une liste de discussion (listserv)
Si vous désirez vous abonner à la liste des listes (nouvelles listes de discussion), allez voir le guide d'utilisaiton à partir de la page principale
La recherche de partagiciels
Shareware.com
(http://www.shareware.com)
Jumbo shareware (http://www.jumbo.com)
Quelques répertoires téléphoniques
Quelques répertoires de sites Web
Quelques base de données sur les entreprises
Quelques répertoires gouvernementaux
La recherche dans les fichiers FAQ (frequently asked questions)
La vigilance dans les pages Web
Surveillance d'une page Web
Suivez ce lien pour voir le travail à exécuter durant le laboratoire sur la recherche.
©Jacques Masson, le 30 janvier 1998
Des remerciements à Jean Lalonde pour certains éléments que l'on retrouve dans cette page.