6-627-02

Statistique textuelle

Automne 2002

Plan détaillé de cours

Professeur :  Robert Latour – robert.latour@hec.ca (bureau: 4.848)

 

OBJECTIFS DU COURS      CONTRIBUTION AUX OBJECTIFS DU PROGRAMME

DESCRIPTION DÉTAILLÉE DU COURS:    S1 S2 S3 S4 S5

BASES DE DONNÉES   BIBLIOGRAPHIE SOMMAIRE

APPROCHE PÉDAGOGIQUE   ÉVALUATION

Fichiers utilisés dans le cours

 

 

OBJECTIFS DU COURS    début

Pour présenter les objectifs du cours, nous présentons la description du livre de référence.

 

« Statistique textuelle : Ludovic Lebart, Directeur de recherches au CNRS, École nationale supérieure des télécommunications, et André Salem, Ingénieur à l'École normale supérieure de Fontenay-Saint-Cloud,

Éditeurs : DUNOD 1994 ISBN : 2100022393 - Prix : 170 FRF - 25,92€. 

Brève description : Les méthodes de statistique textuelle sont utilisées dans l'analyse des réponses aux questions ouvertes dans les enquêtes.  Elles servent aussi à tester certaines hypothèses, à prouver la réalité de traits structuraux et à procéder à des prévisions.  Le développement de l'outil informatique n'a fait qu'accroître la demande de gestion et d'analyses de textes émanant des praticiens et des chercheurs de toutes disciplines.  Cet ouvrage montre comment les possibilités actuelles de calcul et de gestion peuvent aider à décrire, assimiler et, enfin, à critiquer l'information de type textuel.  Public : deuxième cycle universitaire. »

 

Le cours éveillera de nouvelles possibilités d’analyse statistique dans un domaine qui semblait inaccessible, encore récemment, aux méthodes statistiques.  Le cours se veut un lieu de découverte, de scepticisme éclairé, et d’interrogations.  Les mots que nous utilisons nous caractérisent encore plus que notre photo, notre profil psychologique, nos empreintes digitales…  C’est à la fois inquiétant et intéressant.

 

 

CONTRIBUTION AUX OBJECTIFS DU PROGRAMME    début

La documentation de quiconque cherche à comprendre est avant tout du texte, qui est de plus en plus disponible sous forme électronique avec les possibilités de la toile.  De plus, les progrès de la translittération automatique de la parole à l’écrit ouvre des possibilités fascinantes d’analyse.  La statistique est à l’aube de développements important dans ce domaine.  Toute personne qui s’intéresse à l’administration doit s’interroger sur les possibilités de tels outils.

 

On voit déjà des applications directement utilisables dans les enquêtes par l’intégration des questions ouvertes aux réponses plus classiques à modalités déjà listées.  Il est aussi possible de localiser les formes (terme pour déterminer une suite de caractères placés entre caractères délimiteurs … un mot ou presque) et les segments répétés des formes les plus caractéristiques d’un texte par rapport à un corpus plus large.

 

 

DESCRIPTION DÉTAILLÉE DU COURS    début

Le cours est conçu comme une série de cinq (5) séances de trois heures : nous suivrons de près le livre de référence cité plus haut.  Le cours illustrera les différents chapitres du livre par des exemples et s’interrogera sur le sens des interprétations que l’on trouvera.

 

 

Première séance :    début

Présentation du cours.

Chapitre 1: Domaines et problèmes (à lire avant le premier cours)

Chapitre 2: Les unités de la statistique textuelle

Chapitre 5: Typologie, visualisation (5.1.1   5.1.2   5.1.3 )

Vue d’ensemble des outils de travail:

présentation des logciels Spad , Atlas/ti et Spss.

Le logiciel SPAD sera fourni aux étudiants inscrits et vous pourrez utiliser Atlas/ti enréseau.

http://www.hec.ca/pages/robert.latour/cours_6-627/c1.zip

 

Deuxième séance :    début

Chapitre 3: L'analyse des correspondances

Chapitre 4: La classification automatique des formes et des textes

Chapitre 5: Typologies, visualisation.

http://www.hec.ca/pages/robert.latour/cours_6-627/c2.zip

 

Troisième séance :    début

Atlas/3ti.
http://www.hec.ca/pages/robert.latour/cours_6-627/c3.zip    Atlas_cours.zip

 

Quatrième séance :    début

Chapitre 6: Éléments caractéristiques, réponses ou textes modaux

Chapitre 7: Partitions longitudinales, contiguité

Chapitre 8: Analyse discriminante texuelle..

http://www.hec.ca/pages/robert.latour/cours_6-627/c4.zip

 

Cinquième séance :    début

Retour critique sur les analyses : comparaisons entre les textes d’origine, les tableaux lexicaux et les résultats.

http://www.hec.ca/pages/robert.latour/cours_6-627/c5.zip

   version amélioré E.zip

 

 

BASES DE DONNÉES    début
Les bases de données disponibles pour illustration sont présentement les suivantes : analyse de mémoires d’étudiants de maîtrise à HEC, analyse des discours annuels du directeur de l’École des HEC, analyse de questionnaires avec question ouverte, analyse des personnages Achille Talon et Hilarion Lefuneste dans les courtes histoires (deux planches ) du bédéiste Greg, description des cours de Msc.

 

 

 

BIBLIOGRAPHIE SOMMAIRE    début

1.         Lebart, L., Salem, A. (1994) Statistique textuelle, DUNOD 1994 ISBN : 2100022393.  (Livre de référence obligatoire comprenant une bibliographie extensive).

2.         Morineau, A., Morin, S. (2000) Pratique du traitement des enquêtes, CISIA, CERESTA.

3.         Saporta, G. (1989) Probabilité, analyse des données et statistiques, Technip, Paris. 

4.         Saporta, G. (1989) Exploratory Data Analysis, Addison Westley.

http://www.upmf-grenoble.fr/adest/seminaires/lelu03/ADEST2002_fichiers/frame.htm

http://www.cavi.univ-paris3.fr/lexicometrica/jadt/jadt2002/tocJADT2002.htm

http://www.upmf-grenoble.fr/adest/seminaires/lelu03/ADEST2002_fichiers/frame.htm

http://www.cavi.univ-paris3.fr/lexicometrica/

http://atilf.inalf.fr/frantext.htm

http://www.atilf.fr/_ie/atilf.htm

 

 

APPROCHE PÉDAGOGIQUE    début

Nous envisageons de travailler en ateliers d’analyse en direct.  À partir de bases de données récemment analysées, nous piloterons des analyses avec le logiciel SPAD, de façon à illustrer les concepts présentés dans le livre de référence.  Les étudiants auront accès aux banques de données utilisées et aux divers fichiers de codage et de résultats.  Ils pourront donc refaire l’étude et s’interroger sur la pertinence des diverses étapes.  Ils pourront aussi trouver par eux-mêmes des résultats inédits.  Nous nous rapprocherons le plus possible d’un climat d’analyse réel, en préparant un peu à l’avance les analyses.

 

Nous invitons tous les professeurs travaillant sur des bases de données incluant des textes de nous les soumettre pour accroître notre expérience en ce domaine, en contre partie nous demanderons leur expertise en classe pour évaluer les résultats que nous trouverons.

 

 

ÉVALUATION    début

Un travail sur les données analysées en classe (50 %)

et un oral (50%).

 

 

Fichiers utilisés dans le cours.    début

Première séance:

http://www.hec.ca/pages/robert.latour/cours_6-627/Plan.htm

http://www.hec.ca/pages/robert.latour/cours_6-627/C1-627-JMT.zip

http://www.hec.ca/pages/robert.latour/cours_6-627/livre.zip

http://www.hec.ca/pages/robert.latour/cours_6-627/definitions.zip

http://www.hec.ca/pages/robert.latour/cours_6-627/jalam_chauchat.zip

Deuxième séance:

http://www.hec.ca/pages/robert.latour/cours_6-627/SFC.zip

http://www.hec.ca/pages/robert.latour/cours_6-627/Enq_nt.zip

http://www.hec.ca/pages/robert.latour/cours_6-627/Science Fiction Christine Latour.hpr

Troisième séance:

http://www.hec.ca/pages/robert.latour/cours_6-627/VERBATIM-brut.zip

http://www.hec.ca/pages/robert.latour/cours_6-627/VERBATIM-modifies.zip

http://www.hec.ca/pages/robert.latour/cours_6-627/VERBATIM-bases.zip

http://www.hec.ca/pages/robert.latour/cours_6-627/Théâtre.zip

Quatrième séance:

Cinquième séance:

http://www.hec.ca/pages/robert.latour/cours_6-627/Théâtre-plus.zip