École des Hautes Études Commerciales de Montréal
|
6-626-02 |
Statistique exploratoire |
Automne
2002 |
Plan détaillé de cours |
||
Professeur :
Robert Latour –
robert.latour@hec.ca |
||
OBJECTIFS DU COURS CONTRIBUTION AUX OBJECTIFS DU PROGRAMME DESCRIPTION DÉTAILLÉE DU COURS:
BASES DE DONNÉES BIBLIOGRAPHIE SOMMAIRE |
OBJECTIFS DU COURS début |
Pour faire une analyse statistique, on utilise une base de données. Cette base peut provenir de sources diverses (enquête par téléphone, en direct, par courrier ou courriel, recensement de lecture, informations tirées de journaux, extraction de données d’un organisme international, gouvernemental, privé ou de firmes spécialisées, juxtaposition de plusieurs sources d’informations, dossiers médicaux, dossiers de crédit, dossiers d’un panel de consommateurs ). L’utilisation de telles informations nécessite l’adoption d’ententes d’éthiques. Dans une analyse statistique, il est nécessaire d’explorer la base de données accumulées pour l’étude, avant de la soumettre à des modèles ou des tests permettant de confirmer des hypothèses de recherches. Parfois même, l’exploration est suffisante. Nous proposons une méthode d’exploration des données, fruit d’une longue expérience, tant pratique que théorique, qui intègre une méthode factorielle (analyse des correspondances) et une méthode de classification (classification ascendante hiérarchique) qui permet une interprétation intuitive des données à l’aide d’outils graphiques évolués. |
CONTRIBUTION AUX OBJECTIFS DU PROGRAMME début |
Les étudiants de M.Sc. et Ph.D. sont amenés, le long de leurs études, à interpréter des données et montrer leur compétence en la matière dans le cadre d’un mémoire. Ils doivent dépasser l’analyse unidimensionnelle explorer leurs données de manière multidimensionnelle avant de vérifier leurs hypothèses. |
DESCRIPTION DÉTAILLÉE DU COURS début |
La formation se fera sur trois plans : interprétation des cartes factorielles et des arbres hiérarchiques, compréhension de l’analyse factorielle et des classifications hiérarchiques et enfin préparation des tableaux que l’on soumet à ces analyses. |
Première et deuxième séance: début Interprétation des cartes factorielles et des arbres hiérarchiques |
Dans un premier temps, nous nous intéresserons à l’utilisation et l’interprétation des cartes factorielles à partir d’un tableau de données déjà préparé. L’objectif est de trouver des structures stables dans le tableau des données, ce qui se fait de deux façons : d’abord par une analyse factorielle des correspondances, ensuite par la formation de classes homogènes en conservant l’information principale de l’analyse précédente. Dans les cartes, nous utiliserons des points actifs et illustratifs, tant pour les lignes (individus statistiques) que pour les colonnes (modalités des variables). Nous utiliserons aussi les points représentant les classes extraites des facteurs principaux. Chapitre 1 à 3 du livre de référence du cours ( utilisation de Spad, Spss, Excel). |
Le logiciel SPAD sera fourni aux étudiants inscrits . |
Troisième et quatrième séance : début Compréhension de l’analyse factorielle et des classifications hiérarchiques |
Il s’agit ici non pas de développer une théorie statistique ou géométrique des méthodes utilisées, mais d’avoir une représentation mentale suffisamment précise pour utiliser ces méthodes avec un jugement critique suffisant. Nous compléterons la partie précédente par l’ajout de tests descriptifs fournissant un appui à l’interprétation. Ces tests sont aussi utilisés seuls de façon à caractériser des modalités d’une variable. Chapitre 3 à 5 du livre de référence du cours. |
Préparation des tableaux |
Pour réussir une analyse descriptive, il faut choisir les tableaux à soumettre à l’analyse. Nous sensibiliserons les étudiants aux principales formes de codage nécessaires pour obtenir des tableaux bien équilibrés. Nous utiliserons le dédoublement, le codage disjonctif complet, les équations personnelles. Cette partie plus délicate et critique sera traitée plus ou moins en profondeur, selon les préoccupations du groupe d’étudiants. Chapitre 5 du livre de référence du cours. |
BASES DE DONNÉES début |
Fichier du livre: enquête d'opinion réalisé en 1978 en France sur 1000 individus (Aspi). Setes Web (Hugues Boisvert). Enquête sur le Sipa. Questionnaire de Yany Grégoire « Segmentation de la clientèle d’un centre commercial sur la base des comportements de magasinage, d’achat et de consommation ». |
1. Morineau, A. Morin, S. (2000). Pratique du traitement des enquêtes, Exemple d'utilisation du système SPAD , SISIA, CERESTA., Montreuil. (obligatoire) 2. Bouroche, J.M. et Saporta, G. (1983). L’analyse des données, P.U.F., Collection «que sais-je », Paris. 3. Cibois, P. (1984). L’analyse des données en sociologie, P.U.F., Paris 4. Diday. E., Lemaire, J., Pouger, J. et Tetsu, L. (1983). Éléments d’analyse des données, Dunod, Paris. 5. Dussaix, A.-M., Saporta, G., Carle, P., Darmon, R.-Y., Grimmer, J.-F., Morineau, A. (1998). L'analyse conjointe la Statistique et le Produit Idéal, CISIA, CERESTA. 6. Escofier, B. et Pagès, J. (1998). (3e édition) Analyses factorielles simples et multiples, Dunod, Paris. 7. Fénelon, J.P. (1981). Qu’est-ce que l’analyse des données, Lefonen, Paris. 8. Gifi, A. (1990). Non Linear Multivariate Analysis, Wiley, Chichester. 9. Greenacre, M. (1984). Theory and Application of Correspondence Analysis, Academic Press, London. 10. Harvatopoulos, Y., Livian, Y.F. et Samin, P. (1984). L’art de l’enquête, Eyrolles, Paris. 11. Jambu, M. (1989). Exploration informatique des données, Dunod, Paris. 12. Lavit, C. (1989). Analyse conjointe de tableaux quantitatifs, Masson, Paris. 13. Lebart, L., Morineau, A., Piron, M. (2000). Statistique exploratoire multi-dimensionnelle, DUNOD, 3e édition, ISBN : 2100053515. 14. Lebart, L., Morineau, A. et Warwick, K.W. (1984). Multivariate Descriptive Statistical Analysis, Correspondence Analysis and Related Techniques for Large Matrices, Wiley, New-York. 15. Lebart, L. (1992). La qualité de l’information dans les enquêtes, Dunod, Paris. 16. Morineau, A., Morin, S. (2000). Pratique du traitement des enquêtes, CISIA, CERESTA. 17. Nakache, J.-P. , Confais, J. (2000). Méthodes de classification avec illustration SPADS et SAS, CISIA, CERESTA. 18. Nishishato, S. (1980). Analysis of Categorical Data, Dual Scaling and its Applications, University of Toronto Press, Toronto. 19. Saporta, G. (1989). Probabilité, analyse des données et statistiques, Technip, Paris. 20. Tenenhaus, M. (1994). Méthodes statistiques en gestion, Dunod, Paris. 21. Tukey, J.W. (1977). Exploratory Data Analysis, Addison Westley. |
Nous envisageons de travailler en atelier d’analyse de données. À partir de base de données récemment analysées (venant de recherches en cours, de mémoires d’étudiants, …), nous piloterons des analyses avec les logiciels SPSS et SPAD . Les étudiants auront accès aux banques de données utilisées et aux divers fichiers de codage et de résultats. Ils pourront donc refaire l’étude et s’interroger sur la pertinence des diverses étapes. Ils pourront aussi trouver par eux-mêmes des résultats inédits. Nous nous rapprocherons le plus possible d’un climat d’analyse réel, en préparant un peu à l’avance les analyses. Les professeurs de l’école voulant explorer leurs données peuvent les soumettre quelques semaines avant le début du cours; en retour, nous demanderons leur expertise en classe. |
ÉVALUATION début |
Un travail sur les données analysées en classe (50 %) et un oral (50%). |