Informations pratiques
Ce module porte sur le traitement ou l’analyse des données statistiques et géographiques multidimensionnelles. Il cible la plupart des chercheur·es et étudiant·es dans le domaine des sciences économiques, sociales ou humaines.
Il se fera sous la forme de travaux dirigés (TD) avec des exercices pratiques de traitement des données sur le logiciel R. La résolution de ces exercices nécessite des outils tels que l’ordinateur, les logiciels et la connexion Internet.
La partie théorique de ce module pourra se faire en 3 heures de temps au minimum et l’application des exercices en 2 heures au minimum.
Prérequis
Une maîtrise de l’outil informatique et une initiation à R et Rstudio sont nécessaire ainsi qu’une bonne connexion à internet afin de télécharger les supports (cours, données et packages R).
Il est nécessaire d’avoir une connaissance des notions fondamentales ou basiques de la statistique descriptive notamment la connaissance de la nature des variables à analyser et des modalités associées :
il peut s’agir de variables continues, de variables nominales ou de catégories dans le cas des tableaux de contingence
les lignes peuvent être des individus ou des catégories
Voir les modules :
EXP1 - statistique univariée
EXP2 - statistique bivariée
Résumé
L’analyse exploratoire des variables qualitatives et quantitatives grâce à la statistique descriptive est certes indispensable mais elle reste tout à fait insuffisante. Cette analyse univariée ou bivariée laisse de côté les liaisons multiples qui peuvent exister entre plusieurs variables. Cela nécessite donc une analyse des données tenant compte de leur caractère multidimensionnel en recourant à l’analyse factorielle qui est un ensemble de méthodes.
Ces méthodes permettent de structurer et synthétiser les informations sur les individus et les variables sous forme de représentations graphiques ou plans factoriels.
Elles ont pour objet de réduire les dimensions des tableaux de données de façon à représenter les associations entre individus et entre variables dans des espaces de faibles dimensions.
Les principales méthodes de l’analyse factorielle sont :
L’analyse en composantes principales (ACP) pour des variables quantitatives (ou encore des variables pour lesquels la notion de moyenne a un sens)
L’analyse factorielle des correspondances simples (AFC) pour deux variables qualitatives uniquement
L’analyse des correspondances multiples (ACM) pour plusieurs variables qualitatives
L’analyse factorielle multiple (AFM) pour les tableaux dans lesquels les variables sont structurées en groupes.
Elles peuvent être complétées par une classification ou une analyse discriminante dont le but sera de faire apparaître des groupes d’individus homogènes vis-à-vis des variables analysées. Ces dernières techniques sont des méthodes explicatives.
Le module s’organise en deux parties : d’une part faire le point sur les généralités de l’analyse factorielle et d’autre part présenter chaque méthode d’analyse et les données possibles pour sa mise en œuvre.
Support de cours et de TD
Le module est organisé sous forme de trois sessions de cours et trois exercices :
Cours 1 : Introduction : Cette introduction à l’analyse multidimensionnelle permet de proposer une approche intuitive des objectifs des méthodes d’analyse factorielle et de classification à travers l’exemple pédagogique de la taille et du niveau de développement des 15 pays de la CEDEAO. Les questions statistiques sont volontairement survolées sans approfondissement.
Cours 2 : Analyses factorielles : A travers l’exemple de l’analyse en composante principale (ACP), ce cours basé sur un très petit tableau de données met en place les principes généraux de l’analyse factorielle entendue comme méthode de réduction des colonnes d’un tableau de données. Directement inspiré de l’ouvrage de Denis (2020) il détaille les méthodes de construction des axes factoriels, leur interprétation, et la possibilité d’ajouter des individus ou variables supplémentaire.
Cours 3 : Classifications : Reprenant le même tableau de données que le cours précédent, ce cours présente les bases des méthodes de classification en détaillant la construction d’une matrice de similarité/dissimilarité puis en montrant comment regrouper les individus à l’aide de méthodes itératives (k-means) ou hiérarchiques (Classification Ascendante Hiérarchique).
Le diaporama de cours présenté lors de l’école d’été CIST2022 offre un résumé synthétique des propriétés des trois types d’analyse factorielle (ACP, AFC, ACM) et peut soit servir de préalable à l’ensemble des cours et exercices, soit être mobilisé en conclusion pour effectuer une synthèse des connaissances acquises.
Exercices d’application
Exo 1 Application de l’ACP : Ce premier exemple d’application porte sur le développement des pays africains en 2018 et montre comment l’ACP permet de mettre à jour à la fois des dimensions attendues (F1 = niveau global de développement) et d’autres moins prévisibles (F2 et F3) liées aux effets du climat ou aux crises politiques. Il est associé à une classification et une cartographie des résultats.
Exo 2 : Application de l’AFC : Ce second exemple prend en entrée un tableau de contingence décrivant la distribution des langues par département au Bénin lors du recensement de 2013. Il permet de montrer le passage de la distance euclidienne à la distance du chi-2 dans la construction des axes factoriels et des classification. Il souligne les differences avec l’ACP, notamment du fait de la dualité de lecture des lignes et des colonnes propre à ce type de tableau.
Exo 3 : Application de l’ACM : Ce dernier exemple montre comment on peut appliquer les méthodes d’analyse factorielle et de classification à un tableau de variables qualitatives (catégorielles) en les transformant en tableau disjonctif complet composé de 0 et de 1. Il permet de souligner la proximité de cette méthode avec l’AFC et de mettre en valeur la possibilité d’appliquer les méthodes d’analyse multidimensionnelles aux données d’enquête.
Dans chaque dossier d’exercice vous trouverez un fichier .rproj
à ouvrir dans rStudio, un fichier .qmd
d’énoncé et d’exercice et le .pdf
issu de la compilation de cet exercice, ainsi que les données et autres fichiers necessaires (images).
Données
- ACP / CAH : Développement des pays africains
- ACP / CAH : Forces et faiblesses de la CEDEAO en 2021
- AFC : Données du recensement du Bénin sur les langues parlées et les départements
- ACM : Données d’enquêtes sur la problématique de la scolarisation des filles et des garçons dans le nord-ouest de la Côte d’Ivoire (Bagoué, Folon, Kabadougou et Minignan). L’enquête a été réalisée entre 2016 et 2018 auprès de 635 chefs de ménage dans huit départements et 25 sous-préfectures. Plusieurs variables ont été mobilisées : variables géographiques, démographiques, économiques, sociales, culturelles et de l’offre.