Philippe Haag, doctorant en Sciences de l'information et de la communication, Cimeos à l'Université de Bourgogne Franche-Comté et Cyril Masselot, maître de conférence en Sciences de l'information et de la communication, à l'Université de Bourgogne Franche-Comté, ont réaliser une analyse des discours des candidats de plusieurs villes de Franche-Comté dont Besançon.
Quelle méthodologie ?
Le corpus utilisé pour l'analyse est constitué par des textes provenant de sources distinctes : d’une part, des textes provenant de tracts de campagne et d’autre part, des textes provenant de sites internet de campagne (profession de foi, engagement et valeurs, réflexion sur des thématiques politiques).
Les mesures politiques des différents programmes de campagne n’ont pas été retenues dans le présent corpus. Seuls les textes dans lesquels les candidats rendent compte d’un positionnement personnel ont été inclus dans le corpus. La date d’observation s’étend du 30 janvier au 24 février 2020.
Par ailleurs, les discours prélevés ont été basés sur les productions des candidats aux municipales de 2020 des grandes villes de Franche-Comté dont Besançon, parmi lesquels on retrouve les listes conduites par Eric Alauzet (LAREM), Jean-Philippe Allenbach (Mouvement Franche-comté), Claire Arnoux (La France insoumise), Karim Bouhassoun (Bisontines-Bisontins), Alexandra Cordier (sans étiquette), Ludovic Fagaut (LR), Nicole Friess (Lutte ouvrière), Jacques Ricciardetti (RN) et Anne Vignot (EELV).
Les universitaires ont effectué une Analyse cognitive du discours (ACD) à l'aide du logiciel Iramuteq (Ratinaud 2009 et Pélissier 2016, laboratoire LERASS), qui utilise les méthodes statistiques éprouvées d'Analayse factorielle des correspondances (AFC) et de Classification descendante hiérarchique (CDH) :
- Constitution d’un nuage de formes
- Représentation du dendrogramme obtenu (arbre de classification)
- Représentation des profils de discours tenus grâce à l’Analyse Factorielle des Correspondances en 3 dimensions
- Visualisation également des variables retenues dans le même espace vectoriel.
Techniquement, le logiciel Iramuteq opère ce que les linguistes nomment une "lemmatisation" du corpus : "les verbes sont ramenés a? l'infinitif, les noms au singulier et les adjectifs au masculin singulier. Iramuteq réalise la lemmatisation à partir de dictionnaires, sans désambiguïsation". (Manuel du logiciel, 2014).
Le corpus est ainsi constitué :
- Nombre de textes : 20
- Nombre d'occurrences (de mots dans tout le texte) : 18559
- Le corpus est suffisant et recevable pour l'analyse statistique du discours. À titre de comparaison, la taille minimale d’un corpus acceptable pour des raisons statistiques est d’environ 2500 occurrences lemmatisées.
- Nombre de formes (après l’opération de dite de lemmatisation) : 2798
- La recevabilité est ici confirmée, ce nombre de formes étant supérieur à l’échantillon minimum. Nombre d'hapax (de formes présentes une seule fois) : 1332 (7.18%des occurrences - 47.61% des formes).
"Ce rapport indique que le vocabulaire utilisé est à la fois riche et assez homogène : à partir de 40% d’hapax, le discours montre que l’on utilise un lexique varié pour se référer à des idées ou notions sémantiquement proches", précisent Philippe Haag et Cyril Masselot, "Nous obtenons donc un corpus qui présente un intérêt statistique prouvé, et un équilibre général."
Découvrez les résultats de l'analyse dans notre vidéo...