🇫🇷 Une analyse automatique du language du “Grand Debat National”

PREAMBULE

Cette page propose des rĂ©sultats d’analyse du corpus du Grand DĂ©bat National rĂ©alisĂ© au sein de la DRI Ă  Berger-Levrault. L’objectif de cette page est d’illustrer des analyses possibles sur ce type de corpus textuel. Nous nous sommes efforcĂ©s d’etre le plus transparent possible dans les techniques effectuĂ©es.


ACCUEIL

Le grand débat est d’intérêt pour les citoyens français. C’est donc tout naturellement qu’au lendemain de l’annonce de la création de la plateforme nous avons commencé à investiguer comment nous pourrions contribuer à ce grand projet de démocratie participative. A l’aide de nos jeunes chercheurs, nous avons donc rapidement commencé à expérimenter le champ d’action possible en termes de Text Mining et de traitement du langage naturel (TAL). Voilà pour Berger-Levrault un exercice intéressant, permettant de mettre à l’épreuve les techniques de linguistique face à un projet démocratique ambitieux. Pour comprendre nos analyses, il est tout d’abord important de comprendre l’exercice du Grand Débat National. Quatre grandes thématiques sont proposées aux citoyens, à savoir :

  • DĂ©mocratie et citoyennetĂ©
  • FiscalitĂ© et dĂ©penses publiques
  • Transition Ă©cologique
  • Organisation de l’État et des services publics

Pour chaque thématique, il est possible de répondre à un questionnaire rapide fait de réponses à choix multiples et aussi de faire une proposition sous la forme d’un questionnaire composé majoritairement de questions ouvertes. Chacun des quatre questionnaires de propositions est composé d’un titre, de réponses à choix multiple, et de réponses en texte libre. L’analyse des réponses à choix multiple étant particulièrement triviale (i.e. il suffit de compter les réponses), elle n’a pas attiré notre attention.
Néanmoins, les propositions et leurs contributions en texte libre nous ont amené à penser qu’un travail d’analyse serait intéressant (et nécessaire) et que les compétences de nos scientifiques pourraient y contribuer.

Une double question s’est alors posĂ©es Ă  nous :

  1. Quels outils sont à notre disposition pour comprendre le contenu de ce corpus textuel ? et
  2. Quelles analyses, questions aimerions nous poser à ce corpus pour en comprendre son essence ?

Ces deux questions sont évidemment interdépendantes l’une posant le champ des possibles et l’autre relevant de la pertinence des analyses.

Nous avons tout naturellement approché le problème sous l’angle de la fouille de données en utilisant des techniques quantitatives relativement simples. A savoir, quelle quantité de participants, de réponses par topic et quelle distribution géographique en termes de participation.

Données extraites
sur la base Open Data du Grand débat du :

8 Mars 2019

Téléchargez les données ici

Nombre de contributions
individuelles analysées:

375357

Nombre de réponses
analysées:

4655044

En termes de participation, les quatres sujets ont suscitĂ© un nombre signficatif de contributions. On notera tout de mĂŞme une participation plus important sur les thèmes de FiscalitĂ© et dĂ©penses publique et sur Transition ecologique. Cela est probablement l’indicateur que ces deux sujets sont les plus importants pour les citoyens.

RĂ©partition des contributeurs par sujet

Nous avons Ă©galement regardĂ© la rĂ©partition de la participation par dĂ©partement. Il est important de noter que la localisation de la participation est fournie par les contributeurs en donnant leur code postal et non pas par un mĂ©canisme de gĂ©olocalisation. Tout d’abord, nous avons produit une carte illustrant le nombre de participation par dĂ©partement. Cette dernière met en Ă©vidence que les dĂ©partements 75 ,78, 33, 31, 69, 34, 59, 44 et 13 comptent le plus grand nombre de contributeurs. Ces zones de France Ă©tant parmi les plus peuplĂ©es ce rĂ©sultat n’est pas surprenant.

 

La deuxième carte montre la rĂ©partition de la participation par dĂ©partement pondĂ©rĂ©e par la population du dĂ©partement (donnĂ©es de population INSEE 2016). Ici, le rĂ©sultat est plus Ă©tonnant montrant Ă  l’inverse que le Calvados (14) et les Alpes-Maritimes (06) participent fortement en regard du volume de leurs habitants.

Carte 1: Répartition par département du nombre de contributions
(sur la base des code postaux fournis par les contributeurs)

Carte 2: Répartition par département du pourcentage de contributions par la population
(sur la base des code postaux fournis par les contributeurs)

Nous avons ensuite tenté d’aller plus loin en questionnant les contenus en texte libre pour chacune des quatre thématiques. L’ambition était de cerner les sujets discutés dans chacune des thématiques et de les prioriser. Nous avons donc cherché à comptabiliser les expressions contenues dans le texte libre. Ces expressions composées de plusieurs mots sont appelés n-grammes. (https://fr.wikipedia.org/wiki/N-gramme).

A ce stade, la difficultĂ© principale rĂ©side dans l’identification de ces n-grammes. Pour un ordinateur le texte n’est ni plus ni moins qu’un signal totalement dĂ©nuĂ© de sens. Il est donc nĂ©cessaire de lui indiquer les mots, ou plutĂ´t groupes de mots qui sont intĂ©ressants dans notre langue. Par exemple, “transport en commun” est un n-gramme composĂ© de trois mots qui a du sens en français, alors que “voiture soleil” ne veut Ă  priori rien dire.

Pour identifier des n-grammes dans un texte il est nécessaire de travailler avec un corpus correctement formatté, des étapes de pré-traitement sont nécessaires. Il est par conséquent nécessaire de lemmatiser le texte, de corriger certaines fautes d’orthographe ou de ponctuation (e.g. meme peut devenir même ou mémé) et enfin de filtrer tous les mots vides (https://fr.wikipedia.org/wiki/Mot_vide) ou stop-words en anglais.

La lemmatisation (https://fr.wikipedia.org/wiki/Lemmatisation) consiste à donner une forme neutre et canonique à un mot. Ainsi les mots petit/petits/petite/petites sont remplacés par un seul terme (petit dans notre cas) pour uniformiser le traitement du texte. Le schéma ci-dessous illustre la méthode de comptage que nous avons employé et les différentes étapes de traitement que nous effectuons sur les données.

Pour parvenir Ă  tous ces traitements, nous nous sommes appuyĂ©s sur une base de donnĂ©es provenant d’expressions françaises issue du projet Universitaire Jeux de mots. Nous avons ensuite complĂ©tĂ© cette base de donnĂ©es avec quelques expressions et lemmes manquants. Les listes utilisĂ©es dans nos analyses sont tĂ©lĂ©chargeables ici.

Une fois ce comptage réalisé, nous avons généré des représentations graphiques de ces données. Nous avons produit des nuages de mots et des histogrammes pour chacune des quatres grandes thématiques du grand débat.

La démocratie et la citoyenneté

Pour le thème dĂ©mocratie et la citoyennetĂ©, un thème se distingue clairement des autres: Vote blanc. Nous sommes donc en capacitĂ© de dire qu’il s’agit du terme le plus discutĂ© dans ce premier thème. Comme le montre bien l’histogramme, vote obligatoire, Ă  l’Ă©cole et non respect sont les trois termes suivants en termes d’importance.

La fiscalité et les dépenses publiques

Pour le thème fiscalitĂ© et les dĂ©penses publiques, la distribution des sujets est plus nuancĂ©e. l’impot sur le revenu arrive en tĂŞte, suivi de près par aides sociales et niches fiscales. Un deuxième groupe de sujets d’importance suit, composĂ© d’allocations familiales, de taxe d’habitation et d’Ă©vasion fiscale.

La transition Ă©cologique

Pour le thème transition Ă©cologique, le focus des Ă©changes est sans Ă©quivoque. Nos concitoyens parlent de transport en commun. C’est le sujet qui de très très loin ressort des rĂ©ponses.

L'organisation de l'État et des services publics

Pour le thème Organisation de l’État et des services publics, le sujet du service public arrive en tĂŞte ce qui n’est pas surprenant puisque c’est l’objet principale du thème. Par contre, on notera les trois sujets suivants Ă  savoir limitation de vitesse et sĂ©curitĂ© routière qui sont Ă  rapprocher d’une prĂ©occupation de dĂ©placements automobile et PĂ´le emploi qui suggère une focalisation sur les problĂ©matiques liĂ©es au chĂ´mage.

CONNEXITE DES SUJETS PAR THEME

Bien que ces premières analyses nous informent sur la nature du contenu des contributions ouvertes du grand débat national, elles ne sont pas suffisantes pour donner du sens et comprendre dans le détail le contenu des échanges.

Pour aller plus loin, nous travaillons dĂ©sormais sur de nouvelles analyses impliquant des algorithmes plus Ă©voluĂ©s, dont certain entre dans la catĂ©gorie de l’Intelligence Artificielle. A titre d’exemple, nous utilisons l’algorithme ‘Word2Vec’ un rĂ©seau de neurone dĂ©diĂ© au traitement du langage naturel (https://skymind.ai/wiki/word2vec). Cet algorithme permet de calculer un vecteur pour chaque mot d’un corpus textuel. Le but et l’utilitĂ© de Word2vec est de regrouper les vecteurs de mots similaires dans un espace vectoriel. C’est-Ă -dire qu’il dĂ©tecte mathĂ©matiquement les similitudes entre mots. Word2vec crĂ©e des vecteurs qui sont des reprĂ©sentations numĂ©riques distribuĂ©es des caractĂ©ristiques des mots, tenant compte du contexte individuels des mots. Ce qui est Ă©tonnant c’est que cet algorithme fonctionne sans intervention humaine. Il n’y a donc pas besoin d’avoir un corpus annotĂ© par l’être humain comme le nĂ©cessite beaucoup d’algorithmes d’apprentissage machine.

Avec suffisamment de donnĂ©es, Word2vec peut faire des suppositions très prĂ©cises sur la signification d’un mot Ă  partir des apparences passĂ©es. Ces suppositions peuvent ĂŞtre utilisĂ©es pour Ă©tablir l’association d’un mot avec d’autres mots (par exemple, “homme” est Ă  “garçon” ce que “femme” est Ă  “fille”), ou regrouper des documents et les classer par sujet.

Dans la suite nous prĂ©sentons, par theme, des graphes reprĂ©sentants les rĂ©sultats de Word2Vec. Les gros noeuds sont les 30 premiers n-grammes ressortant en termes d’occurrence dans l’analyse prĂ©cĂ©dente. Pour chaque gros noeud, les petits noeuds sont les 70 termes connexes ayant les plus forts vecteurs (donc ayant la plus grande probabilitĂ© de proximiĂ© sĂ©mantique). La taille des noeuds est fonction du nombre d’occurrence du n-grammes dans le corpus. Plus un n-gramme est prĂ©sent plus son noeud est gros.

ATTENTION: Les couleurs n’ont pour l’instant aucune signification (si ce n’est d’aider Ă  la distinction des noeuds) et la longueur des arc et le placement des noeuds est calculĂ©e automatiquement pour minimiser les chevauchements (nous utilisons l’algorithme ForceAtlas2).
Le graphe est zoomable et les noeuds sont cliquables pour isoler leurs voisins.

La démocratie et la citoyenneté

La fiscalité et les dépenses publiques

La transition Ă©cologique

L'organisation de l'État et des services publics

A VENIR

Nous tentons Ă©galement de dĂ©finir des mĂ©triques pertinentes pour classer automatiquement les rĂ©ponses Ă  chacune des questions. L’ambition est de pouvoir identifier s’il existe des grandes catĂ©gories de rĂ©ponses/proposition pour chaque question des quatre thèmes. Ainsi nous serions en mesure d’identifier les grandes tendances dans les contributions des citoyens. Des algorithmes non-supervisĂ©s tel que ‘DBScan’ et ‘K-Means’ sont en cours d’expĂ©rimentation.
Cette page sera mise à jour dès que nous aurons de nouveaux résultats pertinents. Nous y expliquerons également les méthodes et algorithmes utilisés, et les limites de nos résultats.

More ...

Scroll to Top