đŸ‡«đŸ‡· Une analyse automatique du langage du "Grand DĂ©bat National"

PREAMBULE

Cette page propose des rĂ©sultats d'analyse du corpus du Grand DĂ©bat National rĂ©alisĂ© au sein de la DRI Ă  Berger-Levrault. L'objectif de cette page est d'illustrer des analyses possibles sur ce type de corpus textuel. Nous nous sommes efforcĂ©s d'ĂȘtre le plus transparent possible dans les techniques effectuĂ©es.


ACCUEIL

Le grand dĂ©bat est d'intĂ©rĂȘt pour les citoyens français. C'est donc tout naturellement qu'au lendemain de l'annonce de la crĂ©ation de la plateforme nous avons commencĂ© Ă  investiguer comment nous pourrions contribuer Ă  ce grand projet de dĂ©mocratie participative. A l'aide de nos jeunes chercheurs, nous avons donc rapidement commencĂ© Ă  expĂ©rimenter le champ d'action possible en termes de Text Mining et de traitement du langage naturel (TAL). VoilĂ  pour Berger-Levrault un exercice intĂ©ressant, permettant de mettre Ă  l'Ă©preuve les techniques de linguistique face Ă  un projet dĂ©mocratique ambitieux. Pour comprendre nos analyses, il est tout d'abord important de comprendre l'exercice du Grand DĂ©bat National. Quatre grandes thĂ©matiques sont proposĂ©es aux citoyens, Ă  savoir :

  • DĂ©mocratie et citoyennetĂ©
  • FiscalitĂ© et dĂ©penses publiques
  • Transition Ă©cologique
  • Organisation de l'État et des services publics

Pour chaque thématique, il est possible de répondre à un questionnaire rapide fait de réponses à choix multiples et aussi de faire une proposition sous la forme d'un questionnaire composé majoritairement de questions ouvertes. Chacun des quatre questionnaires de propositions est composé d'un titre, de réponses à choix multiples, et de réponses en texte libre. L'analyse des réponses à choix multiple étant particuliÚrement triviale (i.e. il suffit de compter les réponses), elle n'a pas attiré notre attention.
Néanmoins, les propositions et leurs contributions en texte libre nous ont amené à penser qu'un travail d'analyse serait intéressant (et nécessaire) et que les compétences de nos scientifiques pourraient y contribuer.

Une double question s'est alors posée à nous :

  1. Quels outils sont à notre disposition pour comprendre le contenu de ce corpus textuel ? et
  2. Quelles analyses, questions aimerions nous nous poser à ce corpus pour en comprendre son essence ?

Ces deux questions sont évidemment interdépendantes : l'une posant le champ des possibles et l'autre relevant de la pertinence des analyses.

Nous avons tout naturellement approché le problÚme sous l'angle de la fouille de données en utilisant des techniques quantitatives relativement simples. A savoir, quelle quantité de participants, de réponses par topic et quelle distribution géographique en termes de participation.

Données extraites
sur la base Open Data du Grand débat du :

8 Mars 2019

Téléchargez les données ici

Nombre de contributions
individuelles analysées :

375357

Nombre de réponses
analysées :

4655044

En termes de participation, les quatres sujets ont suscitĂ© un nombre signficatif de contributions. On notera tout de mĂȘme une participation plus importante sur les thĂšmes de FiscalitĂ© et dĂ©penses publique et sur Transition Ă©cologique. Cela est probablement l'indicateur que ces deux sujets sont les plus importants pour les citoyens.

RĂ©partition des contributeurs par sujet

Nous avons également regardé la répartition de la participation par département. Il est important de noter que la localisation de la participation est fournie par les contributeurs en donnant leur code postal et non pas par un mécanisme de géolocalisation. Tout d'abord, nous avons produit une carte illustrant le nombre de participation par département. Cette derniÚre met en évidence que les départements 75 ,78, 33, 31, 69, 34, 59, 44 et 13 comptent le plus grand nombre de contributeurs. Ces zones de France étant parmi les plus peuplées ce résultat n'est pas surprenant.

 

La deuxiÚme carte montre la répartition de la participation par département pondérée par la population du département (données de population INSEE 2016). Ici, le résultat est plus étonnant montrant à l'inverse que le Calvados (14) et les Alpes-Maritimes (06) participent fortement en regard du volume de leurs habitants.

Carte 1 : Répartition par département du nombre de contributions
(sur la base des codes postaux fournis par les contributeurs)

Carte 2 : Répartition par département du pourcentage de contributions par la population
(sur la base des codes postaux fournis par les contributeurs)

Nous avons ensuite tenté d'aller plus loin en questionnant les contenus en texte libre pour chacune des quatre thématiques. L'ambition était de cerner les sujets discutés dans chacune des thématiques et de les prioriser. Nous avons donc cherché à comptabiliser les expressions contenues dans le texte libre. Ces expressions composées de plusieurs mots sont appelés n-grammes. (https://fr.wikipedia.org/wiki/N-gramme).

A ce stade, la difficulté principale réside dans l'identification de ces n-grammes. Pour un ordinateur le texte n'est ni plus ni moins qu'un signal totalement dénué de sens. Il est donc nécessaire de lui indiquer les mots, ou plutÎt groupes de mots qui sont intéressants dans notre langue. Par exemple, "transport en commun" est un n-gramme composé de trois mots qui a du sens en français, alors que "voiture soleil" ne veut à priori rien dire.

Pour identifier des n-grammes dans un texte il est nĂ©cessaire de travailler avec un corpus correctement formatĂ©, des Ă©tapes de prĂ©-traitement sont nĂ©cessaires. Il est par consĂ©quent nĂ©cessaire de lemmatiser le texte, de corriger certaines fautes d'orthographe ou de ponctuation (e.g. meme peut devenir mĂȘme ou mĂ©mĂ©) et enfin de filtrer tous les mots vides (https://fr.wikipedia.org/wiki/Mot_vide) ou stop-words en anglais.

La lemmatisation (https://fr.wikipedia.org/wiki/Lemmatisation) consiste à donner une forme neutre et canonique à un mot. Ainsi les mots petit/petits/petite/petites sont remplacés par un seul terme (petit dans notre cas) pour uniformiser le traitement du texte. Le schéma ci-dessous illustre la méthode de comptage que nous avons employé et les différentes étapes de traitement que nous effectuons sur les données.

Pour parvenir à tous ces traitements, nous nous sommes appuyés sur une base de données provenant d'expressions françaises issues du projet Universitaire Jeux de mots. Nous avons ensuite complété cette base de données avec quelques expressions et lemmes manquants. Les listes utilisées dans nos analyses sont téléchargeables ici.

Une fois ce comptage réalisé, nous avons généré des représentations graphiques de ces données. Nous avons produit des nuages de mots et des histogrammes pour chacune des quatres grandes thématiques du grand débat.

La démocratie et la citoyenneté

Pour le thÚme démocratie et la citoyenneté, un thÚme se distingue clairement des autres : Vote blanc. Nous sommes donc en capacité de dire qu'il s'agit du terme le plus discuté dans ce premier thÚme. Comme le montre bien l'histogramme, vote obligatoire, à l'école et non respect sont les trois termes suivants en termes d'importance.

La fiscalité et les dépenses publiques

Pour le thĂšme fiscalitĂ© et les dĂ©penses publiques, la distribution des sujets est plus nuancĂ©e. l'impot sur le revenu arrive en tĂȘte, suivi de prĂšs par aides sociales et niches fiscales. Un deuxiĂšme groupe de sujets d'importance suit, composĂ© d'allocations familiales, de taxe d'habitation et d'Ă©vasion fiscale.

La transition Ă©cologique

Pour le thÚme transition écologique, le focus des échanges est sans équivoque. Nos concitoyens parlent de transport en commun. C'est le sujet qui de trÚs trÚs loin ressort des réponses.

L'organisation de l'État et des services publics

Pour le thĂšme Organisation de l'État et des services publics, le sujet du service public arrive en tĂȘte ce qui n'est pas surprenant puisque c'est l'objet principal du thĂšme. Par contre, on notera les trois sujets suivants Ă  savoir limitation de vitesse et sĂ©curitĂ© routiĂšre qui sont Ă  rapprocher d'une prĂ©occupation de dĂ©placements automobile et PĂŽle emploi qui suggĂšre une focalisation sur les problĂ©matiques liĂ©es au chĂŽmage.

CONNEXITÉ DES SUJETS PAR THÈME

Bien que ces premiÚres analyses nous informent sur la nature du contenu des contributions ouvertes du grand débat national, elles ne sont pas suffisantes pour donner du sens et comprendre dans le détail le contenu des échanges.

Pour aller plus loin, nous travaillons dĂ©sormais sur de nouvelles analyses impliquant des algorithmes plus Ă©voluĂ©s, dont certains entre dans la catĂ©gorie de l'Intelligence Artificielle. A titre d'exemple, nous utilisons l'algorithme 'Word2Vec' un rĂ©seau de neurone dĂ©diĂ© au traitement du langage naturel. (https://skymind.ai/wiki/word2vec). Cet algorithme permet de calculer un vecteur pour chaque mot d'un corpus textuel. Le but et l'utilitĂ© de Word2vec est de regrouper les vecteurs de mots similaires dans un espace vectoriel. C'est-Ă -dire qu'il dĂ©tecte mathĂ©matiquement les similitudes entre mots. Word2vec crĂ©e des vecteurs qui sont des reprĂ©sentations numĂ©riques distribuĂ©es des caractĂ©ristiques des mots, tenant compte du contexte individuels des mots. Ce qui est Ă©tonnant c'est que cet algorithme fonctionne sans intervention humaine. Il n'y a donc pas besoin d'avoir un corpus annotĂ© par l'ĂȘtre humain comme le nĂ©cessite beaucoup d'algorithmes d'apprentissage machine.

Avec suffisamment de donnĂ©es, Word2vec peut faire des suppositions trĂšs prĂ©cises sur la signification d'un mot Ă  partir des apparences passĂ©es. Ces suppositions peuvent ĂȘtre utilisĂ©es pour Ă©tablir l'association d'un mot avec d'autres mots (par exemple, "homme" est Ă  "garçon" ce que "femme" est Ă  "fille"), ou regrouper des documents et les classer par sujet.

Dans la suite nous présentons, par thÚme, des graphes représentants les résultats de Word2Vec. Les gros noeuds sont les 30 premiers n-grammes ressortant en termes d'occurrence dans l'analyse précédente. Pour chaque gros noeud, les petits noeuds sont les 70 termes connexes ayant les plus forts vecteurs (ayant donc la plus grande probabilité de proximié sémantique). La taille des noeuds est fonction du nombre d'occurrence du n-grammes dans le corpus. Plus un n-gramme est présent plus son noeud est gros.

ATTENTION : Les couleurs n'ont pour l'instant aucune signification (si ce n'est d'aider à la distinction des noeuds) et la longueur des arc et le placement des noeuds est calculée automatiquement pour minimiser les chevauchements (nous utilisons l'algorithme ForceAtlas2).
Le graphe est zoomable et les noeuds sont cliquables pour isoler leurs voisins.

La démocratie et la citoyenneté

La fiscalité et les dépenses publiques

La transition Ă©cologique

L'organisation de l'État et des services publics

A VENIR

Nous tentons également de définir des métriques pertinentes pour classer automatiquement les réponses à chacune des questions. L'ambition est de pouvoir identifier s'il existe des grandes catégories de réponses/proposition pour chaque question des quatre thÚmes. Ainsi nous serions en mesure d'identifier les grandes tendances dans les contributions des citoyens. Des algorithmes non-supervisés tel que 'DBScan' et 'K-Means' sont en cours d'expérimentation.
Cette page sera mise à jour dÚs que nous aurons de nouveaux résultats pertinents. Nous y expliquerons également les méthodes et algorithmes utilisés, et les limites de nos résultats.

Plus ...

Retour haut de page