Le projet Election Watch : Cher candidat, que proposez-vous en matière de démocratie participative ?

26 mai 2020

Intelligence artificielle, Traitement du langage naturel, WebScraping

4 minutes de lecture

Traditionnellement, les candidats aux élections municipales préparent un programme comprenant différents objectifs qu'ils s'engagent à atteindre s'ils sont élus. La dernière élection municipale française n'a pas fait de différence malgré le contexte assez particulier d'exécution du 1er tour dû à la crise sanitaire.

Nous avons donc utilisé cette période pour rassembler des données qui pourraient aider Berger-Levrault à comprendre certaines tendances spécifiques. Notre objectif était double :

Rassembler les données sur le web relatives aux programmes des candidats pour l'élection des municipalités françaises de 2020.
Analysez ces données pour déterminer quel candidat propose des actions en matière de démocratie participative, en établissant des tendances sur le niveau d'ambition, la taille de la ville, l'affiliation politique, etc.

Ces données pourraient nous aider à identifier précisément les candidats qui ont des intentions en matière de démocratie participative pour constituer une base de prospects. Nous nous sommes appuyés sur deux technologies pour résoudre ces objectifs : Le Web Scraping pour collecter les données et le Traitement du Langage Naturel pour en extraire les informations utiles.

Étape 1 : Je gratte, tu grattes, il gratte...

Pour atteindre nos objectifs, nous avons dû collecter les données qui seraient utilisées afin de dresser un profil du programme de chaque candidat. Nous avons utilisé scraping web techniques pour collecter des données sur le web. Il s'agit d'un processus qui parcourt le code source d'une page web (HTML) et se base sur sa structure pour trouver automatiquement les informations pertinentes contenues. Une grande diversité d'outils sont disponibles pour le web scraping, nous avons utilisé deux bibliothèques Python : BelleSoupe et Selenium.

Tout d'abord, nous avons exploité les sites Web gouvernementaux pour recueillir des données sur les candidats et les municipalités. Cela nous a permis de générer une base de données contenant pour chaque candidat son nom, le nom de sa liste, la ville associée (avec son nom et sa taille), et son affiliation politique. Ensuite, nous avons rassemblé tous les programmes que nous avons pu trouver dans leur format PDF, en extrayant le texte contenu pour être analysé par NLP dans la deuxième partie de ce projet. Ces programmes ont été trouvés sur différentes sources telles que le site web Calameo.

Pour compléter ces programmes, nous avons gratté Google News pour trouver tous les articles des journaux mentionnant les candidats et les sujets autour de la démocratie participative. Le principal problème que nous avons rencontré avec cette collecte automatique pour un grand nombre de candidats (plus de 30'000 villes en France) est le manque de visibilité sur la qualité des données (programmes et articles) que nous recueillions. Nous avons réduit le nombre de candidats en supprimant les villes de moins de 5'000 habitants et nous avons traité la question de la qualité en appliquant un filtre sur les données en fonction de leur contenu textuel. Au final, nous avons obtenu 2'396 programmes de candidats pour 1'686 villes différentes.

Étape 2 : Faire appel à la puissance du traitement du langage naturel

L'objectif de cette deuxième partie est de réaliser une analyse statistique du corpus collecté (programmes des candidats). Nous disposons d'une liste de 33 mots-clés pour lesquels nous voulons mesurer la fréquence de chaque terme dans ce corpus (par candidats et/ou par villes). Ces termes peuvent être présentés dans les programmes municipaux sous différentes formes infléchies. Par exemple, 'citoyenpeut s'écrire sous différentes formes :citoyen, 'citoyenne"., 'citoyens", etcitoyennes".. Afin de prendre en compte l'ensemble des formes fléchies associées à chaque mot-clé, nous avons choisi d'utiliser Lexique3une ressource lexicale décrivant différentes informations pour l'utilisateur. 140 000 mots en langue française, comme le partie de discoursle nombre de syllabes et la racine du mot. C'est cette dernière qui nous intéresse dans ce projet, souvent appelé par lemme dans la PNL.

De plus, il faut noter que Lexique3 propose des lemmes pour des mots singuliers alors que 15 termes des 33 mots-clés que nous avons sont des mots multiples. La solution que nous proposons pour résoudre ce problème se fait en deux étapes :

Tout d'abord, nous obtenons le lemme de chaque mot appartenant à l'expression (multi-mots),
Ensuite, nous générons toutes les variantes possibles. Par exemple, pour 'conseil citoyen', nous avons 'conseil citoyen " etconseils citoyens. Cette technique permet donc de couvrir toutes les entrées possibles associées à un mot-clé.

Nous avons présenté différents résultats suite à l'analyse statistique effectuée :

Fréquence des termes : pour le programme de chaque candidat, nous avons obtenu le nombre d'occurrences pour chaque mot-clé
Fréquence du terme global : pour chaque mot-clé, nous avons obtenu le nombre total d'occurrences sur l'ensemble du corpus
Fréquence des documents : nous avons obtenu le nombre de programmes pour lesquels un mot-clé apparaît. Une seule occurrence d'un mot-clé est suffisante pour juger que le programme le cite.

Couverture : le pourcentage de programmes qui évoquent chaque mot-clé
Programme dominant : l'idée est de trouver quel programme du candidat nous renseigne le plus sur un mot clé.
Une distribution (%) de mots-clés pour chaque ville: Cela nous permet de voir les principaux mots-clés mentionnés par les programmes d'une ville donnée.

Pour synthétiser les résultats, nous avons construit un indicateur global qui vise à classer les villes en trois catégories :

Classe 0 : une ville n'indique pas ou peu les sujets qui évoquent la démocratie participative.
Classe 1 : une ville parle des sujets demandés
Classe 2 : une ville parle beaucoup de ces sujets

Les résultats globaux montrent qu'une très grande majorité des candidats parlent raisonnablement des sujets relatifs à la démocratie participative (environ 65%), que très peu n'ont jamais parlé de ces sujets (seulement 6%), et qu'il semble être un sujet d'intérêt majeur pour un tiers des villes (29%). Cela signifie que la démocratie participative est une tendance forte de la politique locale.

Plus ...

Innovation

Extraction d'informations dans les ouvrages et articles de Berger-Levrault

Lire plus »

18 avril 2024

En détail

Classification de documents métiers pour l'aide à l'extraction : l'usage des relations lexico-sémantiques typées et pondérées

Lire plus »

3 octobre 2023

En détail

Quelles sont les évolutions de ce droit ? Entre abstraction et hallucination dans le domaine du résumé des textes juridiques

Lire plus »

9 juin 2023

Actualités

Berger-Levrault et le CNRS signent un partenariat stratégique

Lire plus »

10 novembre 2022

Paramètres	Durée	Description
cookielawinfo-checkbox-analytics	11 mois	Ce cookie est défini par le plugin de consentement aux cookies GDPR. Le cookie est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie "Analytics".
cookielawinfo-checkbox-fonctionnel	11 mois	Le cookie est défini par le consentement aux cookies GDPR pour enregistrer le consentement de l'utilisateur pour les cookies de la catégorie "Fonctionnel".
cookielawinfo-checkbox-necessary	11 mois	Ce cookie est défini par le plugin de consentement aux cookies du GDPR. Il est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie "Nécessaire".
cookielawinfo-checkbox-others	11 mois	Ce cookie est défini par le plugin de consentement aux cookies GDPR. Ce cookie est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie " Autre ".
cookielawinfo-checkbox-performance	11 mois	Ce cookie est défini par le plugin de consentement aux cookies GDPR. Ce cookie est utilisé pour stocker le consentement de l'utilisateur pour les cookies de la catégorie "Performance".
politique_cookie_visible	11 mois	Ce cookie est défini par le plugin GDPR Cookie Consent et est utilisé pour stocker si l'utilisateur a consenti ou non à l'utilisation de cookies. Il ne stocke pas de données personnelles.

Le projet Election Watch : Cher candidat, que proposez-vous en matière de démocratie participative ?

Étape 1 : Je gratte, tu grattes, il gratte...

Étape 2 : Faire appel à la puissance du traitement du langage naturel

Plus ...

Extraction d'informations dans les ouvrages et articles de Berger-Levrault

Classification de documents métiers pour l'aide à l'extraction : l'usage des relations lexico-sémantiques typées et pondérées

Quelles sont les évolutions de ce droit ? Entre abstraction et hallucination dans le domaine du résumé des textes juridiques

Berger-Levrault et le CNRS signent un partenariat stratégique

Commencez à saisir du texte et appuyez sur Entrée pour rechercher