El Proyecto de Vigilancia Electoral: Estimado candidato, ¿qué propone en materia de democracia participativa?

Tradicionalmente, los candidatos a las elecciones municipales preparan un programa que incluye varios objetivos que se comprometen a alcanzar si son elegidos. Las últimas elecciones municipales francesas no supusieron ninguna diferencia a pesar del contexto bastante particular de ejecución de la 1ª vuelta debido a la crisis sanitaria.

Por ello, aprovechamos este periodo para recopilar datos que pudieran ayudar a Berger-Levrault a comprender algunas tendencias concretas. Nuestro objetivo era doble:

  1. Recopilar datos en la web relacionados con los programas de los candidatos para las elecciones municipales francesas de 2020
  2. Analizar estos datos para determinar qué candidato propone acciones en materia de democracia participativa, estableciendo tendencias sobre el nivel de ambición, el tamaño de la ciudad, la afiliación política, etc.

Estos datos podrían ayudarnos a identificar con precisión qué candidatos tienen intenciones en términos de democracia participativa para constituir una base de prospectos. Nos basamos en dos tecnologías para resolver estos objetivos: El Web Scraping para recoger los datos y el Procesamiento del Lenguaje Natural para extraer información valiosa de los mismos.

Paso 1: Yo desecho, tú desechas, él desecha...

Para cumplir nuestros objetivos, tuvimos que recopilar los datos que se utilizarían para trazar un perfil para el programa de cada candidato. Para ello, utilizamos raspado de páginas web técnicas de recogida de datos en la web. Es un proceso que explora el código fuente de una página web (HTML) y se basa en su estructura para encontrar automáticamente la información relevante contenida. Hay una gran diversidad de herramientas disponibles para el web scraping, nosotros utilizamos dos librerías de Python: BeautifulSoup y Selenio.

En primer lugar, hemos rastreado sitios web gubernamentales para recopilar datos sobre los candidatos y los municipios. Esto nos ayudó a generar una base de datos que contenía para cada candidato su nombre, el nombre de su lista, el municipio asociado (con su nombre y tamaño) y su afiliación política. A continuación, recopilamos todos los programas que pudimos encontrar en su formato PDF, extrayendo el texto contenido para analizarlo mediante PNL en la segunda parte de este proyecto. Estos programas se encontraron en diferentes fuentes, como el sitio web Calameo.

Raspado del sitio web de Calameo

Para completar estos programas, hemos desechado Noticias de Google para encontrar todos los artículos de los periódicos que mencionan a los candidatos y los temas relacionados con la democracia participativa. El principal problema al que nos enfrentamos con esta recogida automática para un gran número de candidatos (más de 30.000 ciudades en Francia) es la falta de visibilidad sobre la calidad de los datos (programas y artículos) que estábamos recogiendo. Redujimos el número de candidatos eliminando las ciudades con menos de 5.000 habitantes y tratamos el tema de la calidad aplicando un filtro a los datos según su contenido textual. Al final, obtuvimos 2.396 programas de candidatos para 1.686 ciudades diferentes.

Paso 2: Invocar el poder del procesamiento del lenguaje natural

El objetivo de esta segunda parte es realizar un análisis estadístico del corpus recogido (programas de candidatos). Tenemos una lista de 33 palabras clave para los que queremos medir la frecuencia de cada término en este corpus (por candidatos y/o ciudades). Estos términos pueden presentarse en los programas municipales con diferentes formas flexionadas. Por ejemplo,citoyense puede escribir con diferentes formas: 'citoyen', 'citoyennes"., 'citoyens', y 'citoyennes. Para tener en cuenta todas las formas flexionadas asociadas a cada palabra clave, hemos optado por utilizar Lexique3un recurso léxico que describe diferentes informaciones para el 140 000 palabras en lengua francesa como el parte de la oraciónEl número de sílabas y la raíz de la palabra. Es esta última la que nos interesa en este proyecto, a menudo llamado por lema en la PNL.

Además, hay que tener en cuenta que Lexique3 ofrece lemas para palabras singulares mientras que 15 términos de las 33 palabras clave que tenemos son multipalabras. La solución que proponemos para resolver este problema consta de dos pasos:

  • En primer lugar, obtenemos el lema de cada palabra perteneciente a la expresión (multipalabras),
  • A continuación, generamos todas las variantes posibles. Por ejemplo, para 'consejo ciudadano', tenemos 'consejo citoyen' y 'conseils citoyens. Esta técnica nos permite cubrir todas las posibles entradas asociadas a una palabra clave.

Presentamos varios resultados tras el análisis estadístico realizado:

  • Frecuencia del plazo: para el programa de cada candidato, obtuvimos el número de apariciones de cada palabra clave
  • Frecuencia global de los términos: para cada palabra clave, obtuvimos el número total de ocurrencias en todo el corpus
  • Frecuencia de los documentos: obtenemos el número de programas en los que aparece una palabra clave. Una sola aparición de una palabra clave es suficiente para juzgar que el programa la cita
  • Cobertura: el porcentaje de programas que evocan cada palabra clave
  • Programa dominante: la idea es encontrar qué programa del candidato nos dice más sobre una palabra clave
  • Una distribución (%) de palabras clave para cada ciudad: Permite ver las principales palabras clave mencionadas por los programas de una ciudad determinada

Para sintetizar los resultados construimos un indicador global que pretende clasificar las ciudades entre 3 clases:

  • Clase 0: una ciudad no indica o apenas indica temas que evocan la democracia participativa
  • Clase 1: un pueblo habla de los temas solicitados
  • Clase 2: en un pueblo se habla mucho de estos temas
Distribución de las ciudades por clases

Los resultados generales muestran que una gran mayoría de los candidatos hablan razonablemente de los temas de la democracia participativa (unos 65%), muy pocos no han hablado nunca de estos temas (sólo 6%), y parece ser un tema de gran interés para un tercio de las ciudades (29%). Esto significa que la democracia participativa es una fuerte tendencia en la política local.

Más ...

Ir arriba