🇫🇷 Un análisis automático del lenguaje del "Gran Debate Nacional"

PREÁMBULO

En esta página se proponen los resultados del análisis del corpus del Gran Debate Nacional realizado en la DRI de Berger-Levrault. El objetivo de esta página es ilustrar los análisis posibles de este tipo de corpus textual. Nos esforzamos por ser lo más transparentes posible en las técnicas empleadas.


ACCUEIL

El gran debate es de interés para los ciudadanos franceses. Por lo tanto, es natural que, tras el anuncio de la creación de la plataforma, hayamos empezado a investigar cómo podemos contribuir a este gran proyecto de democracia participativa. Con la ayuda de nuestros jóvenes investigadores, hemos empezado a experimentar rápidamente el campo de acción posible en términos de minería de textos y tratamiento del lenguaje natural (TAL). Para Berger-Levrault es un ejercicio interesante que permite poner a prueba las técnicas lingüísticas para un proyecto democrático ambicioso. Para comprender nuestros análisis, es importante entender el ejercicio del Gran Debate Nacional. Se proponen cuatro grandes temas a los ciudadanos, a saber:

  • Démocratie et citoyenneté
  • Fiscalidad y gastos públicos
  • Transición ecológica
  • Organización del Estado y de los servicios públicos

Para cada tema, es posible responder a un cuestionario rápido de respuestas múltiples y también hacer una propuesta en forma de cuestionario compuesto mayoritariamente por preguntas abiertas. Cada uno de los cuatro cuestionarios de propuestas se compone de un título, de respuestas de elección múltiple y de respuestas en texto libre. El análisis de las respuestas múltiples es particularmente trivial (es decir, basta con contar las respuestas), por lo que no ha despertado nuestra atención.
Sin embargo, las propuestas y sus contribuciones en texto libre nos hicieron pensar que un trabajo de análisis sería interesante (y necesario) y que las competencias de nuestros científicos podrían contribuir.

Ahora se nos plantea una doble pregunta:

  1. Quels outils ¿están a nuestra disposición para comprender el contenido de este corpus textual? y
  2. Quelles análisis, preguntas ¿Queremos preguntarle a este cuerpo para comprender su esencia?

Estas dos cuestiones son evidentemente interdependientes: una es el campo de las posibilidades y la otra es la pertinencia de los análisis.

Hemos abordado el problema desde el punto de vista de la recopilación de datos utilizando técnicas cuantitativas relativamente sencillas. A saber, qué cantidad de participantes, de respuestas por tema y qué distribución geográfica en términos de participación.

Información adicional
sobre la base Open Data del Gran debate del :

8 Marte 2019

Descargue los datos aquí

Número de contribuciones
individuales analizados:

375357

Número de respuestas
analizados:

4655044

En términos de participación, los cuatro temas han suscitado un número significativo de contribuciones. También se observa una participación más importante en los temas de fiscalidad y gastos públicos y en la transición ecológica. Probablemente esto indique que estos dos temas son los más importantes para los ciudadanos.

Distribución de los contribuyentes por tema

También hemos considerado la distribución de la participación por departamentos. Es importante señalar que la localización de la participación es proporcionada por los contribuyentes al dar su código postal y no por un mecanismo de geolocalización. Por otra parte, hemos elaborado un mapa que ilustra el número de participaciones por departamento. Esta última muestra que los departamentos 75, 78, 33, 31, 69, 34, 59, 44 y 13 son los que más contribuyen. Estas zonas de Francia se encuentran entre las más pobladas, por lo que el resultado no es sorprendente.

 

La segunda carta muestra la distribución de la participación por departamento según la población del mismo (datos de población INSEE 2016). En este caso, el resultado es más sorprendente, ya que el Calvados (14) y los Alpes Marítimos (06) participan más en el volumen de sus habitantes.

Carta 1: Reparto por departamentos del número de contribuciones
(sobre la base de los códigos postales proporcionados por los contribuyentes)

Carta 2: Distribución por departamentos del porcentaje de contribuciones de la población
(sobre la base de los códigos postales proporcionados por los contribuyentes)

A continuación, intentamos profundizar en el contenido del texto libre de cada una de las cuatro temáticas. El objetivo era determinar los temas que se discuten en cada tema y priorizarlos. Para ello, nos hemos esforzado por estabilizar las expresiones contenidas en el texto libre. Estas expresiones compuestas por varias palabras se denominan n-gramas. (https://fr.wikipedia.org/wiki/N-gramme).

En este punto, la dificultad principal reside en la identificación de estos n-gramas. Para un ordenador, el texto no es ni más ni menos que una señal totalmente desprovista de sentido. Por lo tanto, es necesario indicar las palabras, o más bien los grupos de palabras, que son interesantes en nuestro idioma. Por ejemplo, "transporte en común" es un n-grama compuesto por tres palabras que tiene sentido en francés, mientras que "voiture soleil" ne veut à priori rien dire.

Para identificar los n-gramas en un texto es necesario trabajar con un corpus correctamente formateado, por lo que son necesarias varias etapas de pretratamiento. Por lo tanto, es necesario lematizar el texto, corregir algunos errores ortográficos o de puntuación (por ejemplo, meme puede convertirse en même o mémé) y, por último, filtrar todas las palabras vacías (https://fr.wikipedia.org/wiki/Mot_vide) ou stop-words en inglés.

La lematización (https://fr.wikipedia.org/wiki/Lemmatisation) consiste en dar una forma neutra y canónica a una palabra. Así, las palabras petit/petits/petite/petites se sustituyen por un único término (petit en nuestro caso) para unificar el tratamiento del texto. El siguiente esquema ilustra el método de recopilación que hemos empleado y los diferentes pasos de tratamiento que realizamos con los datos.

Para acceder a todos estos datos, nos basamos en una base de datos procedente de las expresiones francesas del proyecto universitario Juegos de palabras. A continuación, hemos completado esta base de datos con algunas expresiones y palabras clave. Las listas utilizadas en nuestros análisis se pueden descargar aquí.

Una vez realizada esta recopilación, hemos generado representaciones gráficas de estos datos. Hemos elaborado matices de palabras e histogramas para cada uno de los cuatro grandes temas del gran debate.

La democracia y la ciudadanía

Para el tema de la democracia y la ciudadanía, un tema se distingue claramente de los demás: El voto blanco. Por lo tanto, podemos decir que se trata del término más discutido en este primer tema. Como bien muestra el histograma, voto obligatorio, a la escuela y no respeto son los tres términos siguientes en términos de importancia.

La fiscalidad y los gastos públicos

Para el tema de la fiscalidad y los gastos públicos, la distribución de los sujetos es más matizada. el impuesto sobre la renta llega en primer lugar, seguido de cerca por las ayudas sociales y los nichos fiscales. Un segundo grupo de sujetos de importancia es el compuesto por las asignaciones familiares, el impuesto sobre la vivienda y la evasión fiscal.

La transición ecológica

En cuanto al tema de la transición ecológica, el enfoque de los intercambios no es equitativo. Nuestros conciudadanos hablan de transporte en común. Este es el tema que, en gran medida, suscita respuestas.

La organización del Estado y los servicios públicos

Para el tema Organización del Estado y servicios públicos, el tema de los servicios públicos ocupa el primer lugar, lo que no es de extrañar, ya que es el objetivo principal del tema. Por el contrario, hay tres temas siguientes, a saber, la limitación de la velocidad y la seguridad vial, que coinciden con la preocupación por los desplazamientos en automóvil y el Polo de empleo, lo que sugiere centrarse en los problemas relacionados con el desempleo.

CONEXIÓN DE SUJETOS POR TEMA

Aunque estos primeros análisis nos informan de la naturaleza del contenido de las contribuciones del gran debate nacional, no son suficientes para darnos cuenta y comprender en detalle el contenido de los intercambios.

Para ir más allá, trabajamos también en nuevos análisis que implican algoritmos más evolucionados, algunos de los cuales pertenecen a la categoría de Inteligencia Artificial. Por ejemplo, utilizamos el algoritmo 'Word2Vec', una red neuronal dedicada al tratamiento del lenguaje natural (https://skymind.ai/wiki/word2vec). Este algoritmo permite calcular un vecteur para cada palabra de un corpus textual. El objetivo y la utilidad de Word2vec es agrupar los vecinos de las palabras similares en un espacio vectorial. Es decir, detecta matemáticamente las similitudes entre las palabras. Word2vec crea vecinos que son representaciones numéricas distribuidas de las características de las palabras, teniendo en cuenta el contexto individual de las mismas. Lo más sorprendente es que este algoritmo funciona sin intervención humana. Por lo tanto, no es necesario contar con un corpus anotado por el ser humano, como necesitan muchos algoritmos de aprendizaje automático.

Con un número suficiente de datos, Word2vec puede hacer suposiciones muy precisas sobre el significado de una palabra a partir de las imágenes pasadas. Estas suposiciones pueden utilizarse para establecer la asociación de una palabra con otras (por ejemplo, "hombre" es "hombre" y "mujer" es "mujer"), o para agrupar documentos y clasificarlos por temas.

A continuación presentamos, por temas, los gráficos que representan los resultados de Word2Vec. Los grandes nombres son los siguientes 30 n-gramas de estreno ressortant en termes d'occurrence dans l'analyse précédente. Para cada noeud grueso, los noeuds pequeños son los 70 términos anexos que tienen los vecinos más fuertes (por lo que tienen la mayor probabilidad de proximidad semántica). La taille des noeuds es función del número de apariciones de n-gramas en el corpus. Cuanto más presente esté un n-grama, mayor será su número.

ATENCIÓN: Les colores no tienen por el momento ningún significado (si no es el de ayudar a distinguir las nociones) y la longueur des arc et le colocación des noeuds se calcula automáticamente para minimizar los choques (utilizamos el algoritmo ForceAtlas2).
El gráfico es ampliable y los nombres se pueden seleccionar para aislar a sus vecinos.

La democracia y la ciudadanía

La fiscalidad y los gastos públicos

La transición ecológica

La organización del Estado y los servicios públicos

A VENIR

También intentamos definir las métricas pertinentes para clasificar automáticamente las respuestas a cada una de las preguntas. El objetivo es identificar si existen grandes categorías de respuestas/propuestas para cada pregunta de los cuatro temas. Así, podremos identificar las grandes tendencias en las contribuciones de los ciudadanos. Se están experimentando algoritmos no supervisados como 'DBScan' y 'K-Means'.
Esta página se actualizará cuando tengamos nuevos resultados pertinentes. También explicaremos los métodos y algoritmos utilizados, así como los límites de nuestros resultados.

Más ...

Ir arriba