El proyecto MOTUS: Agrupación automática por temas de los tickets de soporte

Estimados gestores de proyectos, imaginen que pudieran reagrupar automáticamente los miles de tickets de mantenimiento por temas en un solo clic. Estaría bien, ¿no? Esto tendría enormes implicaciones a la hora de priorizar la corrección de errores, las solicitudes de mejora, las nuevas funcionalidades, etc. Así, se ahorraría una cantidad significativa de tiempo y se tomarían mejores decisiones. Pues bien, esto es lo que hemos intentado conseguir con el proyecto MOTUS y, gracias a las técnicas de Procesamiento del Lenguaje Natural, funciona bastante bien.

El término Procesamiento Automático del Lenguaje Natural (ANLP, por sus siglas en inglés) engloba toda la investigación y el desarrollo destinados a modelar y reproducir, con la ayuda de máquinas, la capacidad humana de producir y comprender enunciados lingüísticos con fines comunicativos. ANLP Los conceptos y técnicas que utiliza el procesamiento automático del lenguaje natural se encuentran en la encrucijada de múltiples campos disciplinarios: la IA "tradicional", la informática teórica, la lingüística, pero también la estadística.

Los modelos de representación de palabras distribucionales son el paradigma predominante para su modelización. Este paradigma se basa en la suposición de que "las palabras con distribuciones similares son semánticamente cercanas". En consecuencia, las palabras que suelen encontrarse juntas en contextos similares y que pertenecen a textos diferentes pueden agruparse en clusters diferentes.

Este proyecto se refiere al análisis del estudio de caso "apoyo y asistencia técnica". En este trabajo, nos interesaba extraer temas de los comentarios textuales de las solicitudes de asistencia de Berger-Levrault. El corpus de solicitudes analizado es el de la herramienta de gestión de las relaciones con los ciudadanos. Este corpus no está formateado ni muy estructurado y en él intervienen varios interlocutores (el ciudadano y uno o varios técnicos de soporte). En este trabajo, realizamos un estudio experimental basado en el uso de dos sistemas. El primer sistema aplica un LDA (Latent Dirichlet Allocation), mientras que el segundo combina la aplicación de un LDA con el algoritmo k-Means. Comparamos los resultados obtenidos con una muestra de este corpus, anotada por un experto en la materia. Nuestros resultados muestran que obtenemos una clasificación de buena calidad, comparable a la realizada manualmente por un experto utilizando una combinación LDA/k-Means. La figura 1 describe la arquitectura de nuestro enfoque.

Fig. 1. Enfoque para identificar los temas de las solicitudes de apoyo

A continuación se describe una visión general de las palabras de nuestro conjunto de trabajos: La figura 2 presenta un análisis con WordCloud, mientras que la figura 3 propone una visualización de las palabras más frecuentes.

Fig. 2. Nube de palabras obtenida con WordCloud
Fig. 3. Visualización de las palabras más frecuentes en el corpus de trabajo

La captura de temas semánticos de alto nivel es una tarea esencial para una mejor comprensión de los textos (comentarios en nuestro caso). Formalmente, un tema es un grupo de palabras clave que se puede considerar intuitivamente que representan un tema semántico latente descrito en un texto; estos temas se calculan de acuerdo con las distribuciones de probabilidad de las palabras en los textos. La figura 4 muestra el mapa devuelto por pyLDAvis en los datos del corpus.

Fig. 4. Visualización de los temas obtenidos con la herramienta pyLDAvis

Por último, mostramos aquí el estudio realizado sobre las solicitudes de soporte del producto e.elections, pero hay que señalar que nuestro sistema de extracción de temas puede utilizarse en las solicitudes de soporte relacionadas con otros productos, como e.magnus o incluso e.sedit RH.

Más ...

Ir arriba