Le projet MOTUS : Regroupement automatique par thème des tickets de support

Chers chefs de projet, imaginez si vous pouviez regrouper automatiquement les milliers de tickets de maintenance par thème en un seul clic. Ce serait bien, non ? Cela aurait d'énormes implications pour donner la priorité à la correction des bogues, aux demandes d'amélioration, aux nouvelles fonctionnalités, etc. Cela permettrait de gagner beaucoup de temps et de prendre de meilleures décisions. C'est ce que nous avons essayé de faire avec le projet MOTUS et, grâce aux techniques de traitement du langage naturel, cela fonctionne plutôt bien.

Le terme Traitement Automatique du Langage Naturel (TALN) englobe toutes les recherches et développements visant à modéliser et à reproduire, à l'aide de machines, la capacité humaine à produire et à comprendre des énoncés linguistiques à des fins de communication. ANLP Les concepts et les techniques qu'utilise le traitement automatique du langage naturel sont au carrefour de multiples champs disciplinaires : L'IA "traditionnelle", l'informatique théorique, la linguistique, mais aussi les statistiques.

Les modèles de représentation distributionnelle des mots constituent le paradigme prédominant pour leur modélisation. Ce paradigme repose sur l'hypothèse selon laquelle "les mots ayant des distributions similaires sont sémantiquement proches". Par conséquent, les mots qui se retrouvent souvent ensemble dans des contextes similaires et qui appartiennent à des textes différents peuvent être regroupés dans différents clusters.

Ce projet concerne l'analyse de l'étude de cas "support et assistance technique". Dans ce travail, nous nous sommes intéressés à l'extraction de thèmes à partir de commentaires textuels issus des demandes d'assistance de Berger-Levrault. Le corpus de requêtes analysé est celui de l'outil de gestion de la relation citoyen. Ce corpus n'est pas formaté et est peu structuré avec plusieurs locuteurs impliqués (le citoyen et un ou plusieurs techniciens de support). Dans ce travail, nous avons mené une étude expérimentale basée sur l'utilisation de deux systèmes. Le premier système applique une LDA (Latent Dirichlet Allocation), tandis que le second combine l'application d'une LDA avec l'algorithme k-Means. Nous avons comparé les résultats obtenus avec un échantillon de ce corpus, annoté par un expert dans le domaine. Nos résultats montrent que nous obtenons une classification de bonne qualité, comparable à celle effectuée manuellement par un expert en utilisant une combinaison LDA/k-Means. La figure 1 décrit l'architecture de notre approche.

Fig 1. Approche de l'identification des thèmes à partir des demandes de soutien

Un aperçu des mots présents dans notre corpus est décrit dans ce qui suit : La figure 2 présente une analyse avec WordCloud tandis que la figure 3 propose une visualisation des mots les plus fréquents.

Fig 2. Nuage de mots obtenu avec WordCloud
Fig 3. Visualisation des mots les plus fréquents dans le corpus de travail

La capture de sujets sémantiques de plus haut niveau est une tâche essentielle pour une meilleure compréhension des textes (commentaires dans notre cas). Formellement, un sujet est un groupe de mots-clés qui peuvent être intuitivement considérés comme représentant un thème sémantique latent décrit dans un texte ; ces sujets sont calculés selon des distributions de probabilité sur les mots dans les textes. La figure 4 montre la carte retournée par pyLDAvis sur les données du corpus.

Fig 4. Visualisation des thèmes obtenus à l'aide de l'outil pyLDAvis

Enfin, nous présentons ici l'étude réalisée sur des demandes de support pour le produit e.elections mais il faut noter que notre système d'extraction de thèmes peut être utilisé sur des demandes de support relatives à d'autres produits tels que e.magnus ou même e.sedit RH.

Plus ...

Retour haut de page