Extraction d'informations à partir des livres et articles de Berger-Levrault

Berger-Levrault est historiquement un éditeur d'ouvrages et d'articles juridiques et pratiques. Les articles sont en ligne et proviennent de Légibases1. L'exploitation des connaissances contenues dans ces textes est difficile. C'est pourquoi il est nécessaire de structurer les connaissances afin d'y accéder rapidement. Berger-Levrault développe des solutions logicielles spécialisées dans le Traitement Automatique du Langage Naturel (TALN), telles qu'un moteur de recherche documentaire, un moteur de génération de réponses automatiques, un automate de veille juridique et bien d'autres. Ces solutions logicielles ont besoin d'exploiter les connaissances de Berger-Levrault en matière de données textuelles. Cependant, jusqu'à présent, elles ont été limitées par la possibilité de parcourir l'ensemble de la connaissance brute. Il est donc nécessaire de structurer cette connaissance afin qu'elle puisse être utilisée pour enrichir les applications métier et ainsi les améliorer. Pour ce faire, deux aspects sont mis en évidence : (1) Représenter l'ensemble des connaissances à travers une structure de connaissances ; et (2) Utiliser ces connaissances pour améliorer les performances de plusieurs logiciels de Berger-Levrault.

En décembre 2014, un rapport a été dressé par la Banque de France au sujet de la question préoccupante du surendettement. Justement intitulé "Étude des parcours menant au surendettement", il nous livre une analyse en amont des dépôts de dossiers auprès des commissions de surendettement.

L'exemple ci-dessus est un paragraphe d'un texte (article/livre) de Berger-Levrault. Il s'agit de transformer ce texte en une structure telle que celle présentée dans le schéma 1 (ci-dessous). Le fait de s'intéresser à des textes nous amène à prendre en considération le fait que rien n'existe au préalable, c'est-à-dire qu'aucune structure de connaissance ne préexiste, et qu'il est nécessaire de construire cette structure à partir du texte lui-même, c'est-à-dire des termes du texte, c'est-à-dire de la terminologie. Il est important de garder à l'esprit l'objectif lexical et sémantique de la structuration du texte, c'est-à-dire que cette structuration de la connaissance sera utilisée par Berger-Levrault pour guider ses applications NLP. Ces notions lexicales et sémantiques sont fournies par les liens entre les mots.

Diagramme 1 - Schéma de la structure du texte de l'exemple précédent.

Contexte scientifique

Extraction d'informations : Définition

L'extraction d'informations est la tâche automatique qui consiste à extraire des informations structurées à partir de documents non structurés dans un domaine restreint. Elle consiste à convertir un texte brut en une forme structurée de connaissance.

L'extraction d'informations à partir de texte brut dans des formats de données structurés implique trois types de sous-tâches : l'extraction de triplets entité-relation-entité (ER), l'extraction de termes clés et, plus spécifiquement, la reconnaissance d'entités nommées (NER) et, enfin, l'extraction d'événements (EE), que nous n'aborderons pas dans cet article.

"Hier, la société new-yorkaise Foo Inc. a annoncé l'acquisition de Bar Corp.

Informations extraites : MergerBetween(company1, company2, date)
entreprise1 = Foo Inc.
entreprise2 = Bar Corp.
date dépend de la date de l'article dont la phrase est extraite

L'exemple précédent représente une extraction d'informations à partir d'une phrase tirée d'un fil d'actualité sur les fusions d'entreprises. Nous pouvons voir que deux types d'informations ont été extraits : la relation "MergerBetween" (extraction des relations) et les termes ou entités (extraction terminologique) qui composent cette relation, à savoir les entreprises (entreprise1 et entreprise2).

Nous pouvons identifier trois étapes principales de construction, chacune dépendant de l'autre. La première consiste à extraire la terminologie qui représentera plus tard les concepts. La deuxième consiste à extraire les relations. Plusieurs types de relations peuvent être identifiés. Afin de regrouper les termes en concepts, nous devons identifier les relations hiérarchiques et synonymiques entre nos termes. Ensuite, nous voulons extraire les relations sémantiques. Il peut s'agir de la même approche si les relations sont bien définies, c'est-à-dire si nous avons une connaissance préalable des types de relations et que cet ensemble de types est fini. Dans de nombreux cas, il s'agit d'extraire des paires de termes candidats et de les classer dans un type donné parmi ceux spécifiés en amont.

Enfin, une étape d'application de règles est nécessaire pour faire des déductions ou pour valider la cohérence de la structure de connaissance. En effet, lors de l'ajout d'une information, il est nécessaire de vérifier qu'elle est correcte et qu'elle ne contredit aucune autre information.

Diagramme 2 - Architecture générale des 4 étapes de la structuration de l'information

On peut donc dessiner un système général dont l'architecture est représentée dans la figure ci-dessus (voir schéma 2). Nous les détaillerons dans les points suivants :

  1. Sur la base du texte brut des documents, nous les classons dans l'un des 8 sous-domaines proposés dans Légibases, à savoir : État civil & cimetières, Élections, Commande publique, Urbanisme, Comptabilité et finances locales, Ressources humaines territoriales, Justice et santé (Civil status & cemeteries, Elections, Public procurement, Urbanism, Local accounting and finance, Territorial human resources, Justice and health)
  2. Nous parcourons chaque paragraphe pour en extraire les termes clés et les relier à un domaine donné. Cela nous permet non seulement de remplir le graphique comme expliqué ci-dessus, mais aussi de filtrer les relations par domaine, afin de nous concentrer sur les informations pertinentes et de nous adapter à un domaine à la fois.
  3. Les relations entre ces termes clés peuvent être extraites, qu'elles soient d'un type spécifique ou basées sur le texte.
  4. Les règles pourront mettre à jour l'ensemble des termes clés et des relations en supprimant les informations erronées ou obsolètes ou en ajoutant des informations déduites.

Dans cet article, nous nous concentrons uniquement sur la partie extraction d'informations, c'est-à-dire l'extraction terminologique (de termes clés) et l'extraction de relations, comme expliqué dans les sections suivantes.

Extraction terminologique

Extraction terminologique : définition

L'extraction terminologique (ou parfois l'identification terminologique) consiste à extraire automatiquement les termes pertinents d'un corpus de textes donné. Celle-ci peut prendre différentes formes, telles que des thèmes pertinents, des segments de texte principaux ou encore des mots principaux ou lemmatisés. Les textes de Berger-Levrault sont des ouvrages et des articles juridiques et pratiques issus de secteurs variés. On peut comparer ce regroupement de corpus à un garde manger pour un chef cuisinier. De même qu'un chef cuisinier choisit les bons ingrédients pour une recette dans un pays particulier, l'extraction terminologique consiste à extraire les bons termes des textes pour une tâche particulière dans un domaine particulier.

D'une manière générale, les méthodes d'extraction automatique de terminologie extraient des candidats terminologiques, c'est-à-dire des syntagmes syntaxiquement plausibles, par exemple en divisant les phrases.
Les candidats sont ensuite filtrés à l'aide de méthodes statistiques et d'apprentissage automatique. L'extraction terminologique consiste à extraire une liste de termes pertinents associés à un domaine spécifique. Il s'agit ici d'éliminer le superflu en recherchant des termes moins courants mais plus pertinents, puis de compléter cette extraction par des synonymes en utilisant d'autres ressources.

En sélectionnant les termes clés les plus pertinents et les plus significatifs, l'extraction terminologique permet de se concentrer sur l'information essentielle. Une notion de structure est naturellement créée par l'identification des termes conceptuels et des autres termes associés au concept.

Annotations des experts

Les livres et articles du corpus Berger-Levrault sont partiellement annotés par des experts du domaine. Un expert dans l'un des 8 sous-domaines traite un document ou un article et parcourt chaque paragraphe un par un, en choisissant de l'annoter ou non avec un ou plusieurs termes. L'exemple ci-dessous montre les annotations faites par les experts sur un paragraphe donné. Les annotations des experts ont été en gras et en italique dans le texte associé par un humain, afin de faire correspondre le traitement intuitif, et non ce qui est obtenu directement avec le système.

Les communes dotées d'un plan d'occupation des sols rendu public ou d'un plan local d'urbanisme approuvé peuvent, par délibération, instituer un droit de préemption urbain sur tout ou partie des zones urbaines et des zones d'avenir de l'urbanisation délimitées par ce plan, dans les périmètres de protection rapprochée de prélèvement d'eau destinée à l'alimentation des collectivités humaines définis en application de l'article L. 1321-2 du Code de la santé publique, zones et secteurs définis par un plan de prévention des risques technologiques en application de l'article L. 515-16 du Code de l'environnement, dans les zones soumises aux servitudes prévues au II de l'article L. 211-12 du même code, ainsi que sur tout ou partie de leur territoire couvert par un plan de sauvegarde et de
mise en valeur rendu public ou approuvé en application de l'article L. 313-1 lorsqu'il n'a pas été créé de zone d'aménagement différé ou de périmètre provisoire de zone d'aménagement différé sur ces territoires.

Droit de préemption urbain, Préemption, Risque naturel et/ou technologique, Secteur sauvegardé, zone, zone d'aménagement concerté, d'urbanisation future

Les annotations des experts sont manuelles et les experts ne disposent pas d'une ressource lexicale de référence au moment de l'annotation. Les experts annotent donc différemment. Les termes clés ont été décrits avec plusieurs formes fléchies et parfois avec des informations supplémentaires non pertinentes telles que des déterminants (par exemple "des frais" dans d'autres paragraphes). Un terme clé regroupe toutes les annotations de formes fléchies en une seule forme représentative.

Nous avons recueilli toutes les annotations des experts. A partir des différentes formes infléchies, nous voulons passer à cette forme représentative appelée "terme clé". Pour ce faire, nous allons prétraiter les données afin de les unifier.

  1. La première étape consiste à éliminer les premiers mots outils (déterminant, par exemple).
    Dans l'exemple concret "de participation de zones d'aménagement concerté", l'annotation est transformée en "participation de zones d'aménagement concerté".
  2. Ensuite, sur la base de ces éléments, nous voulons unifier les annotations d'un même identifiant sous un seul terme clé représentatif appelé référent : une forme unique pour les termes ayant les mêmes identifiants mais des formes fléchées différentes. Par exemple, "de restauration immobilière", "restauration immobilière" et "Restauration immobilière" renvoient tous au même terme clé. Afin de construire un identifiant pour un terme donné qui a déjà franchi la première étape, nous lemmatisons tous les mots qui composent ce terme. Cet identifiant n'est utilisé que pour retrouver toutes les formes infléchies du même identifiant. Afin de choisir le bon représentant, nous avons divisé notre problème en deux cas : les termes simples (mots) et les termes complexes. Dans le cas des termes complexes, nous avons choisi de prendre la forme fléchie ayant le plus grand nombre d'occurrences dans le corpus. Pour ce faire, une analyse statistique est effectuée sur l'ensemble du corpus afin de calculer le nombre d'occurrences de chaque annotation. De cette manière, la forme la plus fréquente représente le substitut qui peut se référer à un terme clé donné. Pour les termes simples, nous préférons une forme canonique standard, car nous souhaitons privilégier la forme singulière et générique par rapport à la forme plurielle.

Cependant, comme nous l'avons mentionné plus haut, l'appariement a été effectué manuellement, étant donné qu'un grand nombre de prétraitements, souvent multiples, ont dû être effectués. Par exemple, dans notre cas, "Risque naturel et/ou technologique" a été mis en correspondance avec "risque technologique". Cependant, de nombreux autres cas existent, ce qui rend difficile le prétraitement de ces annotations. Les annotations d'experts ne sont donc pas présentes dans le texte associé. Cela peut être dû au fait que le terme nécessite un prétraitement, comme dans le cas précédent, mais cela peut aussi être dû à un terme clé trop long qui le rend inutilisable, ou encore à un thème associé au paragraphe.

Reprenons l'exemple précédent. Ici, nous allons représenter les mots que nous considérerions comme intuitivement pertinents en les mettant en gras, tout en conservant le caractère annotations en italique. Il s'agit des termes qu'un être humain pourrait sélectionner comme intéressants dans le texte pour se faire une idée générale du texte.

Les communes dotées d'un plan d'occupation des sols rendu public ou d'un plan local d'urbanisme approuvé peuvent, par délibération, instituer un droit de préemption urbain sur tout ou partie des zones urbaines et des zones d'avenir de l'urbanisation délimitées par ce plan, dans les périmètres de protection rapprochée de prélèvement d'eau destinée à l'alimentation des collectivités humaines définis en application de l'article L. 1321-2 du Code de la santé publique, zones et secteurs définis par un plan de prévention des risques technologiques en application de l'article L. 515-16 du Code de l'environnement, dans les zones soumises aux servitudes prévues au II de l'article L. 211-12 du même code, ainsi que sur tout ou partie de leur territoire couvert par un plan de sauvegarde et de
mise en valeur
rendu public ou approuvé en application de l'article L. 313-1 lorsqu'il n'a pas été créé de zone d'aménagement différé ou de périmètre provisoire de zone d'aménagement différé sur ces territoires.

Droit de préemption urbain, Préemption, Risque naturel et/ou technologique, Secteur sauvegardé, zone, zone d'aménagement concerté, d'urbanisation future

Ici, lorsque l'on compare les mots en gras avec ceux en italiqueEn ce qui concerne l'annotation du paragraphe, nous constatons que ce paragraphe manque cruellement d'informations. En effet, l'expert annote le paragraphe en vue de donner un bref résumé de l'ensemble du paragraphe, et non en vue de donner les termes pertinents du texte. Naturellement, lorsque nous comparons le paragraphe avec les termes qu'un humain pourrait sélectionner comme pertinents dans le texte pour se faire une idée générale du texte par rapport aux annotations, nous remarquons une grande différence. Pour renforcer cette idée, le tableau 1 décrit pour un domaine donné : le nombre d'annotations d'experts, le nombre d'articles pour ce domaine et le nombre de termes clés qu'il a été possible d'extraire des annotations d'experts (avec le pourcentage de perte). On constate ainsi qu'il y a beaucoup de perte et peu de termes clés pour l'ensemble des articles. Les livres n'ont pas été pris en compte pour le filtrage par domaine. En effet, les articles de Légibases sont classés par domaine, ce qui n'est pas le cas des livres. Il faut noter que ces chiffres ont été collectés en 2020 et ont évolué depuis. Cependant, ils restent intéressants pour appuyer le fait que les annotations d'experts ne sont pas suffisantes pour l'extraction d'information.

DomainesNombre de termes clésNombre d'articlesNombre d'annotations
État civil et cimetières
(État civil & cimetières)
642
(29,6% restants)
2 7672 169
Élections
(Élections)
108
(72% restant)
152150
Marchés publics
(Commande publique)
876
(72,9% restants)
1 3541 201
Urbanisme
(Urbanisme)
327
(59% restants)
1 357554
Comptabilité et finances locales
(Comptabilité et finances locales)
981
(50.1% restant)
1 9711 957
Ressources humaines locales
(Ressources humaines territoriales)
122
(41,6% restants)
361293
Justice870
(60.1% restant)
3 9801 447
Santé
(Santé)
491
(59,2% restants)
896830
Tableau 1 - Taille du vocabulaire et nombre d'annotations d'experts

Nous avions donc deux options : exploiter ces exceptions parmi les annotations des experts en établissant une similarité entre les termes du texte et les annotations afin de les regrouper, ou ajouter des informations textuelles en développant un extracteur de terminologie basé sur le contenu textuel.
Afin d'ajouter des informations textuelles, nous nous sommes tournés vers un extracteur de terminologie, que nous présentons dans la section suivante.

InfoGlean KeyTerms

InfoGlean KeyTerms est le nom donné à l'extracteur terminologique que nous avons développé. Cet extracteur est divisé en trois sous-systèmes :

  1. Reconnaissance des entités nommées (NER): Il s'agit d'identifier des entités nommées spécifiques dans un texte et de les classer dans des catégories prédéfinies telles que les personnes, les lieux, les organisations, les dates et bien d'autres encore. Les entités nommées sont des éléments concrets du texte qui ont une importance particulière, souvent des noms propres.
    Généralement, un système NER se compose de deux étapes : l'identification des entités nommées et l'étiquetage des entités dans chacune des catégories précédemment définies. Nous utilisons un modèle CamemBERT finement ajusté pour la tâche NER nommé "CamemBERT-NER" et étendu avec un étiquetage supplémentaire pour les dates2.
  2. L'extraction de termes pertinents - également connue sous le nom d'extraction de mots-clés - consiste à extraire les termes importants (simples ou complexes) d'un texte. Ces termes clés permettent d'identifier le sujet d'un document. Nous avons choisi d'utiliser l'API ChatGPT. Voici un exemple d'invite utilisée dans ChatGPT pour extraire des termes pertinents. Cette invite a été simplifiée, en omettant les paramètres de filtrage et de formatage de la sortie.
    • Considérons le texte suivant en français : "Les communes dotées d'un plan d'occupation des sols rendu public ou d'un plan local d'urbanisme approuvé peuvent, par délibération, instituer un droit de préemption urbain sur tout ou partie des zones urbaines et des zones d'urbanisation future délimitées par ce plan, dans les périmètres de protection rapprochée de prélèvement d'eau destinée à l'alimentation des collectivités humaines définis en application de l'article L. 1321-2 du Code de la santé publique, zones et secteurs définis par un plan de prévention des risques technologiques en application de l'article L. 515-16 du Code de l'environnement, dans les zones soumises aux servitudes prévues au II de l'article L. 211-12 du même code, ainsi que sur tout ou partie de leur territoire couvert par un plan de sauvegarde et de mise en valeur rendu public ou approuvé en application de l'article L. 313-1 lorsqu'il n'a pas été créé de zone d'aménagement différé ou de périmètre provisoire de zone d'aménagement différé sur ces territoires."
      Donnez-moi les termes pertinents de ce texte.
  3. Extraction des entités juridiques consiste à extraire des entités d'un texte de la même manière que pour le NER, mais uniquement dans le domaine juridique. Nous avons observé cinq types différents d'entités juridiques : Loi, Article, Proposition, Décret, Autre. Nous utilisons le système de Nihed Bendahman pour extraire les entités d'intérêt, c'est-à-dire à la fois les entités juridiques et les entités nommées. Ce système est basé sur les règles REGEX.

Nous reprenons l'exemple précédent et appliquons la combinaison de ces systèmes (les trois différentes extractions InfoGlean KeyTerms), en les représentant par leurs couleurs respectives superposées sur la carte annotations des experts.

Les communes dotées d'un plan d'occupation des sols rendu public ou d'un plan local d'urbanisme approuvé peuvent, par délibération, instituer un droit de préemption urbain sur tout ou partie des zones urbaines et des zones d'avenir de l'urbanisation délimitées par ce plan, dans les périmètres de protection rapprochée de prélèvement d'eau destinée à l'alimentation des collectivités humaines définis en application de l'article L. 1321-2 du Code de la santé publique, zones et secteurs définis par un plan de prévention des risques technologiques en application de l'article L. 515-16 du Code de l'environnement, dans les zones soumises aux servitudes prévues au II de l'article L. 211-12 du même code, ainsi que sur tout ou partie de leur territoire couvert par un plan de sauvegarde et de
mise en valeur
rendu public ou approuvé en application de lArticle L. 313-1 lorsqu'il n'a pas été créé de zone d'aménagement différé ou de périmètre provisoire de zone d'aménagement différé sur ces territoires.

Droit de préemption urbain, Préemption, Risque naturel et/ou technologique, Secteur sauvegardé, zone, zone d'aménagement concerté, d'urbanisation future

Extraction des relations

Extraction de relations : Définition

L'extraction de relations est une tâche de traitement du langage naturel (NLP) qui vise à identifier et à classer les relations sémantiques entre les entités d'un texte. Par exemple, étant donné la phrase "Barack Obama est né à Hawaï", l'extraction de relations permet d'extraire du texte la relation lieu_de_naissance (Barack Obama, Hawaï). L'extraction de relations peut être utilisée pour extraire des informations à partir d'une variété de sources, telles que des articles d'actualité, des messages sur les réseaux sociaux, des documents scientifiques ou des pages web, et les organiser dans des structures de données.

Différents types de relations peuvent être extraits d'un texte, en fonction du niveau de spécificité, de la granularité et du domaine. Les relations entre entités nommées sont des relations entre entités nommées, telles que des personnes ou des lieux. Par exemple (president_of, Joe Biden, USA). Les relations de rôle sémantique font référence aux relations entre un prédicat et ses arguments, comme (agent, manager, John) ou (patient, manger, pomme). Les relations ontologiques sont celles qui appartiennent à un schéma, comme l'hyperonymie ou l'hyponymie (subclass_of, dog, animal) ou (has_Color, Apple, Red). Tous ces types de relations fournissent des informations précieuses sur le texte. Il s'agit de types de relations bien définis et fréquemment réutilisés, tels que la synonymie, l'équivalence, la hiérarchie et l'association. Cependant, chaque type doit être défini à l'avance et, s'il y en a beaucoup à déterminer, cela nécessite un effort manuel. Il existe une autre forme d'extraction de relations. Il s'agit des relations ouvertes qui extraient les informations relationnelles du texte, comme les verbes, et donnent une liberté totale. Cependant, cette technique nécessite la gestion d'un grand nombre de possibilités.

Afin de surmonter les problèmes liés à la complexité excessive du système requis pour l'extraction de relations ouvertes et à la nécessité de limiter le nombre de types de relations, nous avons créé un système d'extraction de relations progressif et itératif. Nous avons donc construit notre système en plusieurs étapes :

  1. Réduire le problème de l'extraction de relations à extraction de relations taxonomiques
  2. Extension à d'autres types de relations essentielles telles que la synonymie, la partie de ou d'autres.
  3. Classification des domaines pour améliorer les résultats (voir l'article précédent de BL.Research)
  4. Extraction des relations ouvertes

Le système de base de étapes 1 et 2 (et aussi celui qui sera greffé) étape 3) est divisé en plusieurs phases, comme le montre la figure ci-dessous.

  1. À partir des termes clés initialement extraits, nous avons utilisé la fonction réseau lexico-sémantique JeuxDeMots pour récupérer les instances de relations. Ce réseau lexico-sémantique est une base de connaissance générale du français, construite sur une plateforme qui invite le joueur à expliquer les relations qui lient les différents mots du réseau. Cela permet d'extraire des informations de toutes sortes de termes français. Notre méthode consiste donc à récupérer un ensemble de paires de termes clés pour un type de relation donné, en se basant sur les termes clés du corpus. En étape (1) Pour les besoins du système, nous nous sommes limités au type de relation taxonomique, c'est-à-dire l'hyperonymie et l'hyponymie. Nous récupérons ensuite ces instances de relations pour différents types sélectionnés : Généralisation (hyperonymie) et Spécification (hyponymie) pour étape (1) et synonymie ou autres en plus pour étape (2). L'utilisation de JeuxDeMots est un point de départ pour extraire des informations juridiques et pratiques de nos textes Berger-Levrault.
  2. À partir de ces instances de relations, nous devons maintenant créer des représentations vectorielles de nos instances dans leur contexte. Pour ce faire, nous formons d'abord des ancrages lexicaux des termes composant les instances. Les ancrages lexicaux sont une manière de représenter les mots comme des vecteurs numériques dans un espace mathématique. Imaginez que chaque mot ait sa propre adresse dans cet espace. Word2Vec est un outil qui crée ces représentations à l'aide d'un modèle de langage profond. Par exemple, pour la relation de généralisation : marchés publics is_a approvisionnementWord2Vec crée deux plongeurs lexicaux appelés vecteurs : Vecteur(marchés publics) et Vecteur(approvisionnement). De ces vecteurs, nous déduisons des représentations vectorielles des relations typées en utilisant une simple opération arithmétique. Deux cas sont possibles : le premier concerne les relations asymétriques telles que la généralisation ou la spécification, et le second concerne les relations symétriques telles que la synonymie. En fait, une relation symétrique (introduite en étape 2) est comme un jeu de miroirs, où si A est lié à B, alors B est également lié à A. Prenons l'exemple des amis : si Alice est l'amie de Bob, alors Bob est également l'ami d'Alice. Il s'agit d'une relation dans laquelle les deux parties se voient de la même manière.
    Voici les différentes opérations arithmétiques (relationOperation):
    Soit operationRelation (V1, V2) le vecteur de relation (source : terme1, R, cible : terme2)
    • Différence : (V1 - V2) ⇢ Exemple : (v2 - v1) = (marchés publics, is_a, approvisionnement)
    • Valeur absolue : |V1-V2|
  3. Une fois les représentations vectorielles des relations créées, nous ajoutons une étape d'apprentissage pour prendre en compte le type de relation. Il s'agit d'apprendre les types de relations à l'aide d'une classification binaire. Pour un type de relation donné, la classification binaire détermine s'il s'agit de cette relation ou de son contraire. Nous fournissons à un classificateur binaire les vecteurs de relation pour un type de relation donné en tant qu'entrée. Pour un type de relation donné, nous fournissons à un classificateur binaire les vecteurs de relation. étape (1)il s'agit de déterminer s'il s'agit de la généralisation ou de la spécification. Pour les étape (2)il faut multiplier le nombre de classificateurs binaires par une notion de seuil. En effet, une paire de termes peut n'appartenir ni à un type de relation, ni à son opposé. Les paires de termes sont alors tirées au hasard. On crée donc un vecteur de relation pour un type de relation que l'on souhaite tester : si la classification dans un type de relation donné semble certaine (seuil élevé pour un type donné) alors on déduit une nouvelle paire.

L'évaluation

Le tableau 2 présente les résultats de la classification des types de relations pour étape (2) et une colonne pour étape (3). Les scores dans ce tableau prennent une valeur entre 0 et 1. Plus proche de 1 signifie que le système est plus performant dans sa tâche d'extraction de relations.

Afin d'évaluer les différents modèles de classification, nous utilisons les articles de Legibase déjà classés par domaine. Cela nous permet d'avoir un corpus déjà étiqueté pour la classification des articles par domaine. Nous équilibrons notre corpus jusqu'à ce que nous ayons 250 articles dans chacun des 8 domaines. Les résultats pour chaque domaine classé sont spécifiés, mais les résultats moyens sont présentés dans les deux dernières colonnes, car le modèle d'extraction de relations est moyenné par défaut, lorsque le domaine n'est pas connu.

Nous constatons que la classification par domaine donne de meilleurs résultats pour les relations asymétriques (Hyperonymie et hyponymie) et (Fait partie de vs Fait partie) et pour les relations symétriques (Synonymie et antonymie) pour deux des quatre classificateurs (SVC et Arbre de décision). Nous pouvons donc conclure qu'il est utile d'utiliser une classification des documents par domaine avant d'extraire les relations lexico-sémantiques du texte brut.

Type de relationClassificateurMarchés publics
(Commande publique)
Comptabilité et finances locales
(Comptabilité et finances locales)
JusticeRessources humaines locales
(RH territoriales)
Santé
(Santé)
Urbanisme
(Urbanisme)
Élections (Élections)État civil et cimetières
(État civil & cimetières)
Moyenne x domaineMoyenne sans classification des domaines
Hyperonymie et hyponymieSVC0.780.800.790.860.830.840.890.830.830.75
DT0.570.680.710.770.790.720.780.710.720.71
RF0.750.740.760.810.830.780.850.800.790.78
k-NN (k=5)0.650.810.800.840.780.820.870.770.790.78
Synonymie et antonymieSVC0.850.740.740.790.850.780.840.800.800.73
DT0.760.760.760.760.760.760.760.760.750.72
RF0.790.610.640.690.750.650.760.730.700.78
k-NN (k=5)0.650.610.640.660.660.630.650.60.640.74
Fait partie de vs Fait partieSVC0.750.840.830.840.910.800.660.840.820.79
DT0.760.720.750.720.810.610.540.610.680.65
RF0.790.810.760.860.890.790.630.860.800.73
k-NN (k=5)0.280.800.780.810.810.720.550.790.750.75
Tableau 2 - Détails complets des résultats obtenus pour la classification des types de relations
  1. Lien pour Légibases : https://www.legibase.fr/ un lien pour chaque base de connaissances : https://collectivites.legibase.fr/ par exemple. ↩︎
  2. Lien pour le modèle sur l'étreinte du visage : https://huggingface.co/Jean-Baptiste/camembert-ner-with-dates ↩︎

Plus ...

Retour en haut