Extracción de información de libros y artículos de Berger-Levrault

Históricamente, Berger-Levrault ha sido editor de libros y artículos jurídicos y prácticos. Los artículos están en línea y proceden de Légibases1. Explotar los conocimientos contenidos en estos textos es difícil. Por eso es necesario estructurar el conocimiento para poder acceder a él rápidamente. Berger-Levrault desarrolla soluciones de software especializadas en el Procesamiento Automático del Lenguaje Natural (PLN), como un motor de búsqueda de documentos, un motor de generación automática de respuestas, una automatización de la vigilancia jurídica y muchas otras. Estas soluciones de software necesitan explotar los conocimientos de Berger-Levrault sobre datos textuales. Hasta ahora, sin embargo, se han visto limitadas por la capacidad de explorar todo el conocimiento en bruto. Por lo tanto, es necesario estructurar este conocimiento para que pueda utilizarse para enriquecer las aplicaciones empresariales y, de este modo, mejorarlas. Para lograrlo, se destacan dos aspectos: (1) Representar todo el conocimiento mediante una estructura de conocimiento; y (2) Utilizar este conocimiento para mejorar el rendimiento de varios productos de software de Berger-Levrault.

En diciembre de 2014, el Banco de Francia elaboró un informe sobre la cuestión de los préstamos. Justement intitulé "Étude des parcours menant au surendettement", il nous livre une analyse en amont des dépôts de dossiers auprès des commissions de surendettement.

El ejemplo anterior es un párrafo de un texto (artículo/libro) de Berger-Levrault. El objetivo es transformar este texto en una estructura como la que se muestra en el diagrama 1 (abajo). El hecho de que nos interesen los textos nos lleva a tener en cuenta que no existe nada de antemano, es decir, que no hay ninguna estructura de conocimiento preexistente, y que es necesario construir esta estructura a partir del propio texto, es decir, de los términos del texto, es decir, de la terminología. Es importante tener en cuenta la finalidad léxica y semántica de la estructuración del texto, es decir, que esta estructuración del conocimiento será utilizada por Berger-Levrault para guiar sus aplicaciones de PNL. Estas nociones léxicas y semánticas las proporcionan los enlaces entre palabras.

Diagrama 1 - Diagrama de la estructura del texto del ejemplo anterior.

Base científica

Extracción de información : Definición

La extracción de información es la tarea automática de extraer información estructurada de documentos no estructurados en un dominio restringido. Consiste en convertir texto plano en una forma estructurada de conocimiento.

La extracción de información de texto plano a formatos de datos estructurados implica tres tipos de subtareas: extracción de tripletes entidad-relación-entidad (ER), extracción de términos clave y, más concretamente, reconocimiento de entidades con nombre (NER) y, por último, extracción de eventos (EE), que no trataremos en este artículo.

"Ayer, Foo Inc., con sede en Nueva York, anunció la adquisición de Bar Corp".

Información extraída: FusiónEntre(empresa1, empresa2, fecha)
empresa1 = Foo Inc.
empresa2 = Bar Corp.
fecha depende de la fecha del artículo del que se extrae la frase

El ejemplo anterior representa una extracción de información a partir de una frase tomada de noticias sobre fusiones de empresas. Podemos ver que se han extraído dos tipos de información: la relación "FusiónEntre" (extracción de relaciones) y los términos o entidades (extracción terminológica) que componen esta relación, a saber, las empresas (empresa1 y empresa2).

Podemos identificar tres etapas principales de construcción, cada una dependiente de la otra. La primera consiste en extraer la terminología que posteriormente representará los conceptos. La segunda consiste en extraer las relaciones. Se pueden identificar varios tipos de relaciones. Para agrupar los términos en conceptos, necesitamos identificar las relaciones jerárquicas y sinónimas entre nuestros términos. A continuación, queremos extraer las relaciones semánticas. Este enfoque puede ser el mismo si las relaciones están bien definidas, es decir, si tenemos un conocimiento previo de los tipos de relaciones y este conjunto de tipos es finito. En muchos casos, se trata de extraer pares de términos candidatos y clasificarlos en un tipo determinado entre los especificados anteriormente.

Por último, es necesaria una etapa de aplicación de reglas para hacer inferencias o validar la coherencia de la estructura de conocimientos. En efecto, cuando se añade información, es necesario comprobar que es correcta y que no contradice ninguna otra información.

Diagrama 2 - Arquitectura general de las 4 etapas de la estructuración de la información

Por tanto, podemos dibujar un sistema general cuya arquitectura se muestra en la figura anterior (véase el diagrama 2). Las detallaremos en los puntos siguientes:

  1. A partir del texto bruto de los documentos, los clasificamos en uno de los 8 subdominios que ofrece Légibases, a saber: Estado civil y cementerios, Elecciones, Contratación pública, Urbanismo, Contabilidad y finanzas locales, Recursos humanos territoriales, Justicia y salud (État civil & cimetières, Élections, Commande publique, Urbanisme, Comptabilité et finances locales, Ressources humaines territoriales, Justice and santé en francés).
  2. Repasamos cada párrafo para extraer los términos clave y vincularlos a un dominio determinado. Esto no solo nos permite rellenar el gráfico como se ha explicado antes, sino también filtrar las relaciones por dominio, de modo que podamos concentrarnos en la información relevante y adaptarnos a un dominio cada vez.
  3. Se pueden extraer las relaciones entre estos términos clave, ya sean de un tipo específico o basados en texto.
  4. Las reglas podrán actualizar el conjunto de términos clave y relaciones eliminando información errónea u obsoleta o añadiendo información inferida.

En este artículo, nos centramos únicamente en la parte de extracción de información, es decir, la extracción terminológica (de términos clave) y la extracción de relaciones, como se explica en las secciones siguientes.

Extracción de terminología

Extracción terminológica: definición

La extracción terminológica (o a veces identificación terminológica) consiste en extraer automáticamente términos relevantes de un corpus de textos dado. Esto puede adoptar diversas formas, como temas relevantes, segmentos principales del texto o incluso palabras principales o lematizadas. Los textos de Berger-Levrault son libros y artículos jurídicos y prácticos de diversos sectores. Podemos comparar esta agrupación de corpus con el garde manger de un chef. Del mismo modo que un chef seleccionaría los ingredientes adecuados para una receta de un país concreto, la extracción terminológica consiste en extraer de los textos los términos adecuados para una tarea concreta en un campo determinado.

En general, los enfoques de extracción automática de terminología extraen candidatos terminológicos, es decir, sintagmas que son sintácticamente plausibles, por ejemplo, mediante la división de frases.
A continuación, los candidatos se filtran mediante métodos estadísticos y de aprendizaje automático. La extracción terminológica consiste en extraer una lista de términos pertinentes asociados a un ámbito específico. El objetivo es deshacerse de lo superfluo mediante la búsqueda de términos menos comunes pero más relevantes, y luego completar esta extracción con sinónimos utilizando otros recursos.

Al seleccionar los términos clave más pertinentes y significativos, la extracción terminológica permite centrarse en la información esencial. Al identificar los términos conceptuales y los demás términos asociados al concepto se crea de forma natural una noción de estructura.

Anotaciones de los expertos

Los libros y artículos del corpus Berger-Levrault están parcialmente anotados por expertos en la materia. Un experto en uno de los 8 subdominios procesa un documento o artículo y recorre cada párrafo uno por uno, eligiendo si lo anota o no con uno o más términos. El siguiente ejemplo muestra las anotaciones realizadas por los expertos en un párrafo determinado. Las anotaciones de los expertos han sido negrita y en cursiva en el texto asociado por un humano, para hacer coincidir el tratamiento intuitivo, no lo que se obtiene directamente con el sistema.

Los municipios que cuenten con un plan de ocupación del suelo de titularidad pública o con un plan local de urbanismo aprobado podrán, por delegación, instituir un derecho de prioridad urbana sobre todo o parte de zonas urbaines et des zonas d'urbanización futuro délimitées par ce plan, dans les périmètres de protection rapprochée de prélèvement d'eau destinée à l'alimentation des collectivités humaines définis en application de l'article L. 1321-2 du Code de la santé publique, zonas y sectores afectados por un plan de prevención de la riesgos tecnológicos en aplicación del artículo L. 515-16 del Código de Medio Ambiente, en las zonas soumises aux servitudes prévues au II de l'article L. 211-12 du même code, ainsi que sur tout ou partie de leur territoire couvert par un plan de sauvegarde et de
mise en valeur rendu public ou approuvé en application de l'article L. 313-1 lorsqu'il n'a pas été créé de zona d'aménagement différé ou de périmètre provisoire de zona d'aménagement différé sur ces territoires.

Droit de préemption urbain, Préemption, Risque naturel et/ou technologique, Secteur sauvegardé, zone, zone d'aménagement concerté, d'urbanisation future

Las anotaciones de los expertos son manuales, y los expertos no disponen de un recurso léxico de referencia en el momento de la anotación. Por lo tanto, los expertos realizan anotaciones diferentes. Los términos clave se han descrito con varias formas flexionadas y, a veces, con información adicional irrelevante, como determinantes (por ejemplo, "des frais" en otros apartados). Un término clave agrupa todas las anotaciones con forma de flecha en una única forma representativa.

Hemos recopilado todas las anotaciones de los expertos. A partir de las distintas formas flexionadas, queremos pasar a esa forma representativa denominada "término clave". Para ello, vamos a preprocesar los datos con el fin de unificarlos.

  1. El primer paso consiste en eliminar las primeras palabras herramienta (determinante, por ejemplo).
    En el ejemplo concreto "de participation de zones d'aménagement concerté", la anotación se transforma en "participation de zones d'aménagement concerté".
  2. A continuación, basándonos en estos elementos, queremos unificar las anotaciones del mismo identificador bajo un único término clave representativo llamado referente: una única forma para términos con los mismos identificadores pero diferentes formas de flecha. Por ejemplo, "de restauration immobilière", "restauration immobilière" y "Restauration immobilière" hacen referencia al mismo término clave. Para construir un identificador de un término dado que ya ha pasado por la primera etapa, lematizamos todas las palabras que componen este término. Este identificador sólo se utiliza para encontrar todas las diferentes formas flexionadas del mismo identificador. Para elegir el representante adecuado, hemos dividido nuestro problema en dos casos: términos simples (palabras) y términos complejos. En el caso de los términos complejos, hemos optado por tomar la forma flexionada con mayor número de apariciones en el corpus. Para ello, se realiza un análisis estadístico de todo el corpus para calcular el número de apariciones de cada anotación. De este modo, la forma más frecuente representa el sustituto que puede referirse a un término clave determinado. Para los términos simples, preferimos una forma canónica estándar, ya que deseamos favorecer la forma singular y genérica frente a la forma plural.

Sin embargo, como ya se ha mencionado, el cotejo se hizo manualmente, ya que hubo que realizar una gran cantidad de preprocesamientos, a menudo múltiples. Por ejemplo, en nuestro caso, "Risque naturel et/ou technologique" se emparejó con "risque technologique". Sin embargo, existen muchos otros casos, lo que dificulta el preprocesamiento de estas anotaciones. Por lo tanto, las anotaciones de expertos no están presentes en el texto asociado. Esto puede deberse a que el término requiera preprocesamiento, como en el caso anterior, pero también puede deberse a que el término clave sea demasiado largo, lo que lo hace inutilizable, o puede deberse a un tema asociado al párrafo.

Volvamos al ejemplo anterior. Aquí, vamos a representar las palabras que consideraríamos intuitivamente relevantes poniéndolas en negrita, mientras mantenemos el anotaciones en cursiva. Son los términos que un humano podría seleccionar como interesantes en el texto para formarse una idea general del mismo.

Los municipios dotados de un plan d'occupation des sols rendu public ou d'un plan local d'urbanisme aprobado pueden, por délibération, instituer un derecho de prioridad urbana sobre todo o parte de zonas urbaines et des zonas d'urbanización futuro délimitées par ce plan, dans les périmètres de protection rapprochée de prélèvement d'eau destinado a la alimentación de colectividades humanas définis en application de l'artículo L. 1321-2 du Código de salud pública, zonas y sectores definidos por un plan de prevención des riesgos tecnológicos en aplicación de l'artículo L. 515-16 du Código de medio ambiente, dans les zonas soumises aux prestaciones previstas au II del artículo L. 211-12 du même code, ainsi que sur tout ou partie de leur territoire couvert par un plan de sauvegarde et de
puesta en valor
rendu public ou approuvé en application de l'artículo L. 313-1 lorsqu'il n'a pas été créé de zona d'aménagement différé ou de périmètre provisoire de zona d'aménagement différé sur ces territoires.

Droit de préemption urbain, Préemption, Risque naturel et/ou technologique, Secteur sauvegardé, zone, zone d'aménagement concerté, d'urbanisation future

Aquí, cuando comparamos el palabras en negrita con los que están en cursivavemos que este párrafo carece de información. De hecho, el experto anota el párrafo con la intención de dar un breve resumen de todo el párrafo, no con la intención de dar los términos relevantes del texto. Naturalmente, cuando comparamos el párrafo con los términos que un humano podría seleccionar como relevantes en el texto para formarse una idea general del mismo frente a las anotaciones, observamos una gran diferencia. Para reforzar esta idea, la Tabla 1 describe para un dominio determinado: el número de anotaciones de expertos, el número de artículos para ese dominio y el número de términos clave que fue posible extraer de las anotaciones de expertos (con el porcentaje de pérdida). Así, podemos ver que hay muchas pérdidas y pocos términos clave para todos los artículos. No se han tenido en cuenta los libros para filtrar por campos. De hecho, los artículos de Légibases se clasifican por campos, lo que no ocurre con los libros. Cabe señalar que estas cifras se recogieron en 2020 y han evolucionado desde entonces. Sin embargo, siguen siendo interesantes para apoyar el hecho de que las anotaciones de expertos no son suficientes para la extracción de información.

DominiosNúmero de términos claveNúmero de artículosNúmero de anotaciones
Estado civil y cementerios
(Estado civil y cimetires)
642
(29,6% restantes)
2 7672 169
Elecciones
(Elecciones)
108
(72% restante)
152150
Contratación pública
(Comando público)
876
(72,9% restantes)
1 3541 201
Urbanismo
(Urbanismo)
327
(59% restante)
1 357554
Contabilidad y finanzas locales
(Contabilidad y finanzas locales)
981
(50,1% restantes)
1 9711 957
Recursos humanos locales
(Recursos humanos territoriales)
122
(41,6% restantes)
361293
Justicia870
(60.1% restante)
3 9801 447
Salud
(Santé)
491
(59,2% restantes)
896830
Cuadro 1 - Tamaño del vocabulario y número de anotaciones de expertos

Por tanto, teníamos dos opciones: explotar estas excepciones entre las anotaciones de los expertos haciendo una similitud entre los términos del texto y las anotaciones para agruparlos, o añadir información textual desarrollando un extractor terminológico basado en el contenido textual.
Para añadir información textual, recurrimos a un extractor terminológico, que presentamos en la siguiente sección.

InfoGlean Términos clave

InfoGlean KeyTerms es el nombre que recibe el extractor terminológico que hemos desarrollado. Este extractor se divide en tres subsistemas:

  1. Reconocimiento de entidades con nombre (NER): Es la tarea de identificar entidades con nombre específico en un texto y, a continuación, clasificarlas en categorías predefinidas como personas, lugares, organizaciones, fechas y muchas más. Las entidades con nombre son elementos concretos del texto que tienen una importancia particular y suelen ser nombres propios.
    Normalmente, un sistema NER consta de dos pasos: la identificación de entidades con nombre y el etiquetado de entidades en cada una de las categorías previamente definidas. Para la tarea NER utilizamos un modelo CamemBERT perfeccionado denominado "CamemBERT-NER" y ampliado con etiquetado adicional para fechas2.
  2. La extracción de términos relevantes -también conocida como extracción de frases clave/palabras clave- consiste en extraer términos importantes (simples o complejos) de un texto. Estos términos clave ayudan a identificar el tema de un documento. Hemos optado por utilizar la API ChatGPT. A continuación se muestra un ejemplo de consulta utilizada en ChatGPT para extraer términos relevantes. Esta consulta se ha reducido, omitiendo parámetros para filtrar y formatear la salida.
    • Consideremos el siguiente texto en francés: "Les communes dotées d'un plan d'occupation des sols rendu public ou d'un plan local d'urbanisme approuvé peuvent, par délibération, instituer un droit de préemption urbain sur tout ou partie des zones urbaines et des zones d'urbanisation future délimitées par ce plan, dans les périmètres de protection rapprochée de prélèvement d'eau destinée à l'alimentation des collectivités humaines définis en application de l'article L. 1321-2 du Code de la santé publique, zones et secteurs définis par un plan de prévention des risques technologiques en application de l'article L. 515-16 du Code de l'environnement, dans les zones soumises aux servitudes prévues au II de l'article L. 211-12 du même code, ainsi que sur tout ou partie de leur territoire couvert par un plan de sauvegarde et de mise en valeur rendu public ou approuvé en application de l'article L. 313-1 lorsqu'il n'a pas été créé de zone d'aménagement différé ou de périmètre provisoire de zone d'aménagement différé sur ces territoires."
      Dígame los términos relevantes de este texto.
  3. Extracción de personas jurídicas consiste en extraer entidades de un texto de la misma forma que para NER, pero relacionadas únicamente con el ámbito jurídico. Hemos observado cinco tipos diferentes de entidad jurídica: Ley, Artículo, Propuesta, Decreto, Otros. Utilizamos el sistema de Nihed Bendahman para extraer entidades de interés, es decir, tanto entidades jurídicas como entidades con nombre. Este sistema se basa en reglas REGEX.

Tomamos el ejemplo anterior y aplicamos la combinación de estos sistemas (las tres extracciones diferentes de InfoGlean KeyTerms), representándolas por sus respectivos colores superpuestos en la imagen anotaciones de los expertos.

Les municipios dotées d'un plan d'occupation des sols rendu public ou d'un plan local d'urbanisme aprobado pueden, por délibération, instituer un derecho de prioridad urbana sobre todo o parte de zonas urbaines et des zonas d'urbanización futuro délimitées par ce plan, dans les périmètres de protection rapprochée de prélèvement d'eau destinado a la alimentación de colectividades humanas définis en application de l'artículo L. 1321-2 du Código de salud pública, zonas y sectores definidos por un plan de prevención des riesgos tecnológicos en aplicación de l'artículo L. 515-16 du Código de medio ambiente, dans les zonas soumises aux prestaciones previstas au II de l'artículo L. 211-12 du même code, ainsi que sur tout ou partie de leur territoire couvert par un plan de sauvegarde et de
puesta en valor
rendu public ou approuvé en application de lArtículo L. 313-1 lorsqu'il n'a pas été créé de zona d'aménagement différé ou de périmètre provisoire de zona d'aménagement différé sur ces territoires.

Droit de préemption urbain, Préemption, Risque naturel et/ou technologique, Secteur sauvegardé, zone, zone d'aménagement concerté, d'urbanisation future

Extracción de relaciones

Extracción de relaciones: Definición

La extracción de relaciones es una tarea de Procesamiento del Lenguaje Natural (PLN) cuyo objetivo es identificar y clasificar relaciones semánticas entre entidades de un texto. Por ejemplo, dada la frase "Barack Obama nació en Hawai", la extracción de relaciones puede extraer del texto la relación lugar_de_nacimiento (Barack Obama, Hawai). La extracción de relaciones puede utilizarse para extraer información de diversas fuentes, como artículos de noticias, publicaciones en redes sociales, artículos científicos o páginas web, y organizarla en estructuras de datos.

Del texto pueden extraerse distintos tipos de relaciones, en función del nivel de especificidad, granularidad y dominio. Las relaciones entre entidades con nombre se establecen entre entidades con nombre, como personas o lugares. Por ejemplo (presidente_de, Joe Biden, EE.UU.). Las relaciones semánticas de rol se refieren a las relaciones entre un predicado y sus argumentos, como (agente, gerente, Juan) o (paciente, comer, manzana). Las relaciones ontológicas son las que pertenecen a un esquema, como la hiperonimia o hiponimia (subclase_de, perro, animal) o (tiene_Color, Manzana, Rojo). Todos estos tipos de relaciones aportan información valiosa sobre el texto. Se trata de tipos de relaciones bien definidos que se reutilizan con frecuencia, como la sinonimia, la equivalencia, la jerarquía y la asociación. Sin embargo, para ello es necesario definir previamente cada tipo y, si son muchos los que hay que determinar, esto requiere un esfuerzo manual. Existe otra forma de extracción de relaciones. Se trata de relaciones abiertas que extraen información relacional del texto, como los verbos, y dan total libertad. Sin embargo, esta técnica requiere la gestión de un gran número de posibilidades.

Para superar los problemas tanto del sistema excesivamente complejo necesario para la extracción de relaciones abiertas como de la necesidad de limitar el número de tipos de relaciones, hemos creado un sistema de extracción de relaciones progresivo e iterativo. Para ello, hemos construido nuestro sistema en varias etapas:

  1. Reducir el problema de extracción de relaciones a extracción de relaciones taxonómicas
  2. Extensión a otros tipos de relaciones esenciales como sinonimia, parte de u otras.
  3. Clasificación de dominios para mejorar los resultados (véase el artículo anterior de BL.Research)
  4. Extracción de relaciones abiertas

El sistema básico de pasos 1 y 2 (y también el que se injertará en paso 3) se divide en varias fases, como se muestra en la siguiente figura.

  1. A partir de los términos clave extraídos inicialmente, utilizamos el red léxico-semántica JeuxDeMots para recuperar las instancias de las relaciones. Esta red léxico-semántica es una base de conocimiento general del francés, construida sobre una plataforma que invita al jugador a explicar las relaciones que unen las distintas palabras de la red. Esto permite extraer información de todo tipo de términos franceses. Nuestro método consiste, por tanto, en recuperar un conjunto de pares de términos clave para un determinado tipo de relación, a partir de los términos clave del corpus. En paso (1) del sistema, nos hemos limitado al tipo de relación taxonómica, es decir, hiperonimia e hiponimia. A continuación, recuperamos estas instancias de relación para varios tipos seleccionados: Generalización (hiperonimia) y Especificación (hiponimia) para paso (1) y sinonimia u otros además para paso (2). La utilización de JeuxDeMots constituye un punto de partida para extraer información jurídica y práctica de nuestros textos Berger-Levrault.
  2. A partir de estas instancias de relación, tenemos que crear representaciones vectoriales de nuestras instancias en contexto. Para ello, primero entrenamos las incrustaciones léxicas de los términos que componen las instancias. Las incrustaciones léxicas son una forma de representar palabras como vectores numéricos en un espacio matemático. Imagine que cada palabra tiene su propia dirección en este espacio. Word2Vec es una herramienta que crea estas representaciones utilizando un modelo de lenguaje profundo. Por ejemplo, para la relación de generalización: contratación pública is_a contratación, Word2Vec crea dos émbolos léxicos llamados vectores: Vector(contratación_pública) y Vector(contratación). A partir de estos vectores, deducimos representaciones vectoriales de relaciones tipificadas mediante una sencilla operación aritmética. Existen dos casos posibles: el primero se refiere a las relaciones asimétricas, como la generalización o la especificación, y el segundo a las relaciones simétricas, como la sinonimia. De hecho, una relación simétrica (introducida en paso 2) es como un conjunto de espejos, donde si A está vinculado a B, entonces B también está vinculado a A. Tomemos el ejemplo de los amigos: si Alice es amiga de Bob, entonces Bob también es amigo de Alice. Es una relación en la que ambas partes se ven de la misma manera.
    He aquí las diferentes operaciones aritméticas (relaciónOperación):
    Sea la operaciónRelación (V1, V2) sea el vector de relaciones (fuente: término1R, objetivo: término2)
    • Diferencia: (V1 - V2) ⇢ Ejemplo: (v2 - v1) = (contratación_pública, es_a, contratación)
    • Valor absoluto : |V1-V2|
  3. Una vez creadas las representaciones de los vectores de relación, añadimos un paso de aprendizaje para tener en cuenta el tipo de relación. Se trata de aprender los tipos de relación mediante una clasificación binaria. Para un tipo de relación dado, la clasificación binaria determina si se trata de esta relación o de su opuesto. Proporcionamos un clasificador binario con los vectores de relación para un tipo de relación dado como entrada. En paso (1)la tarea consiste en determinar si se trata de la generalización o de la especificación. En paso (2), necesitamos multiplicar el número de clasificadores binarios por una noción de umbral. Esto se debe a que un par de términos puede no pertenecer ni a un tipo de relación ni a su opuesto. Los pares de términos se extraen aleatoriamente. Así pues, creamos un vector de relaciones para un tipo de relación que deseamos probar: si la clasificación en un tipo de relación dado parece segura (umbral alto para un tipo dado), entonces deducimos un nuevo par.

Evaluación

El cuadro 2 muestra los resultados de la clasificación del tipo de relación para paso (2) y una columna para paso (3). Las puntuaciones de esta tabla toman un valor entre 0 y 1. Más cerca de 1 significa que el sistema rinde mejor en su tarea de extracción de relaciones.

Para evaluar distintos modelos de clasificación, utilizamos artículos de Legibase ya categorizados por dominio. Esto nos permite disponer de un corpus ya etiquetado para la clasificación de artículos por dominio. Equilibramos nuestro corpus hasta disponer de 250 artículos en cada uno de los 8 dominios. Se especifican los resultados para cada dominio clasificado, pero los resultados medios se presentan en las dos últimas columnas, ya que el modelo de extracción de relaciones se promedia por defecto, cuando no se conoce el dominio.

Observamos que la clasificación por dominios da mejores resultados en el caso de las relaciones asimétricas (Hiperonimia frente a hiponimia) y (Es parte de vs. Tiene parte) y para las relaciones simétricas (Sinonimia y antonimia) para dos de los cuatro clasificadores (VPC y Árbol de decisión). Por lo tanto, podemos concluir que es útil utilizar la clasificación de documentos basada en el dominio antes de extraer las relaciones léxico-semánticas del texto en bruto.

Tipo de relaciónClasificadorContratación pública
(Comando público)
Contabilidad y finanzas locales
(Comptabilité et finances locales)
JusticiaRecursos humanos locales
(RH territoriales)
Salud
(Santé)
Urbanismo
(Urbanismo)
Elecciones (Elecciones)Estado civil y cementerios
(Estado civil y cimetires)
Media x dominioMedia sin clasificación por dominios
Hiperonimia frente a hiponimiaVPC0.780.800.790.860.830.840.890.830.830.75
DT0.570.680.710.770.790.720.780.710.720.71
RF0.750.740.760.810.830.780.850.800.790.78
k-NN (k=5)0.650.810.800.840.780.820.870.770.790.78
Sinonimia frente a antonimiaVPC0.850.740.740.790.850.780.840.800.800.73
DT0.760.760.760.760.760.760.760.760.750.72
RF0.790.610.640.690.750.650.760.730.700.78
k-NN (k=5)0.650.610.640.660.660.630.650.60.640.74
Es parte de vs. Tiene parteVPC0.750.840.830.840.910.800.660.840.820.79
DT0.760.720.750.720.810.610.540.610.680.65
RF0.790.810.760.860.890.790.630.860.800.73
k-NN (k=5)0.280.800.780.810.810.720.550.790.750.75
Cuadro 2 - Detalles completos de los resultados obtenidos para la clasificación de los tipos de relación
  1. Enlace para Légibases : https://www.legibase.fr/ un enlace para cada base de conocimientos: https://collectivites.legibase.fr/ por ejemplo. ↩︎
  2. Enlace para el modelo de cara abrazada: https://huggingface.co/Jean-Baptiste/camembert-ner-with-dates ↩︎

Más ...

Scroll al inicio