¿Cuáles son las evoluciones de este derecho? Entre la abstracción y la alucinación en el ámbito del resumen de textos jurídicos

Documentos de abogados.

Contexto

El seguimiento jurídico es una actividad crucial para que los juristas se mantengan al día de la actualidad jurídica. Les permite estar permanentemente al corriente de la normativa vigente y anticipar sus futuras evoluciones, con el fin de aplicarlas lo antes posible. Sin embargo, con la inflación constante de la legislación, los propios vigilantes experimentan una sobrecarga de información que complica sus actividades. Les resulta muy difícil analizar cientos o incluso miles de artículos al día y la síntesis de la información pertinente requiere un esfuerzo considerable. Por lo tanto, la generación automática de resúmenes representa una solución interesante para ayudar a los organismos de control en sus actividades de vigilancia jurídica. Los enfoques de resumen pueden ser ≪ extractivos ≫ o ≪ abstractivos ≫. Los enfoques extractivos devuelven fragmentos de los textos a resumir, mientras que los enfoques abstractivos pueden formular nuevas frases. Así, los enfoques abstractivos pretenden producir resúmenes análogos a los que producen las cargas de reloj.

En este artículo, investigaremos hasta qué punto podemos aplicar modelos lingüísticos generativos a colecciones de datos jurídicos, cuáles son sus limitaciones y cómo podemos evaluar la fidelidad del resumen generado por ellos.

Datos utilizados para los experimentos

Para este estudio, hemos utilizado la recopilación de datos francesa Légibase de Berger-Levrault. Légibase es una colección de documentos de seguimiento jurídico y normativo de las autoridades locales y las administraciones públicas. Cada documento incluye (a) un título, (b) un texto, (c) un resumen y (d) un conjunto de metadatos asociados a los documentos. En la figura 1 se muestra un ejemplo de documento. Toda la información de los documentos está redactada por expertos en la materia cuyo objetivo es mantener actualizada la información jurídica.

Ejemplo de documento legal
Figura 1: Ejemplo de documento jurídico con su título, contenido, tema y resumen.

LLM utilizados para los experimentos

Hemos seleccionado 4 modelos de generación de resúmenes: BART, BARThez, Bert2Bert, T5. Como cada uno de estos modelos ha sido entrenado con datos genéricos, generalmente procedentes de la web y cuyo vocabulario dista bastante del del ámbito jurídico, hemos procedido a una etapa de puesta a punto de estos modelos sobre los datos de Légibase.

Resultados

Para evaluar el rendimiento de los modelos que afinamos, utilizamos métricas de rendimiento dedicadas a la generación automática de resúmenes ROUGE y BLEU. Estas métricas comparan el número de n-gramas (secuencia de palabras) en común entre el resumen de referencia elaborado por los expertos y el resumen generado por los modelos lingüísticos. También utilizamos una puntuación de similitud semántica CosSim que mide la cercanía semántica entre el resumen de referencia y el resumen generado. Los resultados obtenidos se presentan en la Figura 2 :

Resultados modelos legibase
Figura 2: Resultados de los distintos modelos en las medidas ROUGE-1, ROUGE-2, ROUGE-L, BLEU (indicamos la medida F) y la puntuación de similitud semántica.

Podemos ver en la figura de resultados que el modelo Bert2Bert destaca sobre los demás modelos, seguido de los dos modelos BART y BARThez. El modelo T5 resulta ser el que obtiene peores resultados.

La importancia de las entidades de interés en la evaluación de los resúmenes generados

Los campos especializados como el derecho, la sanidad o la ciencia en general son campos especialmente sensibles, en los que cada concepto utilizado, cada nombre propio o incluso adjetivo tiene un significado conciso. Por lo tanto, la veracidad de la información transmitida en estos campos es muy importante. Las puntuaciones ROUGE y BLEU obtenidas nos dan una primera indicación de la calidad de los resúmenes generados por los modelos lingüísticos. Sin embargo, no nos permiten evaluar la cobertura de los resúmenes en términos de vocabulario de interés (vocabulario empresarial y entidades con nombre), ni las incoherencias con el documento fuente. Por ello, proponemos centrarnos en un análisis más avanzado de los resúmenes generados. Definimos el concepto de entidad de interés, es decir, una entidad relacionada con el ámbito jurídico o una simple "entidad con nombre". A continuación, optamos por evaluar la cobertura de los resúmenes y sus incoherencias, conocidas como alucinaciones basadas en las entidades de interés detectadas en el documento fuente y en los resúmenes generados.

Se propone una ilustración de las alucinaciones en el ejemplo de la Figura 3 :

Ejemplos de documentos fuentes legibase
Figura 3: Resultados de los distintos modelos en las medidas ROUGE-1, ROUGE-2, ROUGE-L, BLEU (indicamos la medida F) y la puntuación de similitud semántica.

Métricas consideradas

Se proponen dos tipos de métricas: cobertura y tasa de alucinación/abstracción.

Sean N(d), N(r), N(g) los números de entidades de interés presentes respectivamente en el documento fuente d, en el resumen de referencia r (patrón oro) y en el resumen generado g.

Una primera categoría de métricas se refiere a la cobertura de los resúmenes :

  • la tasa de cobertura cg de los resúmenes generados :

Donde N(g ∩ d) es el número de entidades d encontradas en el resumen generado.

  • La tasa de cobertura Cr de los resúmenes de referencia:

Donde N(r ∩ d) es el número de entidades d encontradas en el resumen de referencia escrito por los expertos. Cr puede considerarse un máximo alcanzable por los distintos modelos.

Una segunda categoría de métricas está relacionada con la aparición de entidades en los resúmenes generados/de referencia, entidades que no estaban presentes en los documentos de origen. Definimos:

  • la tasa de alucinación (extrínseca) h:

Donde N(¬r) es el número de entidades abstraídas en r, es decir, el porcentaje de entidades en r que no forman parte de las entidades en d.

Estas abstracciones pueden compararse a las alucinaciones extrínsecas de los resúmenes generados en el sentido de que no están relacionadas con el conocimiento presente en d. Provienen de los expertos que elaboraron los resúmenes de referencia: estos últimos pueden, en efecto, utilizar su conocimiento a priori para redactar los resúmenes. No obstante, hay que señalar que, aunque sean comparables a las alucinaciones extrínsecas, las abstracciones son factuales, es decir, pueden considerarse verdaderas, al contrario de lo que ocurre con algunas alucinaciones extrínsecas.

Resultados

Los resultados de la Figura 4 muestran diferencias significativas en las tasas obtenidas por los distintos modelos. Aunque el modelo Bert2Bert obtuvo las mejores puntuaciones ROUGE y BLEU, obtiene el menor índice de cobertura, el mayor índice de alucinaciones con diferencia (>60%), así como la mayor proporción de resúmenes alucinados. El modelo T5, por su parte, tiene la mejor cobertura de las entidades del documento fuente, superando incluso a la de los resúmenes de referencia. Por último, el modelo BART presenta la tasa y la proporción de alucinaciones más bajas.

Tasa de cobertura legibase
Figura 4: Tasa de cobertura, tasa de alucinaciones y proporción de resúmenes afectados por alucinaciones de los resúmenes generados por los distintos modelos.

Otro análisis se refería al estudio de los índices de cobertura y alucinación en función de las entidades implicadas (persona, organización, lugar y jurídica). Las entidades jurídicas son las más alucinadas, probablemente debido a su fuerte presencia en la recogida de datos. Las entidades de persona, organización y ubicación son alucinadas de forma relativamente similar.

Por último, para examinar las alucinaciones con más detalle, calculamos un porcentaje de intersección entre las entidades alucinadas en los resúmenes generados y las entidades abstractas en los resúmenes de referencia.

Los resultados se presentan en la Figura 5. Ofrecen una indicación de la facticidad de las alucinaciones. Una vez más, Bert2Bert obtiene los resultados menos convincentes, en contradicción con los resultados de las métricas tradicionales. Sin embargo, estos análisis deben ampliarse: sin contextualizar las entidades alucinadas, no puede deducirse su factualidad exacta. En efecto, pueden utilizarse de forma que provoquen contrasentidos o de forma errónea.

Proporción resultados modelos legibase
Figura 5: Proporción de entidades alucinadas que forman parte de las entidades abstractas.

Todos estos resultados confirman que un simple análisis sobre las métricas ROUGE y BLEU no es suficiente en un contexto empresarial. El modelo Bert2Bert, que parecía el más eficaz según las métricas clásicas, resulta ser el que genera más alucinaciones "incontroladas". Por ello, tenemos previsto realizar un estudio más detallado de los modelos T5 y BART.

¿Y ahora qué?

Este estudio abre varias perspectivas. A corto plazo, nos gustaría continuar nuestra evaluación de las alucinaciones : (i) detectando alucinaciones intrínsecas, y (ii) analizando la facticidad de las alucinaciones en su conjunto.

A largo plazo, los modelos generativos pueden mejorarse en torno a dos ejes: (i) limitar las alucinaciones, para lo cual una vía consiste en suprimir las abstracciones en los resúmenes de referencia, y (ii) controlarlas, enseñando a los modelos a alucinar información factual (veraz). Estas dos perspectivas podrían conducir a resultados más precisos y fiables en la generación de resúmenes en el ámbito jurídico, un dominio empresarial en el que la veracidad de la información es crucial.

Más ...

Scroll al inicio