El conocimiento al alcance de la mano: Construir una base de conocimiento ontológico a partir de nuestra base de datos editorial

dublín, trinity college, biblioteca

Nuestra época está cada vez más influenciada por la prevalencia de grandes volúmenes de datos. Estos datos esconden en la mayoría de los casos una gran inteligencia humana. Este conocimiento intrínseco, sea cual sea el ámbito, permitiría a nuestros sistemas de información ser mucho más eficaces en el tratamiento e interpretación de datos estructurados y no estructurados. Por ejemplo, el proceso de búsqueda de documentos relevantes o de agrupación de documentos para derivar temas no siempre se facilita, cuando los documentos provienen de un dominio específico. Del mismo modo, la generación automática de textos para informar a un chatbot o a un bot de voz sobre cómo satisfacer las necesidades de sus usuarios percibe el mismo problema: la falta de representación precisa del conocimiento de cada dominio específico potencial que podría ser explotado. Entonces, la mayoría de los sistemas de recuperación y extracción de información se apoyan en el uso de una o varias bases de conocimiento externas, pero tienen la dificultad de desarrollar y mantener recursos específicos para cada dominio.

Los elementos más fundamentales de la Web semántica son las ontologías, que han ganado popularidad y reconocimiento al considerarse una respuesta a las necesidades de interoperabilidad semántica en los sistemas informáticos modernos. Estas bases ontológicas son herramientas muy potentes para la representación del conocimiento. Hoy en día, la estructuración y la gestión del conocimiento están en el centro de las preocupaciones de las comunidades científicas. El aumento exponencial de los datos estructurados, semiestructurados y no estructurados en la web ha hecho que la adquisición automática de ontologías a partir de textos sea un ámbito de investigación muy importante. Las ontologías se utilizan ampliamente en la recuperación de información (RI), en las preguntas/respuestas y en los sistemas de apoyo a la toma de decisiones. Una ontología es una forma formal y estructural de representar los conceptos y las relaciones de una conceptualización compartida. Más concretamente, una ontología puede definirse con conceptos, relaciones, jerarquías de conceptos y relaciones, y axiomas presentes para un dominio determinado. Sin embargo, la construcción de grandes ontologías es una tarea difícil, y es imposible construirlas para todos los dominios posibles. Concretamente, la construcción manual de una ontología es una tarea que requiere mucho trabajo. Aunque los datos no estructurados pueden transformarse en datos estructurados, esta construcción implica un proceso muy largo y costoso, especialmente cuando se requieren actualizaciones frecuentes. Por ello, en lugar de desarrollarlas a mano, la tendencia de la investigación se dirige actualmente hacia el aprendizaje automático de ontologías para evitar el cuello de botella en la adquisición de conocimientos.

Las ontologías y Gráficos de conocimiento (KG) que pueden deducirse aparecen como solución a la interpretación de los vocabularios hiperespecializados. Para hablar de estos vocabularios, cabe señalar que nuestro grupo Berger-Levrault ofrece actualmente más de 200 libros y cientos de artículos con conocimientos jurídicos y prácticos sobre el Portal de Légibases. Este portal abarca 8 dominios:

Además, las colecciones de libros son temáticas, están parcialmente anotadas y son el resultado de un importante trabajo editorial entre Berger-Levrault y muchos expertos. Como se ha mencionado al principio de este artículo, el conocimiento que se puede extraer de datos voluminosos (para nuestro caso, la base editorial de Berger-Levrault que está escrita en francés) es muy útil para toda una serie de posibles aplicaciones, que van desde la extracción de información (IE) y la investigación de documentos hasta el enriquecimiento del conocimiento de los agentes conversacionales para satisfacer mejor las necesidades de los usuarios.
El proceso de adquisición de ontologías a partir de los textos pasa por varias etapas: comienza primero con la identificación de los términos clave y sus sinónimos, luego estos términos y sinónimos se combinan para formar conceptos. A continuación, se extraen las relaciones taxonómicas y no taxonómicas entre estos conceptos, por ejemplo, mediante métodos de inferencia. Por último, se instancian los esquemas axiomáticos y se deducen los axiomas generales. Todo este proceso se conoce como aprendizaje de la ontología en el pastel de capascomo se muestra en la figura siguiente.

La ventaja de la que disponemos es que todos los documentos de nuestra base editorial (libros y artículos) tienen una representación semiestructurada, es decir, cada párrafo de cada documento está anotado por expertos con términos clave. Estas anotaciones pueden llevarnos a construir bases ontológicas con una buena calidad al comprobar que la identificación de términos clave es un paso esencial en la creación de ontologías.

El enfoque que proponemos consiste en seguir la evolución de este proceso anterior y aplicarlo a los ámbitos del sector público. Sin embargo, hay que señalar que para satisfacer cada etapa de este proceso se han propuesto en la literatura varias técnicas y modelos. Concretamente, nuestro enfoque hará hincapié en el aprendizaje con poca supervisión. El principio consiste en integrar automáticamente en una ontología las instancias de conceptos y relaciones con una puntuación de confianza considerada alta y validar manualmente las instancias con una puntuación de confianza baja. Estas validaciones manuales nos permitirán aprender nuevas reglas que proponemos integrar en el sistema de aprendizaje para limitar al máximo la supervisión.

Los recientes avances que ofrecen las incrustaciones de palabras con métodos de vectorización como Word2Vec, Guante (Vectores globales para la representación de palabras) o incluso BERT (Representaciones de codificadores bidireccionales a partir de transformadores) ofrecen un potencial de análisis de la información textual que ya ha demostrado su eficacia en muchas aplicaciones, como los asistentes de voz y los motores de traducción. Para nuestros experimentos, hemos optado por trabajar con BERT para entrenar un modelo lingüístico en la base editorial. Este modelo nos permite disponer de incrustaciones de palabras contextualizadas (vectores de palabras continuas contextualizadas) para todos los términos clave que los expertos han seleccionado.
Como ejemplo, si tomamos sólo los artículos de las Légibases y sólo las anotaciones procedentes del tesauro de los 8 dominios, tenemos en términos de anotación los siguientes elementos:

DominioNúmero de términos claveNúmero de artículosNúmero de anotaciones
Estado civil y cementerios64227672169
Elecciones108152150
Orden público87613541201
Urbanismo3271357554
Contabilidad y finanzas locales98119711957
Recursos Humanos regionales293361122
Justicia14473980870
Salud491896830

Para dar una visión general de nuestro primer trabajo de procesamiento de palabras en la base editorial, a continuación, una figura que resume el procesamiento realizado para sacar los términos clave semánticamente cercanos:

Paso 1: Preprocesamiento y normalización

Como primer paso de nuestro enfoque, tomamos los Datos Brutos (RD) almacenados en nuestra base de datos SQL y realizamos una tarea de reestructuración para obtener un conjunto organizado de documentos HTML, y así poder explotar su contenido. En este punto, identificamos los términos necesarios para nuestro proceso de aprendizaje de ontologías como los términos clave anotados por los expertos en cada párrafo de cada documento.
Una vez obtenido el formato requerido, ponemos en marcha el pipeline de preprocesamiento que es el siguiente

  • Análisis sintáctico de datos y segmentación de frases: analizar los documentos HTML y dividir el texto en frases separadas.
  • Lemmatización: En la mayoría de los idiomas, las palabras aparecen en diferentes formas. Fíjate en estas dos frases:
    Los diputados votan la abolición de la monarquía constitucional en Francia. "
    El diputado vota la abolición de la monarquía constitucional en Francia. "
    Ambas frases hablan de "diputado", pero utilizan inflexiones diferentes. Cuando se trabaja con textos en un ordenador, es útil conocer la forma base de cada palabra para saber que ambas frases hablan del mismo significado y del mismo concepto "diputado". Esto será especialmente útil durante el entrenamiento de las incrustaciones de palabras.
  • Adquisición de expresiones multipalabra (MWE): sustitución de los espacios en blanco en las expresiones de varias palabras por un guión bajo "_", para que el término se considere como un único token y, por tanto, se genere una única incrustación de vectores para él en lugar de dos o más vectores para cada palabra que forme parte de él.

Para preparar el contenido del texto para el entrenamiento de los embeddings, generamos un archivo de texto crudo, a partir de documentos HTML, que contiene una frase por línea con palabras clave unificadas (misma representación).

Paso 2: Construcción del modelo

Ahora que tenemos un archivo de texto normalizado, podemos lanzar el entrenamiento del modelo de Comprensión del Lenguaje Natural de última generación BERT en nuestro archivo de texto utilizando la infraestructura de Amazon Web Services (Sagemaker + S3) como compañero:

  • Construir el vocabulario: aprenderemos un vocabulario que utilizaremos para representar nuestra base editorial.
  • Generación de datos de preentrenamiento: Con el vocabulario disponible, BERT puede generar sus datos de preentrenamiento.
  • Configuración del almacenamiento persistente: para preservar nuestros activos, los perseguiremos en AWS Storage (S3 en AWS).

Paso 3: Extracción de características

  • Generación de incrustaciones de palabras/términos.
  • Medir la similitud del coseno entre todos los términos clave y así deducir sus dependencias semánticas.

Resultados

A continuación, se presenta un resumen de la distribución de frecuencias de algunos términos presentes en nuestra base editorial:

Términos muy comunesTérminos medios comunesTérminos menos comunes
Términos clave / Frecuencia de los términos (TF)Términos clave / Frecuencia de los términos (TF)Términos clave / Frecuencia de los términos (TF)
código / 125 912jurado / 3 290intérêt commun / 4
loi / 90 177famille / 3 280asociación para-administrativa / 4
permiso de construcción / 7 268démocratie / 2 158convention d'encaissement de recettes / 1

Después de obtener las puntuaciones de similitud del coseno entre dos términos dados, construimos un archivo CSV que contiene los 100 términos clave más frecuentes en nuestra base editorial, sus 50 palabras más cercanas, así como sus puntuaciones de similitud. La figura siguiente muestra los 100 términos más frecuentes:

A continuación, el archivo se presenta como entrada para crear el siguiente gráfico etiquetado que representa las dependencias semánticas obtenidas de los pasos anteriores:

  A modo de ejemplo, le mostramos a continuación los términos más cercanos semánticamente a "droit":

Recordamos que presentamos aquí el primer trabajo que realizamos para el estudio del corpus de la base editorial y que la continuación de este trabajo nos llevará a aplicar técnicas de extracción de conceptos y relaciones utilizando diferentes niveles de análisis, a saber: nivel lingüístico, estadístico y semántico.

Más ...

Ir arriba