Clasificación de documentos empresariales para facilitar la extracción: uso de relaciones léxico-semánticas tipificadas y ponderadas

Compartir por correo electrónico
Red de ontologías.

Soy miembro del equipo de investigación Berger-Levrault desde 2020. Trabajo en una tesis CIFRE sobre métodos y modelos para la construcción automatizada de bases de datos ontológicas multidominio, en colaboración con el Laboratorio de Informática, Robótica y Microelectrónica de Montpellier (LIRMM). Este trabajo se presentó en la PFIA (Plate-forme Intelligence Artificielle) 2023, celebrada en Estrasburgo el pasado mes de julio.


Cuenta la leyenda que todo empezó con la historia de BerLo, un caballero que había acumulado numerosos libros antiguos que contenían cuentos, leyendas y observaciones sobre criaturas míticas... Pero la información estaba dispersa, desestructurada y era muy difícil de aprovechar. Pero la información estaba dispersa, desestructurada y era muy difícil de aprovechar... Un día, su camino se cruzó con el del gran sabio bibliotecario LITEX, que le explicó la importancia de organizar los textos en bruto para convertirlos en conocimiento estructurado.

El Caballero Berlo convenció al sabio de que enviara a su aprendiz Camilléa para que le ayudara a crear una base de conocimientos organizada y utilizable sobre las criaturas míticas del Reino. La joven Camilléa fue a la Biblioteca Real y pasó largas horas estudiando libros y artículos sobre criaturas míticas. Después se dedicó a transformar sus textos en información organizada e interrelacionada. Empezó por identificar las entidades clave, como los nombres de las criaturas, sus características, poderes e historias asociadas. Después determinó las regiones de las criaturas, filtrando esta base de conocimientos inicial dividiéndolas según su hábitat natural: bosque, montaña y mar. Gracias a Camilléa, el Caballero BerLo dispone de una cartografía rica en conocimientos y fácilmente explotable, que le permite avanzar en su búsqueda del conocimiento del mundo al tiempo que orienta su investigación.

En realidad, BerLo son las siglas de Berger-Levrault. Como parte de nuestro compromiso diario de apoyar a las autoridades locales y a sus usuarios en la transformación digital de la sociedad, utilizamos nuestra base de datos de textos jurídicos y prácticos. Sin embargo, esta base de datos es tan extensa que sigue siendo difícil de utilizar. Para resolver este problema, llevo algo más de dos años realizando una investigación aplicada doctoral.

Para mejorar la calidad de las relaciones de la base de conocimientos, hemos optado por determinar el dominio de los textos que contienen estas relaciones entre los ocho dominios de Berger-Levrault, a saber: Estado Civil y Cementerios, Elecciones, Contratación Pública, Urbanismo, Contabilidad y Finanzas Locales, Recursos Humanos Territoriales, Justicia y Sanidad.

    Este trabajo forma parte de un proyecto de evaluación imparcial a gran escala diseñado para comparar los distintos modelos disponibles en el mercado.

            Más ...

            Scroll al inicio