🇫🇷 Hermès Démo

30 de agosto de 2019

Inteligencia Artificial, Procesamiento del lenguaje natural

2 minutos de lectura

CONTEXTO

Los documentos de los mercados públicos manifiestan una importante heterogeneidad y similitudes. Por otra parte, estos documentos contienen generalmente información típica como el nombre del organismo público, su código SIRET, su localización geográfica, las fechas, los criterios y las modalidades de selección de los candidatos, etc. Sin embargo, estos datos se presentan generalmente sin ningún formato estructurado y se expresan de varias maneras.
El objetivo es construir un sistema que permita a un usuario lanzar una solicitud de búsqueda y recuperar un conjunto de documentos de mercados públicos pertinentes en relación con la solicitud realizada. A continuación, a partir de los resultados obtenidos, se realiza una fase de extracción de información, entidades y conocimientos.
Además, esta aplicación ilustra la demostración de un motor de búsqueda, la clasificación automática de documentos por su tipo de mercado y, finalmente, la extracción de información y entidades de interés.
El enfoque utilizado coincide con varios ámbitos científicos como la búsqueda de información, le tratamiento del lenguaje natural y l'apprentissage automatique.
Las tecnologías implicadas se basan principalmente en el lenguaje Python y sus librerías (por ejemplo Frasco, Whoosh , Scikit-learn).

Démo 1: MOTEUR DE RECHERCHE D'APPEL D'OFFRE

El objetivo es permitir a un usuario interesado en los documentos de los mercados públicos la posibilidad de lanzar solicitudes y recuperar los documentos pertinentes en relación con dichas solicitudes. Este sistema de búsqueda se basa en la indexación de documentos y se refiere como resultados a un conjunto de documentos clasificados por una puntuación de pertinencia (p. ej. Okapi BM25).

Démo 2: EXTRACCIÓN DE INFORMACIONES

¿Cómo funciona?

Tras la fase de búsqueda de documentos, se requiere una fase aún más importante. Esta última corresponde a la extracción automática de información y entidades (por ejemplo, la fecha límite de entrega de las ofertas, el tipo de mercado, los criterios de atribución de un mercado).

La extracción se realiza siguiendo el siguiente esquema:

Para ello, hemos construido tres robots:

El primero, que se basa en una investigación local con un patrón de extracción de datos muy general;
La segunda, que es una máquina inteligente de tipo GBM y que intenta clasificar cada documento en función de su tipo de mercado;
El último que combina dos máquinas inteligentes, de tipo SVM, dentro de un marco de clasificación en cascada:
- La primera máquina recibe un documento de texto en bruto y devuelve un fragmento de texto con los criterios ;
- La segunda máquina tomará como entrada la parte del texto que se ha propuesto como criterio y aplicará una clasificación más fina detectando los criterios principales, los subcriterios y las frases que especifiquen la notación aplicada.

Más ...

Innovación

Extracción de información de libros y artículos de Berger-Levrault

18 de abril de 2024

En detalle

Clasificación de documentos empresariales para facilitar la extracción: uso de relaciones léxico-semánticas tipificadas y ponderadas

3 de octubre de 2023

En detalle

¿Cuáles son las evoluciones de este derecho? Entre la abstracción y la alucinación en el ámbito del resumen de textos jurídicos

9 de junio de 2023

Noticias

Berger-Levrault y el CNRS firman una asociación estratégica

10 de noviembre de 2022

Cookie	Duración	Descripción
cookielawinfo-checkbox-analytics	11 meses	Esta cookie es establecida por el plugin GDPR Cookie Consent. La cookie se utiliza para almacenar el consentimiento del usuario para las cookies de la categoría "Analytics".
cookielawinfo-checkbox-funcional	11 meses	La cookie se establece por el consentimiento de cookies GDPR para registrar el consentimiento del usuario para las cookies en la categoría "Funcional".
cookielawinfo-checkbox-necessary	11 meses	Esta cookie es establecida por el plugin GDPR Cookie Consent. Las cookies se utilizan para almacenar el consentimiento del usuario para las cookies en la categoría "Necesario".
cookielawinfo-checkbox-others	11 meses	Esta cookie es establecida por el plugin GDPR Cookie Consent. La cookie se utiliza para almacenar el consentimiento del usuario para las cookies de la categoría "Otros".
cookielawinfo-checkbox-performance	11 meses	Esta cookie es establecida por el plugin GDPR Cookie Consent. La cookie se utiliza para almacenar el consentimiento del usuario para las cookies de la categoría "Rendimiento".
viewed_cookie_policy	11 meses	La cookie es establecida por el plugin GDPR Cookie Consent y se utiliza para almacenar si el usuario ha consentido o no el uso de cookies. No almacena ningún dato personal.

🇫🇷 Hermès Démo

CONTEXTO

Démo 1: MOTEUR DE RECHERCHE D'APPEL D'OFFRE

Démo 2: EXTRACCIÓN DE INFORMACIONES

¿Cómo funciona?

Más ...

Extracción de información de libros y artículos de Berger-Levrault

Clasificación de documentos empresariales para facilitar la extracción: uso de relaciones léxico-semánticas tipificadas y ponderadas

¿Cuáles son las evoluciones de este derecho? Entre la abstracción y la alucinación en el ámbito del resumen de textos jurídicos

Berger-Levrault y el CNRS firman una asociación estratégica

Comienza a escribir y presiona Intro para buscar