馃嚝馃嚪 B煤squeda sem谩ntica para Actes Office

Demostraci贸n: La inteligencia artificial y la b煤squeda de informaci贸n al servicio de BL.ActesOffice

El m贸dulo presentado en esta demostraci贸n permite buscar documentos en una parte de la base de ActesOffice bas谩ndose en t茅cnicas pertenecientes al 谩mbito de la inteligencia artificial (IA), del tratamiento autom谩tico de idiomas (TAL) y de la b煤squeda de informaci贸n (RI). Estos tres 谩mbitos cient铆ficos y tecnol贸gicos tienen mucho en com煤n: tratan todos los textos expresados en lenguaje natural.

La representaci贸n de los documentos dentro de un sistema de RI y el c谩lculo de la similitud entre estas representaciones son dos problemas diferentes que hemos tratado en este proyecto de investigaci贸n y desarrollo.

Con el fin de dar una representaci贸n sem谩ntica a los documentos que tiene su sentido, nos basamos en un modelo de lenguaje elaborado a partir de un corpus de tama帽o muy importante procedente del dominio .fr (para m谩s detalles, v茅ase la secci贸n Descripci贸n del enfoque). Este mismo modelo se ha utilizado para dar una representaci贸n sem谩ntica a la solicitud; cuando se utiliza la medida de similitud para comparar la representaci贸n de la solicitud con las representaciones de los documentos, hemos utilizado la medida Cosinus.

Descripci贸n del enfoque: hacia una b煤squeda de documentos por similitud sem谩ntica y utilizaci贸n de plongements lexicales (word embeddings)

Los documentos de la base est谩n indexados con una representaci贸n que permite medir su relaci贸n con la solicitud. Nuestro objetivo principal es dar sentido al contenido textual de estos documentos.

Se utilizan varios recursos para llegar a esta indexaci贸n:

Sistemas propuestos

El modelo de lenguaje que hemos utilizado (a saber, Word2Vec con una arquitectura CBOW - Bolsa de palabras continua) ha sido introducido en el cuerpo frWaC (corpus fran莽ais du domaine .fr). Este corpus contiene cerca de dos millones de palabras. Hemos utilizado el modelo Word2Vec propuesto por Jean-Philippe Fauconnier (derecho de acceso).

Es posible que el modelo utilizado no proponga una representaci贸n de las palabras expresadas en la solicitud:

Tipos de solicitudes

Proponemos dos maneras de investigar la base:

  1. S贸lo se tienen en cuenta las palabras de la solicitud original para integrar la base,
  2. Tenemos en cuenta no s贸lo las palabras de la solicitud original, sino tambi茅n las tres palabras m谩s pr贸ximas a cada palabra de la solicitud original.

Comment 莽a marche ?

El usuario debe proporcionar su solicitud en el campo de b煤squeda y el tipo de esta solicitud (simple ou 茅tendu).

Si el tipo elegido para la solicitud es simple entonces la representaci贸n de la solicitud tiene en cuenta 煤nicamente las palabras expresadas por el usuario. En caso contrario, si el tipo es 茅tendu adem谩s, las palabras que se repiten son eliminadas de la solicitud inicial.
Por ejemplo, si la solicitud inicial es Entreprise travaux publicsLa solicitud ampliada se expresa como sigue: entreprisep煤blicotrabajochantiercolectividadpmepme-pmipriverprofesi贸nsalari茅 y territorial.

El resultado de la investigaci贸n se presenta en forma de tabla que permite realizar diferentes manipulaciones (tri, filtrado, por ejemplo).

Este cuadro contiene cuatro columnas, a saber:

  1. Rang du document : los documentos se trian seg煤n la puntuaci贸n de similitud sem谩ntica (expresada en puntuaci贸n de confianza),
  2. Puntuaci贸n de confianza : Expresa la relaci贸n entre la puntuaci贸n de similitud sem谩ntica del primer documento (el primero de la tabla) y la puntuaci贸n de similitud del documento a tratar,
  3. Primeras l铆neas : un primer fragmento de texto del documento a tratar,
  4. Texto 铆ntegro : un enlace para consultar el texto en su totalidad.

Si el usuario desea buscar exactamente una cadena de caracteres en la base, puede rellenarla con guillemets (por ejemplo " y ", soit  y ).

Contacte con

Mokhtar Boumedyen BILLAMI (E-Mail : mokhtarboumedyen.billami@berger-levrault.com)

Christophe BORTOLASO (E-Mail : christophe.bortolaso@berger-levrault.com)

M谩s ...

Ir arriba