đŸ‡«đŸ‡· Recherche sĂ©mantique pour Actes Office

DĂ©monstration : L'Intelligence Artificielle et la Recherche d'Information au service de BL.ActesOffice

Le module présenté dans cette démonstration permet de rechercher des documents sur une partie de la base d'ActesOffice en se basant sur des techniques appartenant au domaine de l'intelligence artificielle (IA), du traitement automatique des langues (TAL) et de la recherche d'Information (RI). Ces trois domaines scientifiques et technologiques ont beaucoup en commun : ils traitent tous du texte exprimé en langue naturelle.

La représentation des documents au sein d'un systÚme de RI et le calcul de similarité entre ces représentations sont deux problématiques différentes que nous avons traitées dans ce projet de recherche et développement.

Afin de donner une reprĂ©sentation sĂ©mantique aux documents qui porte leur sens, nous sommes basĂ©s sur un modĂšle de langage entraĂźnĂ© sur un corpus de taille trĂšs importante provenant du domaine .fr (pour plus de dĂ©tails, voir la section Description de l'approche). Ce mĂȘme modĂšle a Ă©tĂ© utilisĂ© pour donner une reprĂ©sentation sĂ©mantique Ă  la requĂȘte ; quand Ă  la mesure de similaritĂ© utilisĂ©e pour comparer la reprĂ©sentation de la requĂȘte aux reprĂ©sentations des documents, nous avons utilisĂ© la mesure Cosinus.

Description de l'approche : vers une recherche de documents par similarité sémantique et utilisation des plongements lexicaux (word embeddings)

Les documents de la base sont tout d'abord indexĂ©s avec une reprĂ©sentation permettant de mesurer leur rapprochement avec la requĂȘte. Notre objectif principal est de donner du sens au contenu textuel exprimĂ© dans ces documents.

Plusieurs ressources sont utilisées pour y arriver à cette indexation :

SystÚmes proposés

Le modĂšle de langage que nous avons utilisĂ© (Ă  savoir, Word2Vec avec une architecture CBOW - Sac de mots continu) a Ă©tĂ© entraĂźnĂ© sur le corpus frWaC (corpus français du domaine .fr). Ce corpus contient prĂšs de deux milliards de mots. Nous avons utilisĂ© le modĂšle Word2Vec proposĂ© par Jean-Philippe Fauconnier (lien d'accĂšs).

Il se peut que le modĂšle utilisĂ© ne propose pas une reprĂ©sentation pour les mots exprimĂ©s dans la requĂȘte :

Types de requĂȘtes

Nous proposons deux maniÚres d'intérroger la base :

  1. Seulement les mots de la requĂȘte originale sont pris en compte pour intĂ©rroger la base,
  2. Nous prenons en compte non seulement les mots de la requĂȘte originale mais aussi les trois mots les plus proches sĂ©mantiquement Ă  chaque mot de la requĂȘte originale.

Comment ça marche ?

L'utilisateur doit fournir sa requĂȘte dans le champ de recherche et le type de cette requĂȘte (simple ou Ă©tendu).

Si le type choisi pour la requĂȘte est simple alors la reprĂ©sentation de la requĂȘte tient compte uniquement des mots exprimĂ©s par l'utilisateur. Dans le cas contraire, si le type est Ă©tendu alors des mots sĂ©mantiquement proches sont rajoutĂ©s Ă  la requĂȘte initiale.
Par exemple, si la requĂȘte initiale est Entreprise travaux publics, la requĂȘte Ă©tendue est exprimĂ©e comme suit : entreprisepublictravailchantiercollectivitĂ©pmepme-pmipriverprofessionnelsalariĂ© et territorial.

Le résultat de la recherche est représenté sous forme d'un tableau permettant de réaliser différentes manipulations (tri, filtre, par exemple).

Ce tableau contient quatre colonnes, Ă  savoir :

  1. Rang du document : les documents sont triĂ©s selon le score de similaritĂ© sĂ©mantique (exprimĂ© en score de confiance),
  2. Score de confiance : il exprime le rapport entre le score de similaritĂ© sĂ©mantique du premier document (le premier du tableau) et le score de similaritĂ© du document Ă  traiter,
  3. PremiĂšres lignes : un premier fragement de texte du document Ă  traiter,
  4. Texte intĂ©gral : un lien pour consulter le texte dans son intĂ©gralitĂ©.

Si l'utilisateur souhaite rechercher exactement une chaĂźne de caractĂšres dans la base, il peut l'entourer avec des guillemets (soit " et "soit  et ).

Contact

Mokhtar Boumedyen BILLAMI (E-Mail : mokhtarboumedyen.billami@berger-levrault.com)

Christophe BORTOLASO (E-Mail : christophe.bortolaso@berger-levrault.com)

Plus ...

Retour haut de page