Classification de documents métiers pour l'aide à l'extraction : l'usage des relations lexico-sémantiques typées et pondérées

Réseau d'ontologies.

Je suis membre de l'équipe de recherche Berger-Levrault depuis 2020. Je réalise une thèse CIFRE sur les méthodes et modèles pour la construction automatisée de bases de données ontologiques multi-domaines, en collaboration avec le Laboratoire d'Informatique, de Robotique et de Microélectronique de Montpellier (LIRMM). Ce travail a été présenté à la PFIA (Plate-forme Intelligence Artificielle) 2023 à Strasbourg en juillet dernier.


La légende raconte que tout a commencé avec l'histoire de BerLo, un chevalier qui avait accumulé de nombreux livres anciens contenant des contes, des légendes et des observations sur des créatures mythiques ! Mais ces informations étaient dispersées, non structurées et très difficiles à exploiter... Un jour, son chemin croisa celui du grand sage bibliothécaire LITEX, qui lui expliqua l'importance d'organiser les textes bruts en connaissances structurées.

Le Chevalier Berlo convainquit le sage de lui envoyer son apprentie Camilléa pour l'aider à constituer une base de connaissances organisée et utilisable sur les créatures mythiques du Royaume. La jeune Camilléa se rendit à la Bibliothèque royale et passa de longues heures à étudier des livres et des articles sur les créatures mythiques. Puis elle entreprit de transformer ses textes en informations organisées et reliées entre elles. Elle commença par identifier les entités clés telles que les noms des créatures, leurs caractéristiques, leurs pouvoirs et les histoires qui leur sont associées. Elle a ensuite déterminé les régions des créatures, filtrant cette base de connaissances initiale en les divisant selon leur habitat naturel : forêt, montagne et mer. Grâce à Camilléa, le Chevalier BerLo se retrouva doté d'une cartographie à la fois riche en connaissances et facilement exploitable, lui permettant d'avancer dans sa quête de connaissance du monde tout en ciblant ses recherches.

BerLo est en fait l'acronyme de Berger-Levrault. Dans le cadre de notre engagement quotidien à accompagner les collectivités locales et leurs usagers dans la transformation numérique de la société, nous utilisons notre base de données de textes juridiques et pratiques. Cependant, cette base de données est tellement vaste qu'elle reste difficile à utiliser. Pour résoudre ce problème, je mène une recherche appliquée doctorale depuis un peu plus de 2 ans.

Pour améliorer la qualité des relations dans la base de connaissances, nous avons choisi de déterminer le domaine des textes contenant ces relations parmi les huit domaines de Berger-Levrault, à savoir : Etat civil et cimetières, Elections, Marchés publics, Urbanisme, Comptabilité et finances locales, Ressources humaines territoriales, Justice et Santé.

    Ce travail s'inscrit dans le cadre d'un projet d'évaluation non-biaisée d'envergure visant à comparer les différents modèles disponibles sur le marché !

            Plus ...

            Retour en haut