Traitement intelligent des documents (IDP) : un élément clé de l'automatisation de bout en bout des processus d'entreprise

Partager par e-mail

Les données de l'entreprise sont un élément clé de la prise de décision, mais malheureusement, la plupart de ces données sont dans un format non structuré : Documents PDF, scans JPG, emails, etc. Cette représentation non structurée est difficile à exploiter par la machine, ce qui complique l'automatisation des processus métier. Traitement intelligent des documents (IDP) permet de capturer, d'extraire et de traiter des données à partir de divers formats de documents. Elle transforme les données non exploitables en données structurées facilement manipulables par un processus métier automatisé. Sans solutions IDP, le processus nécessite une intervention humaine pour lire les documents, extraire les données et les saisir. Le traitement intelligent des documents libère tout le potentiel de l'automatisation. Pour remplir son rôle, une solution IDP utilise des outils d'intelligence artificielle, tels que l'analyse d'images, le traitement du langage naturel [1-6] et l'apprentissage automatique profond [7-10]. Ces outils ont connu un grand succès ces dernières années, grâce à la grande quantité de données générées dans le monde, à la disponibilité de capacités de calcul à la demande à des coûts raisonnables, ainsi qu'aux méthodes et aux modèles théoriques fournis par les chercheurs dans ce domaine.

Le traitement des documents est au cœur des métiers de Berger-Levrault. Nous pouvons citer à titre d'exemple : le contrôle des flux embarquant les PDF avant leur envoi à la DGFIP, l'extraction des informations des cartes d'identité, la numérisation des formulaires papier, etc. Récemment, au sein de la DRIT, nous avons développé un service de contrôle automatique des flux de factures. Les produits de Berger-Levrault génèrent des flux de factures qui sont envoyés à la DGFIP au format XML. La réglementation impose un certain nombre de règles concernant la forme et le contenu de ces flux, ainsi que la charte graphique des factures. Un flux non conforme est systématiquement rejeté par la DGFIP. DGFIP. En effet, la non-conformité peut avoir des conséquences néfastes pour des milliers de personnes (voir l'article détaillé ici).

Le service embarque un modèle de deep learning de type Faster R-CNN qui capture les éléments pertinents des factures, notamment l'adresse de l'expéditeur, l'adresse du destinataire, la matrice de données et le logo. Ce modèle est entraîné avec un très petit nombre de documents étiquetés (quelques dizaines de factures), et malgré sa complexité, il peut être exécuté rapidement sur une machine équipée d'un GPU (moins de 10 minutes pour un flux composé de 260 factures).

R-CNN plus rapide [11]

Le service est exposé via une API REST. Nous avons ensuite développé une interface utilisateur en Angular avec une architecture micro-frontale, qui est basée sur BL.Identity. Le service "contrôle des factures", l'API REST et le micro-frontend "contrôle des factures" constituent le premier cas d'utilisation de BL.IDP. Le schéma suivant montre l'architecture globale :

Architecture globale de BL.IDP

La vidéo suivante montre une démonstration de BL.IDP. L'utilisateur va charger une facture au format PDF. Une fois le document chargé, BL.IDP fonctionne en arrière-plan :

  1. Transformez le PDF en image,
  2. Capturez les différents éléments de chaque facture (adresse de l'expéditeur, Datamatrix et logo) avec le modèle Faster-RCNN,
  3. Extraire le texte par OCR,

Lorsque le rapport est disponible, l'interface utilisateur vous permet de le visualiser. Nous pouvons voir une image avec les éléments capturés par le modèle et les données extraites.

Nous sommes actuellement intéressés par l'évaluation de l'effort nécessaire pour exploiter un modèle de localisation d'éléments pour d'autres cas d'utilisation. Nous rappelons que le modèle est entraîné sur un ensemble de données annotées. Nous cherchons à déterminer le niveau de sensibilité du modèle à la variation de la structure des documents. Par exemple, un modèle entraîné sur des factures avec des annotations sur les adresses des destinataires, sera-t-il efficace pour localiser des adresses dans des cartes d'identité ? Quelle est la métrique de sensibilité à utiliser ? Si le modèle n'est pas assez performant, faut-il le réentraîner à partir de zéro avec plusieurs échantillons de cartes d'identité ? Devrions-nous conserver le modèle actuel et l'affiner à l'aide de quelques échantillons de cartes d'identité ? Est-il possible de mettre en place une plateforme générique et automatisée pour générer des modèles de traitement intelligent des documents avec un minimum d'ajustements manuels et répétitifs par un scientifique des données ?

Références

[1] Y. Li, K. Bontcheva et H. Cunningham, " SVM based learning system for information extraction ", dans International Workshop on Deterministic and Statistical Methods in Machine Learning, 2004, pp. 319-339.
[2] T. Mikolov, I. Sutskever, K. Chen, G. Corrado, et J. Dean, "Distributed representations of words and phrases and their compositionality," arXiv Prepr. arXiv1310.4546, 2013.
[3] J. Pennington, R. Socher, et C. D. Manning, "Glove : Global vectors for word representation ", dans Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), 2014, pp. 1532-1543.
[4] X. Ma et E. Hovy, " End-to-end sequence labeling via bi-directional lstm-cnns-crf ", arXiv Prepr. arXiv1603.01354, 2016.
[5] G. Lample, M. Ballesteros, S. Subramanian, K. Kawakami et C. Dyer, " Neural architectures for named entity recognition ", arXiv Prepr. arXiv1603.01360, 2016.
[6] C. N. dos Santos et V. Guimaraes, " Boosting named entity recognition with neural character embeddings ", arXiv Prepr. arXiv1505.05008, 2015.
[7] W. Liu et al, " Ssd : Single shot multibox detector ", dans European conference on computer vision, 2016, pp. 21-37.
[8] R. Girshick, " Fast r-cnn ", in Proceedings of the IEEE international conference on computer vision, 2015, pp. 1440-1448.
[9] S. Ren, K. He, R. Girshick et J. Sun, " Faster r-cnn : Towards real-time object detection with region proposal networks ", arXiv Prepr. arXiv1506.01497, 2015.
[10] T.-Y. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan et S. Belongie, " Feature pyramid networks for object detection ", dans Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 2117-2125.
[11] Z. Deng, H. Sun, S. Zhou, J. Zhao, L. Lei et H. Zou, "Multi-scale object detection in remote sensing imagery with convolutional neural networks,". ISPRS journal of photogrammetry and remote sensing, 145, 2018, 3-22.

Plus ...

Retour haut de page