Procesamiento inteligente de documentos (IDP), un componente clave para la automatización integral de los procesos empresariales

Compartir por correo electrónico

Los datos de la empresa son una parte fundamental de la toma de decisiones, pero por desgracia, muchos de estos datos están en un formato no estructurado: documentos PDF, escaneos JPG, correos electrónicos, etc. Esta representación desestructurada es difícil de explotar por la máquina, lo que complica la automatización de los procesos empresariales. Procesamiento inteligente de documentos (IDP) captura, extrae y procesa datos de una variedad de formatos de documentos. Transforma los datos no explotables en datos estructurados fácilmente manipulables por un proceso empresarial automatizado. Sin las soluciones IDP, el proceso requerirá la intervención humana para leer los documentos, extraer los datos e introducirlos. El procesamiento inteligente de documentos libera todo el potencial de la automatización. Para cumplir su función, una solución IDP utiliza herramientas de inteligencia artificial, como el análisis de imágenes, el procesamiento del lenguaje natural [1-6] y el aprendizaje automático profundo [7-10]. Estas herramientas han tenido un gran éxito en los últimos años, gracias a la gran cantidad de datos generados a nivel mundial, la disponibilidad de capacidad de computación bajo demanda con costes razonables, y los métodos y modelos teóricos aportados por los investigadores en este campo.

El tratamiento de documentos está en el centro de los sectores de actividad de Berger-Levrault. Podemos citar como ejemplos: el control de flujos incrustando PDFs antes de ser enviados a la DGFIP, la extracción de información de los documentos de identidad, la digitalización de formularios en papel, etc. Recientemente, dentro de la DRIT, hemos desarrollado un servicio para el control automático de los flujos de facturas. Los productos de Berger-Levrault generan flujos de facturas que se envían a la DGFIP en formato XML. La normativa impone una serie de normas relativas a la forma y el contenido de estos flujos, así como a la carta gráfica de las facturas. Un flujo no conforme es sistemáticamente rechazado por la DGFIP. De hecho, el incumplimiento puede tener consecuencias perjudiciales para miles de personas (véase el artículo detallado aquí).

El servicio incorpora un modelo de aprendizaje profundo de tipo R-CNN más rápido que captura elementos relevantes de las facturas, como la dirección del remitente, la dirección del destinatario, la matriz de datos y el logotipo. Este modelo se entrena con un número muy reducido de documentos etiquetados (unas decenas de facturas) y, a pesar de su complejidad, puede ejecutarse rápidamente en una máquina equipada con una GPU (menos de 10 minutos para un flujo compuesto por 260 facturas).

R-CNN más rápido [11]

El servicio se expone a través de una API REST. Luego desarrollamos una UI en Angular con una arquitectura de micro-frontend, que se basa en BL.Identity. El servicio de "control de facturas", la API REST y el micro-frontend de "control de facturas" son el primer caso de uso de BL.IDP. El siguiente diagrama muestra la arquitectura global:

Arquitectura global de BL.IDP

El siguiente vídeo muestra una demostración de BL.IDP. El usuario cargará una factura en formato PDF. Una vez cargado el documento, BL.IDP lo hará en segundo plano:

  1. Transforme el PDF en una imagen,
  2. Capture los diferentes elementos de cada factura (dirección del remitente, Datamatrix y logotipo) con el modelo Faster-RCNN,
  3. Extraer el texto mediante OCR,

Cuando el informe está disponible, la interfaz de usuario permite visualizarlo. Podemos ver una imagen con los elementos capturados por el modelo y los datos extraídos.

Actualmente estamos interesados en evaluar el esfuerzo necesario para explotar un modelo de localización de elementos para otros casos de uso. Recordamos que el modelo se entrena con un conjunto de datos anotados. Buscamos determinar el nivel de sensibilidad del modelo a la variación de la estructura de los documentos. Por ejemplo, un modelo entrenado sobre facturas con anotaciones sobre las direcciones de los destinatarios, ¿será eficiente para localizar direcciones en los documentos de identidad? ¿Cuál es la métrica de sensibilidad que hay que utilizar? Si el modelo no rinde lo suficiente, ¿hay que volver a entrenarlo desde el principio con varias tarjetas de identidad de muestra? ¿Debemos mantener el modelo actual y luego hacer algunos ajustes con algunas tarjetas de identificación de muestra? ¿Es factible crear una plataforma genérica y automatizada para generar modelos de procesamiento inteligente de documentos con la menor cantidad de ajustes manuales y repetitivos por parte de un científico de datos?

Referencias

[1] Y. Li, K. Bontcheva y H. Cunningham, "SVM based learning system for information extraction", en International Workshop on Deterministic and Statistical Methods in Machine Learning, 2004, pp. 319-339.
[2] T. Mikolov, I. Sutskever, K. Chen, G. Corrado y J. Dean, "Distributed representations of words and phrases and their compositionality", arXiv Prepr. arXiv1310.4546, 2013.
[3] J. Pennington, R. Socher y C. D. Manning, "Glove: Global vectors for word representation", en Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), 2014, pp. 1532-1543.
[4] X. Ma y E. Hovy, "End-to-end sequence labeling via bi-directional lstm-cnns-crf", arXiv Prepr. arXiv1603.01354, 2016.
[5] G. Lample, M. Ballesteros, S. Subramanian, K. Kawakami y C. Dyer, "Neural architectures for named entity recognition", arXiv Prepr. arXiv1603.01360, 2016.
[6] C. N. dos Santos y V. Guimaraes, "Boosting named entity recognition with neural character embeddings", arXiv Prepr. arXiv1505.05008, 2015.
[7] W. Liu et al., "Ssd: Single shot multibox detector", en European conference on computer vision, 2016, pp. 21-37.
[8] R. Girshick, "Fast r-cnn", en Proceedings of the IEEE international conference on computer vision, 2015, pp. 1440-1448.
[9] S. Ren, K. He, R. Girshick y J. Sun, "Faster r-cnn: Towards real-time object detection with region proposal networks", arXiv Prepr. arXiv1506.01497, 2015.
[10] T.-Y. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan y S. Belongie, "Feature pyramid networks for object detection", en Proceedings of the IEEE conference on computer vision and pattern recognition, 2017, pp. 2117-2125.
[11] Z. Deng, H. Sun, S. Zhou, J. Zhao, L. Lei y H. Zou, "Multi-scale object detection in remote sensing imagery with convolutional neural networks",. Revista ISPRS de fotogrametría y teledetección, 145, 2018, 3-22.

Más ...

Scroll al inicio