Análisis de imágenes para la clasificación de solicitudes de intervención de mantenimiento

Análisis de imágenes Imagen destacada

Las tecnologías y los sistemas de automatización de las tareas de mantenimiento y de gestión de los equipos se utilizan en varios casos de diferentes ámbitos empresariales, como la seguridad o la industria alimentaria, por ejemplo. Las tecnologías utilizadas han alcanzado una fase de maduración que permite su uso en casos reales, según la especificidad de la aplicación práctica. Sin embargo, siguen existiendo incertidumbres sobre el desarrollo de un enfoque que permita tratar varios casos de uso diferentes (necesarios para automatizar el proceso de validación del CI) porque no conocemos muchos trabajos sobre este tema. Así que realizamos una primera fase de análisis a partir de las imágenes (o tipos de imágenes) que tenemos, para reducir el campo de pistas a seguir.

Contexto

El objetivo de este proyecto es automatizar una parte de las acciones de mantenimiento de los equipos. Estas acciones son principalmente el inventario y el seguimiento temporal de los equipos, para garantizar su funcionamiento y evitar su deterioro. Algunas de ellas son repetitivas y requieren que el personal sobre el terreno recoja la información, para el inventario de los equipos, por ejemplo. Sería posible utilizar sistemas de sensores para recoger esta información y dedicar el trabajo humano a su interpretación y toma de decisiones.

En este proyecto, nos centramos en las consultas de intervención de mantenimiento (IQ) en Carl Source. Las escriben los clientes que han detectado un problema en un lugar determinado, como una fuga de agua en el baño, una alarma en la pantalla de control, un equipo que no funciona, etc., o para expresar una necesidad determinada, como la mejora de un equipo, un mantenimiento especial (desratización, cambio de aceite, etc.).
El proceso actual para que los clientes soliciten una intervención es escribirla del software de mantenimiento del sitio, que la validará (o no) y hará que la realice un técnico. Se han realizado algunos trabajos en la DRIT para clasificación automática del coeficiente intelectual escrito. Sin embargo, en este proyecto estamos estudiando las posibilidades de automatizar el CI a partir de una simple imagen. Casos concretos para utilizar el análisis de imágenes para la automatización del CI serían: una grieta en una pared, la corrosión en una tubería, un cable colgando, etc.
En este artículo se informará de los trabajos existentes sobre el tratamiento de imágenes, sobre los casos concretos mencionados y se reflexionará globalmente sobre lo que se podría considerar concretamente.

El trabajo actual del DRIT

En Berger-Levrault se han realizado varios trabajos para evaluar posibles enfoques que utilicen el aprendizaje profundo para la gestión y el mantenimiento de equipos/objetos. Sus objetivos son automatizar la fase de inventario sobre algún tipo de objeto o equipo, a partir de imágenes de datos:

Estado general de la ciencia y la técnica

El procesamiento de imágenes es una disciplina de la informática y las matemáticas aplicadas que estudia las imágenes digitales y su transformación, para mejorar su calidad o extraer información. El reconocimiento de patrones y, en términos más generales, la visión por ordenador es una de las tareas más importantes de este amplio campo de investigación.

Históricamente, es David Marr quien formalizó la primera detección precisa de líneas de contorno en una imagen en 1980. En la década de 1990 las tecnologías de resolución han mejorado, especialmente gracias al método wavelet. A partir de los años 2000, se han realizado importantes innovaciones en casos de uso específicos limitando el problema general, como el reconocimiento óptico de caracteres (OCR) o el reconocimiento facial.
Después, el reconocimiento de objetos ha avanzado mucho con las técnicas de aprendizaje automático. Estas técnicas proponen representar las imágenes como vectores de patrones multidimensionales llamados vectores de características. A continuación, se utiliza un método de aprendizaje para deducir información útil (como el contenido semántico de una imagen) a partir del descriptor.
Desde 2012, el aumento de la red neuronal convolucional (CNN) utilizando Deep Learning permitió importantes avances en varias tareas clásicas del procesamiento de imágenes como:

  • Clasificación de imágenes, asociando una clase a una imagen que entra,
  • Segmentación semántica, asociando una clase a cada píxel de la imagen,
  • Detección de objetos, ajustar un cuadro de envoltura alrededor de cada objeto en la imagen,
  • Segmentación de instancias, recortando con precisión cada objeto de la imagen.
Figura 1: Ilustración de los diferentes niveles de procesamiento de imágenes
Figura 1: Ilustración de las diferentes tareas de procesamiento de imágenes

Caso de uso para el mantenimiento

Distinguimos varios casos de uso, que aunque muy diferentes entre sí, se cruzan con el tema del mantenimiento automatizado:

  • Corrosión/oxidación: localización precisa de la corrosión en la superficie metálica, ya sea a partir de imágenes de materias primas, o de tuberías, imágenes de piezas fabricadas.
  • Grieta: ubicación precisa de la grieta en las imágenes de la fachada del edificio o en los flujos de vídeo de tráfico.
  • Ventanas: detección y caracterización de ventanas (en buen estado o rotas) a partir de fotos de la fachada del edificio o de fotos tomadas desde el interior.

Métodos de aprendizaje profundo

Las CNN, que permiten una revolución del tratamiento de la imagen, se basan en una secuencia sucesiva de operaciones simples (llamadas capas) que, puestas de punta a punta, permiten el cálculo de una función no lineal muy compleja.
La principal operación de la CNN es la capa de convolución. Permite optimizar la extracción sobre características interesantes junto con la resolución de un problema específico como la clasificación de imágenes, donde el uso de descriptores sólo permite optimizar la segunda.
En la arquitectura más importante de la CNN, podemos citar:
AlexNetLa primera CNN "en funcionamiento", consistente en una convolución de tres capas y un clasificador;
UNet y SegNetque permiten la tarea de segmentación semántica con la introducción de capas de deconvolución que permiten obtener una estructura en "U" simplificando el problema de la predicción de la clase para cada píxel.

Figura 2: Arquitectura de SegNet con su estructura en "U
Figura 2: Arquitectura de SegNet con su estructura en "U

Arquitectura de detección de objetos en la que distinguimos:

  • Enfoque en dos tiempos, como FasterRCNN, lo que permite predecir cajas de envoltura robustas, pero requiere más tiempo de cálculo.
Figura 3: Arquitectura de la red FasterRCNN
Figura 3: Arquitectura de la red FasterRCNN
  • Enfoque de disparo único, como YOLO que es más rápido pero menos robusto.
Figura 4: Arquitectura de la red SSD
Figura 4: Arquitectura de la red SSD

Enfoque existente para los casos de uso estudiados

Todos los casos de uso estudiados se basan en los mismos enfoques desde el punto de vista técnico. Podemos citar los umbrales, los detectores de contornos y las operaciones de morfología.
Los trabajos más recientes se basan más en la CNN para completar varias tareas relacionadas con nuestros casos de uso, como la clasificación y la detección de objetos.

Caso de corrosión

Hemos encontrado numerosos estudios, programas y conjuntos de datos que parecen funcionar adecuadamente (observamos que estos estudios se realizan sobre la corrosión flagrante o sobre grandes zonas de corrosión, lo que dificulta la evaluación del rendimiento de los métodos). Utilizan o bien la colorimetría y el concepto de textura mediante técnicas de análisis clásicas, o bien la CNN.
Encontramos en Github, algunos programas existentes (Corrosion Detector por ejemplo) y numerosos conjuntos de datos disponibles en internet para el entrenamiento de imágenes.

Figura 5: Detección de la corrosión a partir de técnicas de tratamiento de imágenes
Figura 5: Detección de la corrosión a partir de técnicas de tratamiento de imágenes
Figura 5: Detección de la corrosión a partir de técnicas de tratamiento de imágenes
Detección de la corrosión mediante un enfoque de cuadrícula y clasificación
Figura 6: Detección de la corrosión por cuadrícula y enfoque de clasificación
Figura 7: Detección de la corrosión con detección de objetos en la red
Figura 7: Detección de la corrosión con detección de objetos en la red

Caso de crack

Para este caso, observamos muchos trabajos sobre grietas en carreteras o puentes. Sus diagnósticos se basan en la definición de grieta según la teoría de Chambon: "Crack": es un conjunto de píxeles con un más oscuro nivel de gris que el fondo de la imagen. Además, una grieta puede verse como un conjunto de pequeños segmentos con diferente orientación conectados entre sí". Aunque volveremos a señalar que las imágenes muestran grietas extremadamente nítidas.

Figura 8: Ilustración del uso de la red SSD para la detección de grietas
Figura 8: Ilustración del uso de la red SSD para la detección de grietas

Muchas publicaciones demuestran que los resultados obtenidos con las técnicas clásicas de tratamiento de imágenes permiten obtener buenos resultados.
Incluso hemos probado algunos modelos de reconocimiento sencillos gracias a los distintos algoritmos de detección de contornos que ofrece Open-Cv con resultados satisfactorios. Aunque estos métodos muestran una gran ventaja, ya que no necesitan un aprendizaje específico, sólo parecen estar adaptados a superficies planas como carreteras o fachadas de hormigón.

Caso de Windows

Este último caso parece el más delicado, porque las técnicas de tratamiento de imágenes parecen ser mucho menos eficaces, sobre todo si las fotos se toman desde cierta distancia. Enseguida observamos que el reconocimiento de las paredes de vidrio transparente es mucho más difícil.
Existen algunas aplicaciones para analizar la pantalla rota de los móviles, aunque las imágenes son de primer plano, por lo que la detección parece más sencilla. Encontramos algunos elementos que permiten reconocer las ventanas de una fachada, pero se basan en sus contornos, utilizando un algoritmo de detección de esquinas. También encontramos un aplicación para reconocer espejos y gafas de pared que parece funcionar.

Soluciones tecnológicas

Inventario automático / Logística

Se han comercializado varias soluciones para automatizar las tareas de inventario o el procesamiento de paquetes en el almacén. Se basan en una logística restrictiva: los equipos deben guardarse en un almacén preciso, cada punto debe tener su propio código QR o de barras, la vía de acceso debe estar despejada para los drones (aéreos o terrestres), etc. La tarea de procesamiento de imágenes es entonces mucho menos complicada, ya que sólo hay que detectar el código QR/de barras.

Visión industrial

El enfoque industrial habitual consiste en tomar una foto de cerca de cada producto, para luego guiar el proceso de fabricación, la mayor parte del tiempo en controles de calidad.
Aquí encontramos un uso creciente de la CNN para clasificar, de hecho, ya que el proceso de imagen está completamente controlado. Una gran base de datos puede servir para entrenar a la CNN para que reconozca las diferentes imperfecciones de fabricación o el nivel de calidad del producto.

Figura 9: Control de calidad mediante técnicas de tratamiento de imágenes
Figura 9: Control de calidad mediante técnicas de tratamiento de imágenes
Figura 9: Control de calidad mediante técnicas de tratamiento de imágenes

Por otro lado, observamos un importante auge del procesamiento de imágenes en los procesos de automatización industrial: control de la línea de producción, recepción de paquetes, automatización del proceso de facturas, devolución de coches de alquiler, etc.

Solución de recuento y seguridad

Numerosas empresas solicitan una solución de reconocimiento de objetos, por motivos comerciales o por necesidades de seguridad. Observamos un aumento de la instalación de cámaras de seguridad que utilizan sistemas de alerta IA.

Reconocimiento y semental de dronesy

Varias empresas han lanzado el procesamiento de imágenes con drones que permiten recoger información valiosa a gran distancia. La ventaja de estas soluciones es su capacidad para preprocesar las imágenes y generar alertas en tiempo real.

Para concluir

Hoy en día, observamos las posibilidades de ejecutar diversos trabajos con técnicas de procesamiento de imágenes. Nuestros tres casos de uso estudiados muestran que es posible detectar grietas, corrosión y ventanas rotas. Otros escenarios parecen posibles, como un cable colgante o un enchufe roto.
Creemos que la principal preocupación de este proyecto es la imagen de entrada, su calidad y la capacidad de reconocer los equipos implicados.

Más ...

Ir arriba