Cómo aplicar el núcleo de Christoffel-Darboux en la detección de anomalías en línea con poca parametrización

Compartir por correo electrónico
Propiedades incrementales
Propiedad incremental GIF

Propiedades incrementales

Kevin Ducharlet es candidato a doctor en el equipo del DRIT. Desde hace un año y medio, comenzó su tesis titulada: "Certificación y confianza en los datos de los sensores: detección de valores atípicos y anormales en las series temporales." Los datos de los sensores se generan mediante dispositivos que miden el comportamiento de un activo físico. Estos datos pueden utilizarse para informar o introducir otro sistema o para guiar un proceso. El objetivo final de su proyecto es certificar la calidad de los datos de los sensores desarrollando un software de detección de anomalías que sugiera una solución al software con el que se empareja.

Para certificar los datos de los sensores, optamos por trabajar en la detección de anomalías que permiten asignar un índice de normalidad a cada medida. Empezamos a trabajar en el método presentado en este artículo para desarrollar un método común, sencillo de leer y practicable en cualquier sistema industrial sin una parametrización específica. Una condición difícil en el estado del arte. Estamos trabajando en un método que utiliza el núcleo de Christoffel-Darboux para obtener una envoltura alrededor de una nube de puntos. Este método no se ha utilizado mucho en el análisis de datos hasta ahora, aunque tiene grandes ventajas en series temporales multivariantes (para medir un fenómeno, Una serie temporal multivariante tiene más de una variable dependiente del tiempo. Cada variable no depende exclusivamente de sus valores pasados, sino que también tiene cierta dependencia de otras variables. Esta dependencia se utiliza para predecir los valores futuros) la detección de anomalías.

Las características de esta solución son:

  • El modelo puede generarse con un parámetro completouna calidad/ventaja considerable en comparación con otros métodos.
  • El modelo respondeEl modelo puede actualizarse muy rápidamente. Con un número bajo de variables, el modelo calcula una tasa de observación antes de que entre una nueva variable.
  • Cuando la mayoría de los métodos necesitan un índice de contaminación para establecer el umbral de decisión en la puntuación, este método establece un umbral de referencia que depende del parámetro d y del número de variables. Sin embargo, la calidad del resultado con este umbral depende de la aplicación y del parámetro d elegido.
  • La complejidad del cálculo no depende de los números de las observaciones, sino del número de variables y del parámetro d. Se trata de una gran baza en el cálculo de big data con pequeñas variables.

(Fuente: Lasserre, J. B., y Pauwels, E. (2019). La función empírica de Christoffel con aplicaciones en el análisis de datos. Advances in Computational Mathematics, 45(3), 1439-1468.)

Paso de datos del sensor

Para pasar por el límite del umbral, utilizamos otra propiedad de la función de tasa. Si generamos varios modelos con diferentes parámetros d, el crecimiento de la puntuación en función de d será polinómico para los puntos regulares y exponencial para las anomalías. Basándonos en esto, podemos generar diferentes modelos y estudiar el crecimiento de la puntuación para tomar una decisión sin fijar un umbral. Incluso con la necesidad de actualizar los modelos y medir cada observación, mantenemos una buena velocidad de cálculo en esta aplicación.

¿Qué viene ahora?

Pueden aparecer inestabilidades computacionales dependiendo de la normalización de los datos, estamos trabajando en esta disfunción. A continuación, realizaremos una publicación científica sobre este trabajo y su aplicación en datos reales para tener retroalimentación sobre el método.

Para continuar...

 

Curvas de nivel y envoltura de la nube de puntos

Más ...

Ir arriba