Rastros de software para detectar fraudes en BL.Enfance

Compartir por correo electrónico

Los comportamientos fraudulentos pueden detectarse a partir de las trazas aplicativas. En este trabajo, utilizamos las trazas aplicativas de BL.Enfanceuno de nuestros programas informáticos dedicados a la facturación y gestión de actividades infantiles. Nos centramos específicamente en detectar la modificación de variables como el cociente familiar (Q-CAF) y el periodo de facturación, que pueden modificarse para cambiar los importes de las facturas.

Estructura de los casos de fraude de BL.Enfance

Entre los posibles casos de fraude en la aplicación BL.Enfance, "fraude sobre el cociente CAF "es el más fácil de manejar. Consiste en la alteración de un cociente CAF sobre un periodo de facturación ya finalizado (para el mismo pagador). Este escenario de fraude se realiza generalmente a través de estos tres casos de uso:

  • UC1: " dar un valor Q-CAF durante un periodo específico "
  • UC2: "cálculo de la factura durante el mismo periodo"
  • UC3: " modificación del Q-CAF dado para el período calculado previamente "

Para detectar la ejecución de cada uno de estos tres casos de uso, nos basamos en cuatro eventos específicos, que son:

  • CREATION_QUOTIENT : La modificación de un cociente CAF
  • COCIENTE_DE_SUPRESIÓN: La supresión de un cociente CAF
  • FACTURATION_CALCUL_FACTURE_INDIVIDUELLE: El cálculo de una factura individual
  • FACTURACIÓN_SUPRESIÓN_FACTURA_INDIVIDUAL: la supresión de una factura individual
Los rastros de BL.Enfance se componen de nueve atributos, como se muestra aquí.

La detección del fraude como análisis de la serie temporal

Antes de entrar en el prototipo de detección de fraudes propuesto, los rastros tienen que pasar primero por dos fases:

Fase de extracción de rastros : Eventos para los que el campo "acción" tiene uno de los siguientes valores:

  • COCIENTE_DE_CREACIÓN
  • COCIENTE_DE_SUPRESIÓN
  • FACTURATION_CALCUL_FACTURE_INDIVIDUELLE
  • FACTURACION_SUPRESION_FACTURA_INDIVIDUAL

La extracción se realiza a partir del conjunto de datos de mongoDB.

Fase de anonimización : La anonimización se refiere a los campos:

  • Inicio de sesión
  • IP
  • ValeurActuelle
  • IdClient

El uso de un SHA 2-256 función hash (reproducible y no invertible).

También hay que tener en cuenta el usuario que inició las acciones para ver si las actividades de alteración del cociente familiar y la de facturación en el caso sospechoso provienen del mismo usuario o no y las duraciones entre acciones para analizar el tiempo transcurrido entre la alteración del cociente familiar y la facturación que debe ser corto en un caso sospechoso.

Un sencillo algoritmo de 5 pasos

Paso 1: lectura de los datos anonimizados y construcción de una tabla de correspondencia: pagador => lista ordenada de eventos relacionados con este pagador:

Paso 2: construcción de los periodos de actividad facturados a partir de los eventos: FACTURACIÓN_CÁLCULO_FACTURA_INDIVIDUAL y FACTURACIÓN_SUPRESIÓN_FACTURA_INDIVIDUAL

Paso 3: construcción de los períodos sujetos a los cocientes Q-CAF con los eventos: COCIENTE_DE_CREACIÓN, COCIENTE_DE_SUPRESIÓN

Paso 4: Superposición de los períodos.

Paso 5: Detección de contextos sospechosos según el orden de las acciones realizadas en el software (para el mismo pagador).

Resultados y estadísticas

A continuación ofrecemos algunas cifras rápidas sobre los resultados en la base de datos de producción en BL.Enfance.

Resultados obtenidos sobre los datos de producción de BLEnfance de
principios de febrero hasta el 23/04/2020
  • Número total de rastros: 35466
  • Número de pagadores: 25204
  • Número de actividades por pagador: 1,41 actividad/ pagador
  • Frecuencia de aparición del pagador: Cuántos pagadores tienen el número de actividades X
Porcentaje de cada acción (datos de producción)
Número de acciones por pagador (datos de producción)

Conclusión y trabajos futuros:

  • Para concluir podemos decir que aún tenemos que trabajar en otro tipo de facturación que también ofrece BLEnfance que es la "facturación agrupada"
  • Este tipo de facturación es el que más casos de fraude podemos encontrar en la vida real
  • Después de hacer este segundo paso estamos planeando generalizar el prototipo de detección de fraude utilizando algunas técnicas de aprendizaje automático o tal vez utilizando algunas herramientas de navegación de gráficos
  • Pero hasta esta hora, no hemos tenido acceso a los rastros con las etiquetas que deberían permitirnos seguir trabajando

Hasta conseguir los rastros necesarios, hemos investigado otros campos "históricos". En el formulario de "datos CAF" y "datos contables adicionales", hemos identificado 8 campos que pueden ser un candidato a variable de detección de fraude:

Más ...

Ir arriba