RPA para recoger automáticamente los contactos a través de la web

Compartir por correo electrónico
Ilustración de raspado web.

Para agrandar el red de contacto de Berger-Levrault, trabajamos en colaboración con el departamento de ventas para recoger las últimas noticias sobre los DGS (Director General de Servicios) en Francia. El DGS está directamente vinculado con el representante elegido y asegura la coordinación general de los servicios para implementar los proyectos del municipio. Este cargo estratégico encarna la gestión de un gobierno regional.
Cuando un DGS cambia, los contratos de servicios de la comunidad se renuevan o cambian. Es una buena ocasión para que nuestras fuerzas de ventas se pongan en contacto con el nuevo representante, le presenten a Berger-Levrault y le hagan saber cómo podemos apoyarle en su trabajo diario con nuestra amplia oferta de productos. Sin embargo, como hay cientos de DGS en Francia, es difícil estar al tanto de todos los cambios en los gobiernos regionales. Para ayudar al departamento de fuerza de ventas hemos trabajado en un enfoque de dos pasos para seguir automáticamente el flujo de DGS en Francia y saber:

  • cuando se produzca una nueva elección,
  • el municipio del que procede el representante elegido,
  • en qué municipio ha sido elegido.

A partir de esta información, nuestros comerciales pueden ponerse en contacto con la nueva DGS.
Nuestro enfoque se compone de un primer paso para recoger los datos que buscamos en la web y un segundo paso para estructurar estos datos utilizando métodos de Procesamiento del Lenguaje Natural (PLN).

Recogida de datos de la web

Para recoger la información que buscamos en la web, utilizamos el método de web scraping. Este método consiste en extraer el contenido de un sitio web mediante un programa informático. Su principio es, en primer lugar, especificar al programa el camino a seguir para recoger la información que buscamos, eligiendo después una frecuencia para recogerla automáticamente en un momento determinado.
El programa que utilizamos se llama Scrapcoon 🦝, es un pequeño robot mapache que permite aspirar datos de los motores de búsqueda Qwant y Ecosia con 400 peticiones al día. Dado que todos los sitios web no se construyen de la misma manera y evolucionan rápidamente, el uso de motores de búsqueda en lugar de sitios web específicos como fuente de raspado nos permite construir un enfoque genérico sostenible, ya que incluso si los motores de búsqueda evolucionan, sus estructuras se mantienen similares.
Para no ser bloqueado en nuestro proceso de petición por las herramientas anti-scrapper, el programa informático hace peticiones aleatorias a veces, introduce tiempo de pausa y la dirección IP cambia cada vez que se reinicia la Máquina Virtual.

Ejemplo de investigación de Ecosia
Figura 2: Ejemplo de investigación de Ecosia

A continuación se muestra un ejemplo de datos de la web raspados.

{'título': 'Saint-Cyprien. Didier Rodière, nuevo DGS en mairie",

'url': 'https://www.leprogres.fr/societe/2022/06/27/didier-rodiere-nouveau-dgs-enmairie',

'description': 'Didier Rodière. Photo Progrès /Éliane BAYON. Didier Rodière ha tomado
su puesto de director general de servicios (DGS) en la alcaldía de Saint-Cyprien el 13
de junio. Il remplace Émilie Perrin, partie ...',

'posición': 7,

'localización': 'Ambérieu-en-Bugey',

'date_scraping': '2022-06-29 13:55:54',

'source': 'ecosia'}

Como puede ver, recogemos el título de la página, la url de la que procede la información, la meta descripción de la página, la localización, el día en que se ha recogido la información y la origen de la que procede.

Extracción de información mediante métodos de PNL

La información recogida mediante nuestro método no está estructurada. Para hacerla fácilmente utilizable, procesaremos métodos de Procesamiento del Lenguaje Natural (PLN) como el análisis semántico y las reglas lógicas. Por último, utilizamos un modelo de Pregunta-Respuesta (QA) basado en CamemBERT y se entrenó con tres conjuntos de datos franceses facilitados por la organización gubernamental Etalabespecializada en Inteligencia Artificial.

Ejemplo de extracción de información.
Figura 2: Ejemplo del proceso de extracción de información

Por último, con la información recogida edita automáticamente un informe diario de todos los cambios observados. El valor añadido de nuestro enfoque es que se construye de forma declarativa, lo que significa que no decimos dónde buscar sino sólo lo que buscamos. También significa que si queremos encontrar otra información, como el jefe de investigación de las empresas privadas, por ejemplo, sólo tenemos que cambiar la pregunta y no tenemos que construir un nuevo modelo.

Más ...

Scroll al inicio