En este blog se exploran las posibilidades de analizar datos y crear modelos basados en la Teoría de la Información usando Powerhouse

martes, 17 de enero de 2012

¿Por qué segmentar en forma automática si puedo hacerlo manualmente?

Es una práctica bastante común segmentar una cartera de clientes utilizando métodos manuales. Pero una segmentación automática tiene varias ventajas y en este artículo trataré de comparar ambos métodos utilizando un ejemplo con datos reales.

El objetivo de una segmentación es encontrar grupos de clientes que se parezcan entre sí y que como grupo se distingan de otros segmentos.  La comparación entre clientes se realiza en base a las variables elegidas para identificarlos. Por ejemplo, una empresa que vende electrodomésticos procesó las ventas de 5 años de una muestra de 10.000 clientes y eligió las siguientes variables para crear los segmentos:

  1. Visitas anuales
  2. Productos comprados anualmente
  3. Venta anual
  4. Margen porcentual anual

Antes de realizar la segmentación se calcularon los promedios de cada variable en el total de la muestra
El primer intento de segmentación lo realizó utilizando el Margen, ya que uno de los objetivos del proyecto fue encontrar segmentos con distintos márgenes. Se utilizó el siguiente criterio (arbitrario):
Si el margen <= 5%, segmento 1.
Si es >5% y <= 15%, segmento 2,
Si es >15%, segmento 3
La siguiente tabla muestra los promedios de cada variable en su segmento
Los segmentos discriminan muy bien el margen, lo cual es lógico debido al método utilizado para agrupar los clientes. Pero el resto de las variables no muestra demasiadas diferencias. Esto es razonable. De hecho, dos segmentos distintos podrían tener algunas de sus variables con promedios similares. El problema de esta segmentación es que la única variable que distingue los segmentos es el margen, por lo que la utilidad de los mismos es casi nula.
El segundo intento se realizó utilizando las visitas y los productos comprados.
Combinando 3 intervalos de visitas y 2 intervalos de productos comprados, se obtuvieron 4 segmentos (combinando 3 intervalos con otros 2, deberíamos obtener 6 pares, pero como existe una correlación muy alta entre la cantidad de visitas y los productos comprados, se obtienen solamente 3 pares). La siguiente tabla muestra los promedios

Las visitas y los productos ahora están bien discriminados entre los segmentos. La venta, debido a que es función de las visitas y productos comprados, también está discriminada. Pero el margen es casi el mismo en todos los segmentos!

Una tercera alternativa sería incluir el margen en los criterios de separación, pero en este método manual existen varios criterios arbitrarios:
  1. Las variables elegidas para discriminar los segmentos
  2. Los intervalos de las variables
  3. La cantidad de segmentos a crear

¿Quién nos asegura que los criterios de separación coinciden con una segmentación natural? O sea, cómo sabemos por ejemplo, que un grupo de clientes similares visitan 5 y no 8 veces al año el local. En una segmentación manual, este valor (5, 8 o cualquier otro valor) es uno de los criterios de separación que debe elegirse.
¿Cómo sabemos que una variable, por ejemplo la edad, realmente discrimina el comportamiento de los clientes?

Una segmentación realizada con un algoritmo que sea capaz de resolver estas cuestiones utilizando todas las variables a la vez, podrá encontrar los segmentos naturales que muy probablemente resuelvan el problema de negocio original.

La siguiente tabla de promedios muestra los segmentos encontrados por Powerhouse



El segmento 4 tiene el mayor margen, pero como la venta es casi la cuarta parte de la venta del segmento 3, quizás este último sea el segmento más interesante.
El segmento 1 merece un análisis más profundo para averiguar las razones de por qué, siendo muy similar al 2, el margen es negativo.

En este ejemplo utilicé un modelo con pocas variables para mostrar las ventajas de utilizar métodos automáticos de segmentación. Si la cantidad de variables es mayor, el método manual es más complicado y con más razón se justifica utilizar métodos automáticos de búsqueda de segmentos naturales.